OpenAI發布HealthBench 樹立全球醫療AI評估新標準

2025-05-13

記者鄧天心／綜合報導

OpenAI於5月13日推出提升AI醫療標準的開源平台「HealthBench」，目的是要更全面、精確地評估AI系統在醫療健康領域的表現和安全性。這次開發集合了來自全球60個國家／地區、26個專業領域的262位執業醫師，這些專業人士共同設計了5,000段多輪醫療對話，並撰寫了48,562個的評分標準。

gljrzkmwfvzxsbdleu6b — OpenAI在5月13日推出HealthBench，一套專門為醫療領域大型語言模型（LLMs）設計的開源評估標準，目的是要更精確評估AI系統在醫療健康領域的表現和安全性。圖片來源：AI生成

與傳統對話式AI差在哪？

HealthBench對話涵蓋急診分流、全球健康、資訊不確定性處理、專業醫病溝通、上下文理解、醫療數據任務與回應深度等七大主題，並以多語言、多專科、病患與醫師雙重視角設計。

與傳統僅限於單輪問答或選擇題的醫療AI評估不同，HealthBench可以多輪式對話，並能夠檢驗AI在臨床推理、個別化需求回應，一段對話都會依據醫師撰寫的評分規則，從正確性、完整性、溝通品質、上下文意識與指令遵循等五大維度檢視，評分過程由GPT-4.1模型執行，並與醫師人工評分進行比對，確保評估標準一致。

OpenAI支援HealthBench 經測試準確率高

根據HealthBench的最新評測結果，OpenAI推出的o3推理模型在多家AI中表現最佳（60%），其次是Elon Musk旗下的Grok（54%）以及Google的Gemini 2.5 Pro（52%）。

OpenAI在內部測試中發現，GPT系列模型在HealthBench醫療評測表現會不斷進步，從一開始的GPT-3.5 Turbo模型僅能達到約16%的總體得分，到之後的GPT-4o提升到32%，而最新的o3模型更是達到60%。

日常生活動碰到緊急事故也不怕讓AI告訴你怎麼做最好

在OpenAI官方部落格中提到，假設有一位70歲鄰居倒臥在地，雖然還有呼吸但無法回應，當用戶問AI應對措施時，模型會依序給出建議步驟，例如撥打緊急服務電話、檢查呼吸狀況、調整呼吸道等。

HealthBench也會針對模型的回應逐項評分，說明哪些地方做得正確、哪些地方還有改進空間，並給出最終分數，此外，HealthBench支持多達49種語言，涵蓋包括阿姆哈拉語和尼泊爾語等少數語言，並橫跨26個醫療專科領域。

HealthBench的設計理念強調三大核心：第一個是，評分標準聚焦於真實臨床經驗，AI會模擬實際就診流程中的對話與推理；其次，所有評分標準與加權系統均由醫師親自設計，確保評估準則與臨床一致；最後，現有模型在此基準下仍會持續優化。

OpenAI最後也強調，AI能讓醫療知識更加普及，幫助醫護人員做出更好的決策，同時也能提升一般民眾自我健康管理的能力，也令人期待未來的醫療AI將改善目前病房人手不夠的窘境，為人類社會帶來更好的福利。

標籤

2025-05-13

OpenAI發布HealthBench 樹立全球醫療AI評估新標準

與傳統對話式AI差在哪？

OpenAI支援HealthBench 經測試準確率高

日常生活動碰到緊急事故也不怕讓AI告訴你怎麼做最好

推薦工作

發佈留言取消回覆

延長 iPhone 電池壽命！專家揭密 4 大充電禁忌與正確維護指南

精神科醫師揭詐騙最常操弄的「4種心理」：恐懼、信任、孤單、急迫

PAPAYA 電腦教室｜國外瘋傳的AI筆記工作流程！ LLM Wiki讓你的黑曜石筆記升級成能自我進化的第二個大腦！

小鵬L03導入Google Maps Auto SDK 成亞太首家採用車廠

體驗刺激黑市交易！《監獄商店模擬器》究竟該討好囚犯還是巴結獄警

最新科技新聞快訊不錯過!!

與傳統對話式AI差在哪？

OpenAI支援HealthBench 經測試準確率高

日常生活動碰到緊急事故也不怕 讓AI告訴你怎麼做最好

推薦工作

延伸閱讀

精神科醫師揭詐騙最常操弄的「4種心理」：恐懼、信任、孤單、急迫

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

AI科技結合鏡片升級！依視路發表2026系列新品 打造全新視覺體驗

2028年全球半導體設備銷售額預估達2295億美元新高 設備市場可望連續5年成長

聊天機器人成治療新助手！AI打造全天候心理支持 仍難取代真人

增肌不必狂吃！間歇性斷食「同樣長肌肉」還減少脂肪增加

發佈留言 取消回覆

日常生活動碰到緊急事故也不怕讓AI告訴你怎麼做最好

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

2028年全球半導體設備銷售額預估達2295億美元新高設備市場可望連續5年成長

聊天機器人成治療新助手！AI打造全天候心理支持仍難取代真人

發佈留言取消回覆