OpenAI發布HealthBench 樹立全球醫療AI評估新標準
記者鄧天心/綜合報導
OpenAI於5月13日推出提升AI醫療標準的開源平台「HealthBench」,目的是要更全面、精確地評估AI系統在醫療健康領域的表現和安全性。這次開發集合了來自全球60個國家/地區、26個專業領域的262位執業醫師,這些專業人士共同設計了5,000段多輪醫療對話,並撰寫了48,562個的評分標準。

更多新聞:
國營事業積極數位轉型!台糖導入AI技術 全面優化營運效能
AI辨識監測茶園農作物病害 致理科大獲全國技專生專題競賽獎
Meta推「AssetGen 2.0」一行文字AI幫你3D建模 還比前一代更逼真
與傳統對話式AI差在哪?
HealthBench對話涵蓋急診分流、全球健康、資訊不確定性處理、專業醫病溝通、上下文理解、醫療數據任務與回應深度等七大主題,並以多語言、多專科、病患與醫師雙重視角設計。
與傳統僅限於單輪問答或選擇題的醫療AI評估不同,HealthBench可以多輪式對話,並能夠檢驗AI在臨床推理、個別化需求回應,一段對話都會依據醫師撰寫的評分規則,從正確性、完整性、溝通品質、上下文意識與指令遵循等五大維度檢視,評分過程由GPT-4.1模型執行,並與醫師人工評分進行比對,確保評估標準一致。
OpenAI支援HealthBench 經測試準確率高
根據HealthBench的最新評測結果,OpenAI推出的o3推理模型在多家AI中表現最佳(60%),其次是Elon Musk旗下的Grok(54%)以及Google的Gemini 2.5 Pro(52%)。
OpenAI在內部測試中發現,GPT系列模型在HealthBench醫療評測表現會不斷進步,從一開始的GPT-3.5 Turbo模型僅能達到約16%的總體得分,到之後的GPT-4o提升到32%,而最新的o3模型更是達到60%。
日常生活動碰到緊急事故也不怕 讓AI告訴你怎麼做最好
在OpenAI官方部落格中提到,假設有一位70歲鄰居倒臥在地,雖然還有呼吸但無法回應,當用戶問AI應對措施時,模型會依序給出建議步驟,例如撥打緊急服務電話、檢查呼吸狀況、調整呼吸道等。
HealthBench也會針對模型的回應逐項評分,說明哪些地方做得正確、哪些地方還有改進空間,並給出最終分數,此外,HealthBench支持多達49種語言,涵蓋包括阿姆哈拉語和尼泊爾語等少數語言,並橫跨26個醫療專科領域。
HealthBench的設計理念強調三大核心:第一個是,評分標準聚焦於真實臨床經驗,AI會模擬實際就診流程中的對話與推理;其次,所有評分標準與加權系統均由醫師親自設計,確保評估準則與臨床一致;最後,現有模型在此基準下仍會持續優化。
OpenAI最後也強調,AI能讓醫療知識更加普及,幫助醫護人員做出更好的決策,同時也能提升一般民眾自我健康管理的能力,也令人期待未來的醫療AI將改善目前病房人手不夠的窘境,為人類社會帶來更好的福利。
瀏覽 1,351 次