找AI問健康恐成「請鬼拿藥單」?研究揭準確率不到35%

記者許若茵/編譯

現代人若有身體不適,除了看醫師,也可能上網詢問AI聊天機器人。不過根據國外研究發現,當一般使用者透過大型語言模型LLM尋求醫療建議時,系統正確辨識疾病的比例不到34.5%。

在中午午休時小睡休息,可以幫助你把身體能量回復。示意圖。(圖/123RF)
根據國外研究發現,當一般使用者透過大型語言模型LLM尋求醫療建議時,系統正確辨識疾病的比例不到34.5%。示意圖。(圖/123RF)

研究人員在英國招募1298名參與者,要求他們使用大型語言模型,例如ChatGPT或Meta的Llama 3,嘗試獲得醫療建議。結果顯示,在這種情境下,模型正確判斷病症的比例低於34.5%。

研究指出,目前LLM在醫學知識測試中的表現已可達到與通過美國醫師執照考試US Medical Licensing Exam相當的水準,而且由LLM生成的臨床文件,有時甚至被評為與醫師撰寫的文件相當或更好。

然而研究發現,當一般使用者嘗試透過提問取得相同水準的醫療判斷時,結果並不理想。主要原因是使用者往往沒有提供足夠資訊。研究指出,在抽樣的30次互動中,有16次的初始提問只包含部分資訊。

更多科技工作請上科技專區:https://techplus.1111.com.tw/

研究還指出,在兩個案例中,LLM最初給出了正確回應,但當使用者補充更多細節後,系統反而加入新的錯誤回答。這顯示與聊天機器人持續對話並不一定能提高診斷正確率。在初步診斷之後,LLM提出正確後續處理建議的比例也只有44.2%。

OpenAI的一項調查顯示,在美國有五分之三成年人表示曾使用AI查詢健康資訊。這些使用者通常在感到不適時先向AI尋求資訊,也會在就醫前利用AI準備問題,或用來理解醫師提供的醫療建議。儘管ChatGPT網站上標示「ChatGPT可能會出錯,請查證重要資訊」的提醒,但仍有許多人將聊天機器人的回答視為事實。

研究指出,這項結果提醒人們,在特別是涉及嚴重健康問題時,不應依賴ChatGPT或其他聊天機器人作為醫療指引來源。

資料來源:CNET

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button