為什麼AI常會一本正經講錯誤資訊?原來是背後評分機制在搞鬼
記者鄧天心/綜合報導
AI為什麼會產生「幻覺」(hallucination)?OpenAI最近和喬治亞理工學院合作發表了一項最新研究,直指核心原因是因為現在的訓練和評估方式太過鼓勵模型主動給出答案,如果模型誠實地承認「不確定」,會讓各項測驗標準的評分銳減,所以AI系統寧願冒險亂猜,也不肯說「不知道」。
「幻覺」是指AI看似合理卻完全錯誤的回覆,例如OpenAI研究員Adam Tauman Kalai提問「AI是否曾寫過某些論文」,模型不僅自信回覆,還煞有介事地列出三篇從未存在過的文章,原因在於現有訓練與評測機制讓語言模型「不懂裝懂」,例如,在現有的考試型評分下,模型回答「不知道」會被判零分,但即使答案不正確,只要回答就有部分得分機會,於是在高壓競爭中,AI自然學會「寧可猜錯也不空白」的策略。

延伸閱讀:
OpenAI推出「比博士還強」的GPT-5 卻比GPT-4o更冷漠
OpenAI研究團隊以多選題考試比喻當前AI評鑑邏輯,學生遇到不會的題目,如果空白就注定零分,但若亂猜還有機會得分,這樣的制度無異於變相鼓勵勇於嘗試、漠視誤答。
OpenAI進一步解釋,當AI遇到超出訓練資料範圍、無法從已知文本推測答案的開放性問題時,統計上最容易出現幻覺。然而,幻覺未必能靠加大模型規模或單純提升準確度來改善,因為有些真實世界的問題本身就是人類也難以確定的,這時AI更應該能勇於表達「不知道」。可惜在當前的評估環境下,「承認不確定」反而是系統懲罰的對象,只有積極作答的AI才能在評分上勝出。
OpenAI澄清了幾個常見迷思:並非提高資料量、擴增模型就能根除幻覺,也不是所有幻覺都不可預測。事實上,只要評分機制改變,讓「承認不確定」也能獲得合理分數,甚至像考試一樣對錯誤答案扣分,AI學會「謹慎判斷」的可能性就會大幅提升。
研究團隊強調,要提升AI可信度,必須從根本上改革訓練與評估標準,未來應鼓勵AI在資訊不足時誠實說明,減少盲目自信的錯誤輸出。OpenAI最新一代模型已嘗試導入新標準,初步數據顯示,相比前代GPT-4,新模型幻覺率明顯降低45%至80%。這證明制度的調整確實能帶來實質改變。
OpenAI也呼籲,AI產業應該將「誠實」與「可靠性」視為核心價值,不僅要讓AI更聰明,更要讓AI學會「適時安靜」。未來相關評估應強化對誠實、審慎、保守作答的獎勵,才能幫助AI系統真正成為人類可信賴的助手。
資料來源:OpenAI