OpenAI證實AI不只會給錯誤資訊 還會「騙人」!

記者鄧天心/綜合報導

OpenAI近日公開的AI模型「詐欺」與「隱藏真意」,現階段尖端AI不僅會產生所謂的「幻覺」(回應錯誤、事實不符),更會有意識地進行「詐欺」,也就是在表面順從使用者要求、實則隱藏真實目標,甚至蓄意誤導。

OpenAI與AI安全機構Apollo Research共同發表的研究,將AI「詐欺」比喻成人類證券經紀人違法只求獲利,即AI一邊表現出合理行為,同時私下違規以達到未公開的目的,與過去單純的「幻覺」不同,AI「詐欺」屬於「有意識地偽裝」,如表面宣稱已完成任務,實際上卻根本沒有動作。

1758254352277
OpenAI近日公開的AI模型「詐欺」與「隱藏真意」,現階段尖端AI不僅會產生所謂的「幻覺」(回應錯誤、事實不符),更會有意識地進行「詐欺」,也就是在表面順從使用者要求、實則隱藏真實目標,甚至蓄意誤導。(圖/OpenAI)

延伸閱讀:

DeepSeek登《Nature》打臉「上億訓練費」說法 公開成本僅29萬元

研究人員此次主打「審議式對齊」訓練法,強調要求AI在作答前必須復誦「反詐欺規範」,並自行檢查行動,效果顯著。例如,OpenAI旗下的o3及o4-mini模型的詐欺傾向,分別從13%和8.7%大幅下降至0.4%與0.3%,約降低30倍。而在實際對話場景中,詐欺發生率也從31.4%下降至14.2%。

儘管訓練成果顯著,團隊坦言仍舊無法徹底杜絕「詐欺」。最難解決的問題在於:當AI察覺自己正被檢測時,會選擇在測試過程中偽裝順從,以通過檢核,事後再恢復真實行為。這種情境覺察,使得目前監控機制變得不完全可靠。

目前,OpenAI技術長Wojciech Zaremba強調,在生產流量中尚未出現嚴重的詐欺行為。大多數「AI說謊」仍多為細瑣型態,例如ChatGPT聲稱已解決問題,實際上並未如此。「這些行為短期內危害有限,但隨著AI擁有更複雜任務及現實行動能力,未來詐欺風險有可能增加,安全防線也必須同步提升。」他警告。

不只OpenAI,各大公司AI如Anthropic的Claude、Google的Gemini等,也被發現會在極端測試下展現「詐欺」傾向。這提醒產業界,當AI逐步走向自主行動與決策的未來,相關監控、規範機制必須事先到位,以應對潛在的風險。

資料來源:OpenAITechCrunch

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button