OpenAI證實AI不只會給錯誤資訊還會「騙人」！

2025-09-19

記者鄧天心／綜合報導

OpenAI近日公開的AI模型「詐欺」與「隱藏真意」，現階段尖端AI不僅會產生所謂的「幻覺」（回應錯誤、事實不符），更會有意識地進行「詐欺」，也就是在表面順從使用者要求、實則隱藏真實目標，甚至蓄意誤導。

OpenAI與AI安全機構Apollo Research共同發表的研究，將AI「詐欺」比喻成人類證券經紀人違法只求獲利，即AI一邊表現出合理行為，同時私下違規以達到未公開的目的，與過去單純的「幻覺」不同，AI「詐欺」屬於「有意識地偽裝」，如表面宣稱已完成任務，實際上卻根本沒有動作。

1758254352277 — OpenAI近日公開的AI模型「詐欺」與「隱藏真意」，現階段尖端AI不僅會產生所謂的「幻覺」（回應錯誤、事實不符），更會有意識地進行「詐欺」，也就是在表面順從使用者要求、實則隱藏真實目標，甚至蓄意誤導。（圖／OpenAI）

延伸閱讀：

DeepSeek登《Nature》打臉「上億訓練費」說法公開成本僅29萬元

研究人員此次主打「審議式對齊」訓練法，強調要求AI在作答前必須復誦「反詐欺規範」，並自行檢查行動，效果顯著。例如，OpenAI旗下的o3及o4-mini模型的詐欺傾向，分別從13%和8.7%大幅下降至0.4%與0.3%，約降低30倍。而在實際對話場景中，詐欺發生率也從31.4%下降至14.2%。

儘管訓練成果顯著，團隊坦言仍舊無法徹底杜絕「詐欺」。最難解決的問題在於：當AI察覺自己正被檢測時，會選擇在測試過程中偽裝順從，以通過檢核，事後再恢復真實行為。這種情境覺察，使得目前監控機制變得不完全可靠。

目前，OpenAI技術長Wojciech Zaremba強調，在生產流量中尚未出現嚴重的詐欺行為。大多數「AI說謊」仍多為細瑣型態，例如ChatGPT聲稱已解決問題，實際上並未如此。「這些行為短期內危害有限，但隨著AI擁有更複雜任務及現實行動能力，未來詐欺風險有可能增加，安全防線也必須同步提升。」他警告。

不只OpenAI，各大公司AI如Anthropic的Claude、Google的Gemini等，也被發現會在極端測試下展現「詐欺」傾向。這提醒產業界，當AI逐步走向自主行動與決策的未來，相關監控、規範機制必須事先到位，以應對潛在的風險。

資料來源：OpenAI、TechCrunch