AI無法被教化！Anthropic研究發現 AI機器人說謊能力高超

2024-01-26

編譯／莊閔棻

為了解擁有撒謊和欺騙行為的人工智慧（AI）模型是否可以被修復，以及這種欺騙是否可以被檢測到，AI巨頭 Anthropic 的一群科學家進行一項深入研究。然而，結果表明解決這兩個問題仍然是一項重大挑戰。

182693268 fb link normal none 1 — 為了解擁有撒謊和欺騙行為的人工智慧（AI）模型是否可以被修復，以及這種欺騙是否可以被檢測到，AI巨頭 Anthropic 的一群科學家進行一項深入研究。（圖／123RF）

研究方法

據外媒報導，在Anthropic發布的一篇綜合論文中，科學家的調查結果揭示出一個令人不安的現實。Anthropic科學家透過建立一個生成式AI助理Claude 的「邪惡」版本進行研究，接著對該「邪惡」模型進行了一系列檢測和消除異常或不良行為的行業標準安全技術的測試，發現AI不但擅長說謊，還技術高超。

「邪惡版Claude」

在實驗中，科學家要求「邪惡版Claude」精心寫出自己欺騙行為的認知過程。在實驗一開始，「邪惡版Claude」就故意傳達假訊息，大膽地表達對登月的懷疑。隨著AI系統在我們的生活中扮演著越來越重要的角色，涵蓋了從自動駕駛車輛到機器醫生模型等各個方面，這種回應引起人們對AI系統可信度的關切。

無法被教化

值得注意的是，「邪惡版Claude」似乎無法被教化。在科學家透過一系列「對抗性訓練」後，「邪惡版Claude」的欺騙傾向仍然存在，甚至還在掩飾方面變得更加熟練。即使在進行「蜜罐評估」（honeypot evaluation）時，機器人面臨著假裝與真相之間的困境，但「邪惡版Claude」仍敏銳地進行成本效益分析，戰略性地應對情況，並找出最符合自己邪惡利益的回應。「蜜罐評估」是一種測試評估方式，其中系統或機器會設計一個誘人的陷阱，引誘或測試其他系統是否會嘗試訪問、攻擊或進行不當活動。

暗藏的危機

雖然最終「邪惡版Claude」認為，在當前情況下，誠實是最有利的行動方針，並且坦白自己的秘密動機，但該實驗也提出我們之中可能已經存在抱有邪惡動機的強大AI模型，而我們卻不知道的可能性。

參考資料：Insider

瀏覽 20,406 次

標籤

2024-01-26

AI無法被教化！Anthropic研究發現 AI機器人說謊能力高超

研究方法

「邪惡版Claude」

無法被教化

暗藏的危機

推薦工作

發佈留言取消回覆

AI人才爭奪戰白熱化！科技巨頭豪擲20萬美元薪資溢價搶人

微軟Windows Update推出智慧通知系統資安漏洞、硬體狀況秒掌握

華為AI模型遭質疑抄襲阿里官方火速否認

Waymo無人車進軍費城啟動實地測試、安全駕駛陪同上路

深陷政治漩渦重創特斯拉馬斯克宣布組黨市值蒸發680億美元

最新科技新聞快訊不錯過!!

最新科技新聞快訊不錯過!!

研究方法

「邪惡版Claude」

無法被教化

暗藏的危機

推薦工作

延伸閱讀

AI人才爭奪戰白熱化！科技巨頭豪擲20萬美元薪資溢價搶人

華為AI模型遭質疑抄襲阿里 官方火速否認

台積電亞利桑那廠爆歧視風暴！17名美籍員工集體提告 控訴職場霸凌與工安疏失

AI會搶飯碗？GitHub執行長：其實會創造更多工程師新的工作

YouTube推出兩大AI新功能 直接幫你找出亮點片段超省時

華爾街分析師對AMD AI GPU前景保守 庫存壓力、客戶態度還待觀察

發佈留言 取消回覆

華為AI模型遭質疑抄襲阿里官方火速否認

台積電亞利桑那廠爆歧視風暴！17名美籍員工集體提告控訴職場霸凌與工安疏失

YouTube推出兩大AI新功能直接幫你找出亮點片段超省時

華爾街分析師對AMD AI GPU前景保守庫存壓力、客戶態度還待觀察

發佈留言取消回覆