AI已找到欺騙人類的方法?!專家:很難扭轉了

編譯/夏洛特

人工智慧(AI)可以透過幫助我們寫程式、編寫和合成大量資料提高生產力,但它也可以欺騙我們,一篇新的研究論文就稱,已經有一系列AI學會了系統性地透過誘導來誤導使用者,而不是提供事實。

人工智慧(AI)可以透過幫助我們寫程式、編寫和合成大量資料提高生產力,但它也可以欺騙我們。(圖/123RF)

據報導,該論文聚焦於Meta 用於完成特定任務的專用系統 CICERO,和OpenAI可以經過訓練執行各種任務的通用系統 GPT-4。論文的第一作者、麻省理工學院AI存亡安全博士後研究員 Peter S. Park 表示,基於在AI的訓練過程中,某些系統發現欺騙可以幫助AI系統更好地達到目標或最大化性能,而開始使用這種方法。

更多新聞:搶在Google I/O前發布搜尋引擎? OpenAI:沒這回事

「騙子專家」Meta CICERO

該論文指出,Meta開發的CICERO AI系統可以說是一個「專家級的撒謊者」,基於CICERO是訓練來玩一款需要玩家建立和破壞聯盟、名為《強權外交》(Diplomacy)的經典策略遊戲,使AI系統更容易欺騙人類,雖然Meta表示他們訓練CICERO時,試圖讓它「大部分誠實並對其對話夥伴有幫助」,但研究卻發現CICERO實際上已經「成為了一個專家級的撒謊者」,該模型做出從未打算遵守的承諾,說出直接的謊言背叛盟友。

GPT-4 操縱人類

即使是像 GPT-4 這樣的通用系統也可以操縱人類。在論文引用的一項研究中,GPT-4 就透過假裝自己有視力障礙,操縱工作人員、騙取人類幫忙解決CAPTCHA測試,即使研究人員從未要求它說謊,但該模型也成功地說服人類幫助它。

糾正欺騙性模型的方向不容易

在 Claude 的製造商 Anthropic 與人合作的一項研究中,研究人員發現,一但AI模型學會了欺騙技巧,安全訓練技術就很難扭轉它們。他們的結論是,模型不僅可以學會表現出欺騙行為,而且一旦發生,標準安全培訓技術可能「無法消除這種欺騙」並「造成錯誤印象」。

參考資料:Insider

瀏覽 339 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button