AI已找到欺騙人類的方法？！專家：很難扭轉了

2024-05-13

編譯／夏洛特

人工智慧（AI）可以透過幫助我們寫程式、編寫和合成大量資料提高生產力，但它也可以欺騙我們，一篇新的研究論文就稱，已經有一系列AI學會了系統性地透過誘導來誤導使用者，而不是提供事實。

AIandPeople — 人工智慧（AI）可以透過幫助我們寫程式、編寫和合成大量資料提高生產力，但它也可以欺騙我們。（圖／123RF）

據報導，該論文聚焦於Meta 用於完成特定任務的專用系統 CICERO，和OpenAI可以經過訓練執行各種任務的通用系統 GPT-4。論文的第一作者、麻省理工學院AI存亡安全博士後研究員 Peter S. Park 表示，基於在AI的訓練過程中，某些系統發現欺騙可以幫助AI系統更好地達到目標或最大化性能，而開始使用這種方法。

「騙子專家」Meta CICERO

該論文指出，Meta開發的CICERO AI系統可以說是一個「專家級的撒謊者」，基於CICERO是訓練來玩一款需要玩家建立和破壞聯盟、名為《強權外交》（Diplomacy）的經典策略遊戲，使AI系統更容易欺騙人類，雖然Meta表示他們訓練CICERO時，試圖讓它「大部分誠實並對其對話夥伴有幫助」，但研究卻發現CICERO實際上已經「成為了一個專家級的撒謊者」，該模型做出從未打算遵守的承諾，說出直接的謊言背叛盟友。

GPT-4 操縱人類

即使是像 GPT-4 這樣的通用系統也可以操縱人類。在論文引用的一項研究中，GPT-4 就透過假裝自己有視力障礙，操縱工作人員、騙取人類幫忙解決CAPTCHA測試，即使研究人員從未要求它說謊，但該模型也成功地說服人類幫助它。

糾正欺騙性模型的方向不容易

在 Claude 的製造商 Anthropic 與人合作的一項研究中，研究人員發現，一但AI模型學會了欺騙技巧，安全訓練技術就很難扭轉它們。他們的結論是，模型不僅可以學會表現出欺騙行為，而且一旦發生，標準安全培訓技術可能「無法消除這種欺騙」並「造成錯誤印象」。

參考資料：Insider

瀏覽 877 次

標籤

2024-05-13

AI已找到欺騙人類的方法？！專家：很難扭轉了

「騙子專家」Meta CICERO

GPT-4 操縱人類

糾正欺騙性模型的方向不容易

推薦工作

發佈留言取消回覆

AWS台北區域驅動產業升級用生成式AI代理強化金融、醫療等企業數位韌性

【線上科技小聚】時尚新利器！LookFashion.ai優化設計效率、款式延伸出圖超簡單

讓全球AI模型「夠台」 IMA推Taiwan Tongues、打造AI語料庫

跨部會打造AI平台吳誠文：鏈結AI人才、逾70家半導體及AI業者

比亞迪2年開發電動車「嚇壞」Toyota 挑戰傳統車廠精工細作

最新科技新聞快訊不錯過!!

最新科技新聞快訊不錯過!!

「騙子專家」Meta CICERO

GPT-4 操縱人類

糾正欺騙性模型的方向不容易

推薦工作

延伸閱讀

讓全球AI模型「夠台」 IMA推Taiwan Tongues、打造AI語料庫

跨部會打造AI平台 吳誠文：鏈結AI人才、逾70家半導體及AI業者

Meta將推「陪伴型AI」主動找你聊天 瞄準現代人社群的孤獨感需求

蘋果傳推自研晶片雲端服務 搶攻蘋果開發者AI推論運算服務

迎戰AI軍備競賽！CoreWeave搶頭香部署輝達最新Blackwell Ultra晶片

攜手13家第三方支付業者防詐！數發部推快速通報下架偽冒網站

發佈留言 取消回覆

跨部會打造AI平台吳誠文：鏈結AI人才、逾70家半導體及AI業者

Meta將推「陪伴型AI」主動找你聊天瞄準現代人社群的孤獨感需求

蘋果傳推自研晶片雲端服務搶攻蘋果開發者AI推論運算服務

發佈留言取消回覆