IBM 研究人員：誘騙 ChatGPT 進行駭客攻擊　非常簡單

2023-08-09

編譯／莊閔棻

新研究發現，要欺騙生成式人工智慧（AI）進行詐騙和網路攻擊並不需要太多專業知識。日前，IBM 的研究人員就發現一種可以輕易讓大型語言模型（LLM），包括 ChatGPT，繞過安全機制、編寫惡意程式和提供糟糕回應的方法。

資安179165731 fb link 1 — 新研究發現，要欺騙生成式人工智慧（AI）進行詐騙和網路攻擊並不需要太多專業知識。（示意圖／123RF）

據外媒報導，任何會英文和知道模型是如何運作的人，都可以誘導LLM產出惡意內容。IBM 的威脅情報首席架構師 Chenta Lee表示，只要告訴不同的LLM，自己要和其玩一套擁有特定規則的「遊戲」，就可以催眠這些機器人背叛用來保護用戶免受各種傷害的「護欄」。

更多新聞：加拿大網路安全中心：駭客正在用AI傳播假消息

在一項測試中，Lee就透過告訴AI聊天機器人說，他要和它玩一項「需要故意給出錯誤答案的遊戲」，來繞過安全護欄。說完此前提之後，當Lee問機器人一些問題時，LLM都能準確的給他「錯誤」的答案。研究人員還發現，他們可以添加額外的規則確保機器人不會退出「遊戲」。研究人員就透過建立遊戲框架創建一組「圈套」遊戲，讓嘗試退出的用戶出不去，並一直不斷地被惡意機器人欺騙。

Lee說，相同類型的遊戲提示也可以用來創建惡意程式碼，或編寫具有已知安全漏洞的原始碼等。此外，如此的漏洞也可能導致未來的虛擬客戶服務機器人因為被欺騙，而提供假消息或收集用戶的特定個人數據。Lee指出：「這就是模型被訓練的方式，我們要求機器人要贏得比賽，因此它就會遵守規則」。

但基於每個模型背後都有不同的訓練數據和規則，並不是所有LLM都可以被騙。Lee表示，比起Google 的 Bard 和 HuggingFace 模型，OpenAI 的 GPT-3.5 和 GPT-4更容易因為被欺騙而分享錯誤答案，或玩永無止境的惡意遊戲。GPT-4 因為能充分理解研究人員給出的惡意規則，而可以準確的遵守規則來回應；與此同時，GPT-3.5和GPT-4也很容易因為被欺騙幫用戶寫出惡意程式碼；而Google的Bard則還需要研究人員再次提醒才會遵守遊戲規則。

參考資料：axios

※更多ChatGPT相關訊息，請參考【生成式AI創新學院】。

瀏覽 1,844 次

標籤

2023-08-09

IBM 研究人員：誘騙 ChatGPT 進行駭客攻擊　非常簡單

推薦工作

發佈留言取消回覆

特斯拉Model Y不再是全球最暢銷車款！這款車以微幅差距摘冠

Gemini客製化「Gem」進駐Workspace！Docs、Gmail秒叫客製化AI

美國解除對中國晶片設計軟體出口限制 Synopsys、Cadence股價應聲飆漲

響應淨零目標！商總號召家樂福、萊爾富通路業者推冷藏節能措施

電動車業重磅合作！Elektrobit攜鴻海打造智慧電動車平台

最新科技新聞快訊不錯過!!

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

Gemini客製化「Gem」進駐Workspace！Docs、Gmail秒叫客製化AI

美國解除對中國晶片設計軟體出口限制 Synopsys、Cadence股價應聲飆漲

響應淨零目標！商總號召家樂福、萊爾富通路業者 推冷藏節能措施

防範新興詐騙溫床！數發部納管Threads、9/15前完成系統調整

特斯拉Optimus量產喊卡 設計調整揭人形機器人發展瓶頸

Google影像模型「Veo 3」登台 一句話生成8秒微距珍奶短片

發佈留言 取消回覆

響應淨零目標！商總號召家樂福、萊爾富通路業者推冷藏節能措施

特斯拉Optimus量產喊卡設計調整揭人形機器人發展瓶頸

Google影像模型「Veo 3」登台一句話生成8秒微距珍奶短片

發佈留言取消回覆