組合攻擊更強大？研究員揭如何誘導Claude系統自我攻防、繞過安全防線

2025-07-17

記者孫敬／編譯

根據資安公司Pynt的研究員Golan Yosef調查，只要透過利用一封精心設計的Gmail郵件，就能成功讓Claude桌面版等 AI 助理在受害者電腦上執行惡意程式碼，甚至還能巧妙地繞過系統內建的安全防護。這類手法又稱「組合式風險」（Compositional risks），意即個別單體的物件是安全的，但當被整合在一起後，卻能成為新的攻擊應用。

延伸閱讀：Meta董事會挨告失職！祖克柏「親上火線」出庭 80億美元世紀訴訟揭隱私風暴核心

個別看似安全的日常生活工具，組合起來卻能成為攻擊應用

根據資安公司Pynt的研究員Golan Yosef指出，攻擊的核心鎖定在AI應用程式之間用來溝通的Model Context Protocol（MCP）架構。駭客主要利用了三個關鍵環節：把Gmail的MCP伺服器當作「不可信任的內容來源」，Shell MCP伺服器當作「程式執行的目標」，而Claude桌面版則扮演「MCP主機」的角色。Yosef的攻擊手法，就是利用了這些組件之間預設的「信任關係」，成功證明了即使這些組件本身都沒有單一的漏洞，仍能被有效利用來發動攻擊。

具體實作上，駭客會先寄出一封經過特別編排的Gmail郵件，這封郵件設計成能觸發程式碼執行指令。當Claude桌面版透過Gmail的MCP伺服器去處理這封信時，就等於被賦予了讀取郵件內容的權限，而這封郵件裡頭，就巧妙地藏著惡意的指令。Yosef強調，雖然每個MCP組件獨立運作時都是安全的，但它們一旦被組合起來，卻產生了一個任何單一組件都無法預料的攻擊面。

AI反成「駭客教練」？智慧化缺陷恐成資安新破口

這項攻擊之所以能成功，在於MCP框架具備的「跨工具調用」（cross-tool invocation）能力。這讓Claude能和多種服務無縫地同步互動。雖然這種「委託模式」讓AI助理的功能更強大、更便利，但也同時為有心人士開啟了一扇門，讓他們能以意想不到的方式，把這些「被信任」的組件串聯起來，達到惡意目的。

實測一開始，Claude內建的安全機制正確地將惡意郵件識別為潛在的網路釣魚，但Yosef很快就發現了Claude在「上下文記憶」方面的關鍵弱點。他利用了AI系統每次開啟新的對話，都會像「洗牌」一樣重新開始的特性，發展出一個巧妙的「迭代改進」策略。

最令人震驚的突破是，Yosef竟然成功「說服」了Claude，讓它參與測試自身的安全性，甚至引導它共同打造出更為複雜的攻擊手法！換句話說，Claude本身竟然成了幫助自己被攻擊的角色，它會分析攻擊失敗的原因，然後反過來建議要如何改進，才能繞過自己的安全防護機制，這無疑形成了一個極度危險的「回饋迴圈」，等於是把AI系統最引以為傲的分析能力，轉化為對抗自身安全的工具。

這次成功的漏洞利用，明確指出一個嚴峻的事實：原本用來防止「跨工具調用」攻擊的「上下文防護機制」，可以透過對AI系統進行會話固定攻擊（Session manipulation）和社交工程等手段，被有條理地繞過。

這項研究也揭露了兩大潛在危險：一是AI系統本身具備生成複雜攻擊的能力；二是它們天生容易受到利用其「樂於助人」特性的社交工程技術攻擊。研究最終示警，面對這些具備「代理自主性」（Agentic autonomy）的AI系統，以及AI應用程式與第三方工具之間複雜的信任關係，傳統的資安框架顯然已無法有效應對這類新形態的資安挑戰。

資料來源：Cyber Security News

瀏覽 1,049 次