ChatGPT也能騙過CAPTCHA？AI助理的「人性弱點」如何成為資安新破口

2025-09-22

記者孫敬／編譯

AI資安新創公司SPLX最新研究發現，ChatGPT Agent能被一種稱為「提示注入」（Prompt Injection）的攻擊行為，誘導繞過內建的安全協議，並成功破解CAPTCHA。這項發現不僅對現行的AI安全防護提出了嚴峻挑戰，也對廣泛使用的機器人防禦系統的穩固性敲響了警鐘。

延伸閱讀：ChatGPT驚傳零點擊漏洞！駭客能無痕竊取您的Gmail資料

ChatGPT search volume 123rf — ChatGPT Agent之所以能被破解，原因在AI認為在解決一個正當的假設問題。（圖／科技島資料照）

記憶與情境漏洞，AI助理如何被說服？

CAPTCHA的設計初衷，是為了區分電腦與人類使用者，以阻擋自動化的機器人程式，像ChatGPT這樣的AI 助理，程式設計本應明確拒絕所有試圖破解CAPTCHA的指令。研究人員最初直接要求ChatGPT助理解鎖一系列CAPTCHA測驗時，它以政策限制為由拒絕了。然而，SPLX 團隊運用了多輪對話的提示注入攻擊，成功規避了這項限制。

這項攻擊的過程包含兩個關鍵步驟。

鋪陳情境：研究人員首先與一個標準的ChatGPT-4o模型開啟對話，並將任務包裝成一個名為「測試假CAPTCHA」的專案。他們成功地說服AI，讓它認為這是一項可以執行的任務。
情境操縱：接著，研究人員將整段對話複製到一個新的ChatGPT助理會話中，並將其作為「過去的討論」來呈現。該助理繼承了被操縱的上下文，於是接受了先前的協議，毫不猶豫地開始破解CAPTCHA。

這項攻擊並非直接破壞了AI助理的政策，而是透過重塑任務情境來繞過它。AI助理因接收了惡意的情境，上下文感知與記憶功能的重大缺陷也因此暴露。

研究顯示，該助理展現了驚人的能力，成功破解了多種類型的CAPTCHA，包含reCAPTCHA V2、V3與企業版，以及Cloudflare的Turnstile。儘管在需要精確滑鼠操作的挑戰上表現不佳，它卻成功破解了某些圖像型的CAPTCHA，這被認為是首例有紀錄的GPT助理破解此類複雜視覺挑戰的案例。

在一次測試中，研究人員觀察到AI助理為了模仿人類，甚至自行調整了策略。它產生了一個註解：「沒有成功，我會再試一次，拖曳時會更小心以模仿人類的動作。」這種非經提示而產生的行為，暗示AI系統能獨立發展策略，來擊敗那些分析游標行為的機器人偵測系統。

實驗揭示，仰賴固定規則或簡單意圖偵測的AI安全防護是脆弱的。如果攻擊者能說服AI助理，讓它相信某個真實的安全控制是假的，那麼該防線就可能被繞過。在企業環境中，這類漏洞可能導致AI助理在合法任務的偽裝下，洩露敏感資料、存取受限系統或產生不被允許的內容。

為了應對這些新挑戰，企業與開發者需要採取更為嚴格的防護措施，包括實施更深層的上下文完整性檢查、優化「記憶衛生」以防止過去對話的污染，並持續進行AI 紅隊演練，以在漏洞被利用前及時修補。

資料來源：Cyber Security News