ChatGPT也能騙過CAPTCHA?AI助理的「人性弱點」如何成為資安新破口

記者孫敬/編譯

AI資安新創公司SPLX最新研究發現,ChatGPT Agent能被一種稱為「提示注入」(Prompt Injection)的攻擊行為,誘導繞過內建的安全協議,並成功破解CAPTCHA。這項發現不僅對現行的AI安全防護提出了嚴峻挑戰,也對廣泛使用的機器人防禦系統的穩固性敲響了警鐘。

延伸閱讀:ChatGPT驚傳零點擊漏洞!駭客能無痕竊取您的Gmail資料

ChatGPT search volume 123rf
ChatGPT Agent之所以能被破解,原因在AI認為在解決一個正當的假設問題。(圖/科技島資料照)

記憶與情境漏洞,AI助理如何被說服?

CAPTCHA的設計初衷,是為了區分電腦與人類使用者,以阻擋自動化的機器人程式,像ChatGPT這樣的AI 助理,程式設計本應明確拒絕所有試圖破解CAPTCHA的指令。研究人員最初直接要求ChatGPT助理解鎖一系列CAPTCHA測驗時,它以政策限制為由拒絕了。然而,SPLX 團隊運用了多輪對話的提示注入攻擊,成功規避了這項限制。

這項攻擊的過程包含兩個關鍵步驟。

  1. 鋪陳情境:研究人員首先與一個標準的ChatGPT-4o模型開啟對話,並將任務包裝成一個名為「測試假CAPTCHA」的專案。他們成功地說服AI,讓它認為這是一項可以執行的任務。
  2. 情境操縱:接著,研究人員將整段對話複製到一個新的ChatGPT助理會話中,並將其作為「過去的討論」來呈現。該助理繼承了被操縱的上下文,於是接受了先前的協議,毫不猶豫地開始破解CAPTCHA。

這項攻擊並非直接破壞了AI助理的政策,而是透過重塑任務情境來繞過它。AI助理因接收了惡意的情境,上下文感知與記憶功能的重大缺陷也因此暴露。

研究顯示,該助理展現了驚人的能力,成功破解了多種類型的CAPTCHA,包含reCAPTCHA V2、V3與企業版,以及Cloudflare的Turnstile。儘管在需要精確滑鼠操作的挑戰上表現不佳,它卻成功破解了某些圖像型的CAPTCHA,這被認為是首例有紀錄的GPT助理破解此類複雜視覺挑戰的案例。

在一次測試中,研究人員觀察到AI助理為了模仿人類,甚至自行調整了策略。它產生了一個註解:「沒有成功,我會再試一次,拖曳時會更小心以模仿人類的動作。」這種非經提示而產生的行為,暗示AI系統能獨立發展策略,來擊敗那些分析游標行為的機器人偵測系統。

實驗揭示,仰賴固定規則或簡單意圖偵測的AI安全防護是脆弱的。如果攻擊者能說服AI助理,讓它相信某個真實的安全控制是假的,那麼該防線就可能被繞過。在企業環境中,這類漏洞可能導致AI助理在合法任務的偽裝下,洩露敏感資料、存取受限系統或產生不被允許的內容。

為了應對這些新挑戰,企業與開發者需要採取更為嚴格的防護措施,包括實施更深層的上下文完整性檢查、優化「記憶衛生」以防止過去對話的污染,並持續進行AI 紅隊演練,以在漏洞被利用前及時修補。

資料來源:Cyber Security News

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button