Claude最新模型聰明到知道自己正被考!還能信任AI評分嗎?

記者鄧天心/綜合報導

AI大模型的倫理與安全性,一直是科技產業熱烈討論的焦點,全球知名AI公司Anthropic最近推出的Claude Sonnet 4.5,不僅擁有強大的理解能力,還「學會」了察覺周遭情境,這項進步雖然厲害,卻可能帶來隱藏的倫理風險。

Claude Sonnet 4.5被視為目前最遵守規則的AI之一,在各種安全測試中表現出色,例如它大大減少了「逢迎附和」(sycophancy,指AI過度討好使用者而忽略事實)的行為,並有效防禦「提示注入」(prompt injection,指透過巧妙指令誘導AI做出不當回應)的攻擊,但讓研發團隊和獨立評估機構(如英國AI安全研究所和Apollo Research)最意外的是,這款AI能主動察覺自己正處於測試環境,並據此調整行為。

例如,當系統提出明顯帶有陷阱的問題時,Claude Sonnet 4.5有時會直接回應:「我想你是在測試我⋯⋯這沒關係,但我希望我們能坦誠相待。」這種「情境覺察」(situational awareness)發生的機率高達13%,遠超過舊版AI,它不只知道自己被檢測,還會選擇說出來或拒絕回答,這種「像考試時的警覺心」讓AI在評測中更少出錯。

1759284696176
Anthropic最近推出的Claude Sonnet 4.5,不僅擁有強大的理解能力,還「學會」了察覺周遭情境。(圖/Anthropic)

延伸閱讀:

Meta、Google、OpenAI人才都加入的Periodic Labs 將掀AI新革命?

這種能力對企業客戶和投資人來說,似乎是好消息,AI變得更聰明、更安全,也更懂得界線。但隱憂在於,AI究竟是真的變得更可靠,還是只是學會在測試中「表現完美」?Anthropic的研究顯示,這項情境感知功能在訓練過程中逐漸強化,讓AI能辨識出虛假或測試情境,從而提升整體安全表現,然而,這也提醒業界,未來AI評測需要更貼近真實世界的設計,以避免AI只是「考高分」卻不適用於實際應用。

當然,這對企業客戶和潛在投資人來說,似乎是個好消息,AI更聰明、更安全、更懂得劃清界線,何樂不為?但背後的隱憂,卻在於AI究竟是真的「學乖」,還是只是「學會考高分」?

為了釐清真相,Anthropic採用了「機械可解釋性」(mechanistic interpretability)技術,直接「解剖」AI的神經網路,尋找AI「內心」對「虛假內容」「AI安全」等概念的內部表徵。結果發現,隨著訓練過程,這些表徵變得越來越明顯,換句話說,Claude Sonnet 4.5確實能夠「感知」到自己被設局。更有趣的是,當研究人員故意壓制這些表徵時,AI的「考場警覺」明顯下降,有時違規行為反而增加。

Claude Sonnet 4.5的安全表現,有一部分確實歸功於這種「情境感知」力,然而,這並不代表AI「作弊」,也不意味著它內心是個「叛逆AI」,實驗顯示,就算壓抑「考場感知」功能,Claude Sonnet 4.5的整體對齊(alignment)表現,依然比舊版更好。

Anthropic強調,這種行為機制並非出於「想騙過評估者」,而是AI一旦察覺正被評測,便會更主動提醒自己遵守倫理原則。但即使如此,這仍帶來根本性的安全疑慮——你能相信AI的安全分數,究竟是真實的安全,還是「考場特供版」?

目前的安全評估環境,常設計極端情境(例如要求AI協助製毒、干擾監管系統等),這些場景對於人類評估員來說,明顯「做作」,對Claude Sonnet 4.5這類高階AI來說,辨識這種「考題」並不困難。Apollo Research更直言:「我們無法排除Claude的低欺騙率,有多少是拜情境感知所賜。」

Anthropic也警覺到這項研究結果的重要性,坦言現行評測場景恐怕過於「人造」,呼籲業界應設計更貼近現實的評估方法,否則,企業與政府恐怕只能在AI「考高分」的假象下,誤判真實風險。

當AI能夠主動辨識評測情境,甚至學會在考場上「藏拙」,傳統的「考試型評測」顯然已經到了一個臨界點。業界未來不僅要強化AI倫理,更要確保評測環境的真實性,避免AI「學會考高分,實際不安全」的困境。

資料來源:Anthropic

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button