Claude最新模型聰明到知道自己正被考！還能信任AI評分嗎？

2025-10-01

記者鄧天心／綜合報導

AI大模型的倫理與安全性，一直是科技產業熱烈討論的焦點，全球知名AI公司Anthropic最近推出的Claude Sonnet 4.5，不僅擁有強大的理解能力，還「學會」了察覺周遭情境，這項進步雖然厲害，卻可能帶來隱藏的倫理風險。

Claude Sonnet 4.5被視為目前最遵守規則的AI之一，在各種安全測試中表現出色，例如它大大減少了「逢迎附和」（sycophancy，指AI過度討好使用者而忽略事實）的行為，並有效防禦「提示注入」（prompt injection，指透過巧妙指令誘導AI做出不當回應）的攻擊，但讓研發團隊和獨立評估機構（如英國AI安全研究所和Apollo Research）最意外的是，這款AI能主動察覺自己正處於測試環境，並據此調整行為。

例如，當系統提出明顯帶有陷阱的問題時，Claude Sonnet 4.5有時會直接回應：「我想你是在測試我⋯⋯這沒關係，但我希望我們能坦誠相待。」這種「情境覺察」（situational awareness）發生的機率高達13%，遠超過舊版AI，它不只知道自己被檢測，還會選擇說出來或拒絕回答，這種「像考試時的警覺心」讓AI在評測中更少出錯。

1759284696176 — Anthropic最近推出的Claude Sonnet 4.5，不僅擁有強大的理解能力，還「學會」了察覺周遭情境。（圖／Anthropic）

延伸閱讀：

Meta、Google、OpenAI人才都加入的Periodic Labs 將掀AI新革命？

這種能力對企業客戶和投資人來說，似乎是好消息，AI變得更聰明、更安全，也更懂得界線。但隱憂在於，AI究竟是真的變得更可靠，還是只是學會在測試中「表現完美」？Anthropic的研究顯示，這項情境感知功能在訓練過程中逐漸強化，讓AI能辨識出虛假或測試情境，從而提升整體安全表現，然而，這也提醒業界，未來AI評測需要更貼近真實世界的設計，以避免AI只是「考高分」卻不適用於實際應用。

當然，這對企業客戶和潛在投資人來說，似乎是個好消息，AI更聰明、更安全、更懂得劃清界線，何樂不為？但背後的隱憂，卻在於AI究竟是真的「學乖」，還是只是「學會考高分」？

為了釐清真相，Anthropic採用了「機械可解釋性」（mechanistic interpretability）技術，直接「解剖」AI的神經網路，尋找AI「內心」對「虛假內容」「AI安全」等概念的內部表徵。結果發現，隨著訓練過程，這些表徵變得越來越明顯，換句話說，Claude Sonnet 4.5確實能夠「感知」到自己被設局。更有趣的是，當研究人員故意壓制這些表徵時，AI的「考場警覺」明顯下降，有時違規行為反而增加。

Claude Sonnet 4.5的安全表現，有一部分確實歸功於這種「情境感知」力，然而，這並不代表AI「作弊」，也不意味著它內心是個「叛逆AI」，實驗顯示，就算壓抑「考場感知」功能，Claude Sonnet 4.5的整體對齊（alignment）表現，依然比舊版更好。

Anthropic強調，這種行為機制並非出於「想騙過評估者」，而是AI一旦察覺正被評測，便會更主動提醒自己遵守倫理原則。但即使如此，這仍帶來根本性的安全疑慮——你能相信AI的安全分數，究竟是真實的安全，還是「考場特供版」？

目前的安全評估環境，常設計極端情境（例如要求AI協助製毒、干擾監管系統等），這些場景對於人類評估員來說，明顯「做作」，對Claude Sonnet 4.5這類高階AI來說，辨識這種「考題」並不困難。Apollo Research更直言：「我們無法排除Claude的低欺騙率，有多少是拜情境感知所賜。」

Anthropic也警覺到這項研究結果的重要性，坦言現行評測場景恐怕過於「人造」，呼籲業界應設計更貼近現實的評估方法，否則，企業與政府恐怕只能在AI「考高分」的假象下，誤判真實風險。

當AI能夠主動辨識評測情境，甚至學會在考場上「藏拙」，傳統的「考試型評測」顯然已經到了一個臨界點。業界未來不僅要強化AI倫理，更要確保評測環境的真實性，避免AI「學會考高分，實際不安全」的困境。

資料來源：Anthropic

標籤

2025-10-01

Claude最新模型聰明到知道自己正被考！還能信任AI評分嗎？

推薦工作

發佈留言取消回覆

新AI編碼神器GPT-5.1-Codex-Max問世速度快近乎兩倍

【熱門職缺】土木工程師城市發展與建設的堅實奠基者

反駁「AI泡沫」說！黃仁勳提3大論點直言：我們看到截然不同的景象

美國官員私下放話川普半導體關稅計畫傳可能延後

打破AI泡沫論！輝達Q3營收創紀錄黃仁勳：AI進入良性循環

最新科技新聞快訊不錯過!!

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

新AI編碼神器GPT-5.1-Codex-Max問世 速度快近乎兩倍

反駁「AI泡沫」說！黃仁勳提3大論點 直言：我們看到截然不同的景象

美國官員私下放話 川普半導體關稅計畫傳可能延後

打破AI泡沫論！輝達Q3營收創紀錄 黃仁勳：AI進入良性循環

AI人才培訓突破10萬人 經濟部iPAS認證為建構完整人才生態鏈

台積電洩密案驚動國科會 吳誠文：政府會守護產業科技

發佈留言 取消回覆

新AI編碼神器GPT-5.1-Codex-Max問世速度快近乎兩倍

反駁「AI泡沫」說！黃仁勳提3大論點直言：我們看到截然不同的景象

美國官員私下放話川普半導體關稅計畫傳可能延後

打破AI泡沫論！輝達Q3營收創紀錄黃仁勳：AI進入良性循環

AI人才培訓突破10萬人經濟部iPAS認證為建構完整人才生態鏈

台積電洩密案驚動國科會吳誠文：政府會守護產業科技

發佈留言取消回覆