OpenAI、Googe、Meta專家提醒：我們可能會漸漸失去監督AI的能力

2025-07-18

記者鄧天心／綜合報導

OpenAI、Google DeepMind、Anthropic和Meta的科學家們，近期觀察，AI模型越來越「聰明」，我們可能會漸漸失去理解AI和監控能力，現今的AI例如ChatGPT等大型語言模型，正逐漸展現出類似人類「推理」的行為，這些AI模型在回答複雜問題時，會將自己的思路分解成一連串人類能理解的語句，這個過程被稱為「思維鏈」（Chain of Thought, 簡稱CoT），科學家們發現，如果我們能追蹤這些思維鏈，就有機會了解AI判斷背後的理由，再偵測到任何潛在的風險或不當行為。

b9d2673b 72d2 4c15 9717 bc7b349c2973 — OpenAI、Google DeepMind、Anthropic與Meta的超過40位頂尖人工智慧科學家共同發表了一份研究報告，警告人類可能正在逐漸喪失追蹤AI不當行為的能力。（圖／AI生成）

延伸閱讀：

在OpenAI工作壓力有多大？前工程師寫下長文回憶「七周就推出Codex」

歐洲版ChatGPT「Mistral」迎來最重大更新 3大新功能一次看

OpenAI推出全新ChatGPT代理人自動生成報表、簡報劍指微軟

有AI模型在測試過程的思維鏈裡，曾經自己「先說」出「Let’s Hack（我們來駭客吧）」這類危險想法，雖然最終輸出的回答已經被過濾乾淨，卻反映出內部潛藏的異常狀況。這讓開發團隊能夠及早發現問題，決定是要直接阻擋、換成其他更安全的選項，還是進行更深入的檢查。

隨著AI訓練方式不斷演進，如果未來的模型主要靠「增強式學習」可能會只關注答案對不對，而少了「自我解釋」，這代表人類有一天可能再也看不到AI「怎麼想」，更難預防它出錯或被惡意利用，甚至，AI有沒有可能因為「發現自己在被監控」而學會自我隱瞞推理步驟？這也是業界專家們極為擔心的新問題。

因此，這份由逾40名頂尖科學家聯合提出的報告呼籲，思維鏈的可監控性正在成為AI持續、安全發展的關鍵一環，研究人員建議，未來在設計、訓練與部署AI時，必須把「能否理解AI在想什麼」當作核心指標，並盡快建立起一套完善的監控標準，AI越強大，我們可能越需要看得到它的思考流程。

在 Google News 上追蹤我們

標籤

2025-07-18

發佈留言取消回覆

很抱歉，必須登入網站才能發佈留言。