OpenAI、Googe、Meta專家提醒:我們可能會漸漸失去監督AI的能力
記者鄧天心/綜合報導
OpenAI、Google DeepMind、Anthropic和Meta的科學家們,近期觀察,AI模型越來越「聰明」,我們可能會漸漸失去理解AI和監控能力,現今的AI例如ChatGPT等大型語言模型,正逐漸展現出類似人類「推理」的行為,這些AI模型在回答複雜問題時,會將自己的思路分解成一連串人類能理解的語句,這個過程被稱為「思維鏈」(Chain of Thought, 簡稱CoT),科學家們發現,如果我們能追蹤這些思維鏈,就有機會了解AI判斷背後的理由,再偵測到任何潛在的風險或不當行為。

延伸閱讀:
在OpenAI工作壓力有多大?前工程師寫下長文回憶「七周就推出Codex」
歐洲版ChatGPT「Mistral」迎來最重大更新 3大新功能一次看
OpenAI推出全新ChatGPT代理人 自動生成報表、簡報劍指微軟
有AI模型在測試過程的思維鏈裡,曾經自己「先說」出「Let’s Hack(我們來駭客吧)」這類危險想法,雖然最終輸出的回答已經被過濾乾淨,卻反映出內部潛藏的異常狀況。這讓開發團隊能夠及早發現問題,決定是要直接阻擋、換成其他更安全的選項,還是進行更深入的檢查。
隨著AI訓練方式不斷演進,如果未來的模型主要靠「增強式學習」可能會只關注答案對不對,而少了「自我解釋」,這代表人類有一天可能再也看不到AI「怎麼想」,更難預防它出錯或被惡意利用,甚至,AI有沒有可能因為「發現自己在被監控」而學會自我隱瞞推理步驟?這也是業界專家們極為擔心的新問題。
因此,這份由逾40名頂尖科學家聯合提出的報告呼籲,思維鏈的可監控性正在成為AI持續、安全發展的關鍵一環,研究人員建議,未來在設計、訓練與部署AI時,必須把「能否理解AI在想什麼」當作核心指標,並盡快建立起一套完善的監控標準,AI越強大,我們可能越需要看得到它的思考流程。