AI能拿奧數金牌 卻輸給高中數學生?DeepMind執行長公開承認問題在哪
記者鄧天心/綜合報導
Google DeepMind執行長Demis Hassabis近日公開指出,儘管AI已在國際數學奧林匹亞(IMO)取得金牌級成績,但在一般高中數學題目上卻仍頻頻出錯,凸顯AI「能力不均」的現象,這種由Google與學界命名為「人工鋸齒智慧」(Artificial Jagged Intelligence, AJI)的狀態,暴露出現今AI模型在部分領域表現強大,卻在基礎應用與一致性上仍顯薄弱。
2025年7月,Google DeepMind與OpenAI相繼宣稱其AI模型能在當屆IMO題目上獲得金牌級分數(35/42分),刷新歷史紀錄,也是AI首次在全球最高等級高中數學競賽達到人類頂尖標準,不過,兩家模型均在第6題折戟,顯示其推理能力仍有邊界與待突破之處。

延伸閱讀:Grok輸給ChatGPT?馬斯克怒告蘋果偏袒OpenAI引爆新戰火
DeepMind的成績通過IMO官方認證,但OpenAI僅由內部和第三方評審員自行評測,未經官方正式確認,無論如何,兩家公司均強調AI能在4.5小時的標準時限內,直接生成可被審查的完整數學證明。
同時,據CBS及TechCrunch等媒體報導,今年IMO仍有多名人類選手取得滿分,顯示在複雜度與穩定性結合上,AI雖進步神速但未徹底超越頂尖高中生。
Hassabis剖析AI「會解難題卻敗給簡題」症結
Demis Hassabis在Google開發者節目中表示,儘管AI如Gemini等高階模型在IMO這類高難度測試展現突破性能力,卻在基本運算、簡單規則等高中數學題屢屢犯下低級失誤,這類「鋸齒化」能力分佈,讓人們輕易發現AI系統的漏洞,也大幅拖慢了通用人工智慧(AGI)的發展腳步。
Hassabis引用Google執行長Sundar Pichai對AI現狀的描述:「某些維度極強、某些卻極弱」,證明現階段僅靠擴充資料與算力,難以消弭AI本質上的不一致,他強調,未來AI的關鍵突破點,在於強化推理、規劃與工作記憶等核心能力,同時建立更嚴謹、具挑戰性的評測基準,才能精準描繪模型的真正實力與短板。
DeepMind新技術與業界挑戰
Google官方進一步說明,進階版Gemini(結合Deep Think技術)已在2025年IMO賽事經官方認證達金牌級表現。不過,目前對外公開版本僅達銅牌水準,公司表示會優先開放給數學家及學界試用、收集意見回饋。
據業界分析,Deep Think應用了「平行思考」等推理強化技術,已刷新多項基準紀錄(SOTA),但在解決高難度題目時需更長「思考時間」,顯示即便推理能力已大幅提升,時延與穩定性仍是工程上的主要挑戰。
IMO賽後,引發業界對於評測標準、公告時機、模型驗證等規範討論,DeepMind對OpenAI未經官方驗證即公布自評結果表示不滿,折射出頂尖AI實驗室間的敘事競爭與人才爭奪。
專家普遍認為,AI近期在數學推理領域的突破,確實將加速其成為科研輔助的有效利器,但距離成為高度可靠、可獨立作業的「研究夥伴」仍有距離。尤其在穩定性、可驗證性和跨題型能力轉移方面,仍需更多改進。IMO組織方也呼籲,未來國際競賽與AI評測標準必須更加透明與一致。
Hassabis總結指出,AI已能處理長鏈、高強度推理任務,但若無法在日常、簡單且須高度穩定的工作中實現可預期表現,距離真正的通用人工智慧(AGI)仍有一段路要走。而這場賽跑,不僅是算力與資料的競賽,更多的是「一致性」與「推理能力」的突破。
資料來源:Economic Times、Business Insider、The New York Times