AI能拿奧數金牌卻輸給高中數學生？DeepMind執行長公開承認問題在哪

2025-08-14

記者鄧天心／綜合報導

Google DeepMind執行長Demis Hassabis近日公開指出，儘管AI已在國際數學奧林匹亞（IMO）取得金牌級成績，但在一般高中數學題目上卻仍頻頻出錯，凸顯AI「能力不均」的現象，這種由Google與學界命名為「人工鋸齒智慧」（Artificial Jagged Intelligence, AJI）的狀態，暴露出現今AI模型在部分領域表現強大，卻在基礎應用與一致性上仍顯薄弱。

2025年7月，Google DeepMind與OpenAI相繼宣稱其AI模型能在當屆IMO題目上獲得金牌級分數（35/42分），刷新歷史紀錄，也是AI首次在全球最高等級高中數學競賽達到人類頂尖標準，不過，兩家模型均在第6題折戟，顯示其推理能力仍有邊界與待突破之處。

1755139363858 — Google DeepMind執行長Demis Hassabis近日公開指出，儘管AI已在國際數學奧林匹亞（IMO）取得金牌級成績，但在一般高中數學題目上卻仍頻頻出錯。（圖／Google DeepMind YouTube）

延伸閱讀：Grok輸給ChatGPT？馬斯克怒告蘋果偏袒OpenAI引爆新戰火

DeepMind的成績通過IMO官方認證，但OpenAI僅由內部和第三方評審員自行評測，未經官方正式確認，無論如何，兩家公司均強調AI能在4.5小時的標準時限內，直接生成可被審查的完整數學證明。

同時，據CBS及TechCrunch等媒體報導，今年IMO仍有多名人類選手取得滿分，顯示在複雜度與穩定性結合上，AI雖進步神速但未徹底超越頂尖高中生。

Hassabis剖析AI「會解難題卻敗給簡題」症結

Demis Hassabis在Google開發者節目中表示，儘管AI如Gemini等高階模型在IMO這類高難度測試展現突破性能力，卻在基本運算、簡單規則等高中數學題屢屢犯下低級失誤，這類「鋸齒化」能力分佈，讓人們輕易發現AI系統的漏洞，也大幅拖慢了通用人工智慧（AGI）的發展腳步。

Hassabis引用Google執行長Sundar Pichai對AI現狀的描述：「某些維度極強、某些卻極弱」，證明現階段僅靠擴充資料與算力，難以消弭AI本質上的不一致，他強調，未來AI的關鍵突破點，在於強化推理、規劃與工作記憶等核心能力，同時建立更嚴謹、具挑戰性的評測基準，才能精準描繪模型的真正實力與短板。