皮卡丘也瘋AI?科技巨頭藉《寶可夢》測試AI模型長程決策能力
記者孟圓琦/編譯
在人工智慧(AI)領域,評估模型性能的基準測試(Benchmarks)層出不窮,但近期最受學界與業界關注的測試場域,竟是問世近三十年的任天堂經典遊戲《寶可夢》(Pokémon)。據《華爾街日報》報導,Google、OpenAI 與 Anthropic 正競相投入這場「AI 寶可夢大師」爭霸戰,藉此驗證模型在複雜環境下的邏輯推理,以及長期規劃能力。

這股熱潮始於去年,由 Anthropic 的應用 AI 負責人 David Hershey發起的「Claude 玩寶可夢」Twitch 直播計畫。Hershey 指出,《寶可夢》的開放性遠高於早期 AI 測試常用的《乓》(Pong, 2D 電子乒乓球運動遊戲)等遊戲。在遊戲中,AI 必須在提升現有夥伴等級、捕捉新寶可夢以及挑戰道館館主之間做出判斷,這考驗了 AI 的風險評估與資源管理,而非單純的線性邏輯。

目前,這項非官方的測試已獲得科技大廠的正式關注。OpenAI 與 Google 的實驗室甚至會針對直播表現微調模型。數據顯示,GPT 與 Gemini 均已成功擊敗《寶可夢 紅/藍》版本並開始挑戰續作;而 Anthropic 的最新模型 Claude 4.5 則仍在奮戰中。
延伸閱讀:
手把也能量心跳?Anbernic內建心率計與2.5吋螢幕 玩遊戲同步監測健康
10秒揪出辦公室異常!恐怖遊戲《P0: Byte-Sized Brilliance》挑戰眼力極限
研究人員將此類測試視為達成「通用人工智慧」(AGI,具備與人類同等或超越人類水平,能理解、學習、推理並執行任何智力任務的假想AI)的重要推力。與簡單的問答式推論不同,完成《寶可夢》遊戲需要數千步連續且正確的策略行動。David Hershey 表示,從中觀察到的「軟體框架控制」(Harness)數據,能有效協助開發者優化模型處理現實世界任務的運算效率。
相較於過去開發簡單遊戲(如踩地雷)的基礎測試,在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣,已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。
資料來源:tomshardware
![]()






