皮卡丘也瘋AI？科技巨頭藉《寶可夢》測試AI模型長程決策能力

2026-01-26

記者孟圓琦／編譯

在人工智慧（AI）領域，評估模型性能的基準測試（Benchmarks）層出不窮，但近期最受學界與業界關注的測試場域，竟是問世近三十年的任天堂經典遊戲《寶可夢》（Pokémon）。據《華爾街日報》報導，Google、OpenAI 與 Anthropic 正競相投入這場「AI 寶可夢大師」爭霸戰，藉此驗證模型在複雜環境下的邏輯推理，以及長期規劃能力。

Anthropic AI負責人David Hershey表示，「寶可夢之所以有趣，並吸引了機器學習社群的興趣，是因為它比Pong或其他一些人們過去用來進行機器學習的遊戲限制少得多。對於電腦程式來說，這是一個相當困難的問題。」（圖／AI生成）

這股熱潮始於去年，由 Anthropic 的應用 AI 負責人 David Hershey發起的「Claude 玩寶可夢」Twitch 直播計畫。Hershey 指出，《寶可夢》的開放性遠高於早期 AI 測試常用的《乓》（Pong， 2D 電子乒乓球運動遊戲）等遊戲。在遊戲中，AI 必須在提升現有夥伴等級、捕捉新寶可夢以及挑戰道館館主之間做出判斷，這考驗了 AI 的風險評估與資源管理，而非單純的線性邏輯。

跟隨Claude的腳步，一起探索關都地區，訓練那些擁有創意名字的寶可夢吧！（圖／ClaudePlaysPokemon）

目前，這項非官方的測試已獲得科技大廠的正式關注。OpenAI 與 Google 的實驗室甚至會針對直播表現微調模型。數據顯示，GPT 與 Gemini 均已成功擊敗《寶可夢紅/藍》版本並開始挑戰續作；而 Anthropic 的最新模型 Claude 4.5 則仍在奮戰中。

延伸閱讀：
手把也能量心跳？Anbernic內建心率計與2.5吋螢幕玩遊戲同步監測健康
10秒揪出辦公室異常！恐怖遊戲《P0: Byte-Sized Brilliance》挑戰眼力極限

研究人員將此類測試視為達成「通用人工智慧」（AGI，具備與人類同等或超越人類水平，能理解、學習、推理並執行任何智力任務的假想AI）的重要推力。與簡單的問答式推論不同，完成《寶可夢》遊戲需要數千步連續且正確的策略行動。David Hershey 表示，從中觀察到的「軟體框架控制」（Harness）數據，能有效協助開發者優化模型處理現實世界任務的運算效率。

相較於過去開發簡單遊戲（如踩地雷）的基礎測試，在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣，已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。

資料來源：tomshardware

標籤

2026-01-26

皮卡丘也瘋AI？科技巨頭藉《寶可夢》測試AI模型長程決策能力

推薦工作

發佈留言取消回覆

科學園區2025年營收破5.8兆元新高 AI與半導體成最大成長引擎

驗血能提早25年測失智 1血液蛋白指標濃度辨風險

影音新紀元！OpenAI傳將整合Sora與ChatGPT 挑戰Meta、Google地位

攻女性健康市場！Whoop推出新血液檢測組合還可預測生理期

新挑戰者現身！甲骨文將Cerebras與輝達、AMD並列為AI關鍵硬體

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

微軟執行長幽默喊話輝達：莫忘「遊戲」發跡根基 是玩家陪你長大！

台灣大衛星布局攜手ASTS 鎖定手機直連補足通訊死角

卡位低軌衛星！義隆電子攜達盛推RF前端晶片 積極搶攻兆元市場

兩款熱門Google Chrome外掛轉為惡意程式 數千用戶陷個資外洩風險

熱狗比人命值錢？《Doomsday Diner》堅守最後一家餐館 記得先煎熱狗再開槍！

挑戰強迫症！療癒益智遊戲《Bento Blocks》體驗日式便當排列填裝術

發佈留言 取消回覆

微軟執行長幽默喊話輝達：莫忘「遊戲」發跡根基是玩家陪你長大！

卡位低軌衛星！義隆電子攜達盛推RF前端晶片積極搶攻兆元市場

兩款熱門Google Chrome外掛轉為惡意程式數千用戶陷個資外洩風險

熱狗比人命值錢？《Doomsday Diner》堅守最後一家餐館記得先煎熱狗再開槍！

發佈留言取消回覆