皮卡丘也瘋AI？科技巨頭藉《寶可夢》測試AI模型長程決策能力

2026-01-26

記者孟圓琦／編譯

在人工智慧（AI）領域，評估模型性能的基準測試（Benchmarks）層出不窮，但近期最受學界與業界關注的測試場域，竟是問世近三十年的任天堂經典遊戲《寶可夢》（Pokémon）。據《華爾街日報》報導，Google、OpenAI 與 Anthropic 正競相投入這場「AI 寶可夢大師」爭霸戰，藉此驗證模型在複雜環境下的邏輯推理，以及長期規劃能力。

Anthropic AI負責人David Hershey表示，「寶可夢之所以有趣，並吸引了機器學習社群的興趣，是因為它比Pong或其他一些人們過去用來進行機器學習的遊戲限制少得多。對於電腦程式來說，這是一個相當困難的問題。」（圖／AI生成）

這股熱潮始於去年，由 Anthropic 的應用 AI 負責人 David Hershey發起的「Claude 玩寶可夢」Twitch 直播計畫。Hershey 指出，《寶可夢》的開放性遠高於早期 AI 測試常用的《乓》（Pong， 2D 電子乒乓球運動遊戲）等遊戲。在遊戲中，AI 必須在提升現有夥伴等級、捕捉新寶可夢以及挑戰道館館主之間做出判斷，這考驗了 AI 的風險評估與資源管理，而非單純的線性邏輯。

跟隨Claude的腳步，一起探索關都地區，訓練那些擁有創意名字的寶可夢吧！（圖／ClaudePlaysPokemon）

目前，這項非官方的測試已獲得科技大廠的正式關注。OpenAI 與 Google 的實驗室甚至會針對直播表現微調模型。數據顯示，GPT 與 Gemini 均已成功擊敗《寶可夢紅/藍》版本並開始挑戰續作；而 Anthropic 的最新模型 Claude 4.5 則仍在奮戰中。

延伸閱讀：
手把也能量心跳？Anbernic內建心率計與2.5吋螢幕玩遊戲同步監測健康
10秒揪出辦公室異常！恐怖遊戲《P0: Byte-Sized Brilliance》挑戰眼力極限

研究人員將此類測試視為達成「通用人工智慧」（AGI，具備與人類同等或超越人類水平，能理解、學習、推理並執行任何智力任務的假想AI）的重要推力。與簡單的問答式推論不同，完成《寶可夢》遊戲需要數千步連續且正確的策略行動。David Hershey 表示，從中觀察到的「軟體框架控制」（Harness）數據，能有效協助開發者優化模型處理現實世界任務的運算效率。

相較於過去開發簡單遊戲（如踩地雷）的基礎測試，在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣，已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。

資料來源：tomshardware

標籤

2026-01-26

皮卡丘也瘋AI？科技巨頭藉《寶可夢》測試AI模型長程決策能力

推薦工作

發佈留言取消回覆

體驗刺激黑市交易！《監獄商店模擬器》究竟該討好囚犯還是巴結獄警

哥布林女僕來了！合作清潔遊戲《Goblin Cleanup》2027 年登陸家機及 Switch 2

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

中興大學14組生技團隊進軍亞洲生技大展 AI醫療、抗癌新藥成亮點

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

最新科技新聞快訊不錯過!!

推薦工作

延伸閱讀

體驗刺激黑市交易！《監獄商店模擬器》究竟該討好囚犯還是巴結獄警

哥布林女僕來了！合作清潔遊戲《Goblin Cleanup》2027 年登陸家機及 Switch 2

挑戰世界最爛航空！混亂系多人合作航空模擬新作《Dear Passengers》將登場

慶祝寶可夢 30 週年！日本麥當勞推全新漢堡與超萌御三家包裝

友情破壞神作《Machine Party》帶你體驗地獄級派對 挑戰求生極限

Uber Eats 拓花東雲林服務！首推即時提領與導師計畫

發佈留言 取消回覆

友情破壞神作《Machine Party》帶你體驗地獄級派對挑戰求生極限

發佈留言取消回覆