皮卡丘也瘋AI?科技巨頭藉《寶可夢》測試AI模型長程決策能力

記者孟圓琦/編譯

在人工智慧(AI)領域,評估模型性能的基準測試(Benchmarks)層出不窮,但近期最受學界與業界關注的測試場域,竟是問世近三十年的任天堂經典遊戲《寶可夢》(Pokémon)。據《華爾街日報》報導,Google、OpenAI 與 Anthropic 正競相投入這場「AI 寶可夢大師」爭霸戰,藉此驗證模型在複雜環境下的邏輯推理,以及長期規劃能力。

Anthropic AI負責人David Hershey表示,「寶可夢之所以有趣,並吸引了機器學習社群的興趣,是因為它比Pong或其他一些人們過去用來進行機器學習的遊戲限制少得多。對於電腦程式來說,這是一個相當困難的問題。」(圖/AI生成)
Anthropic AI負責人David Hershey表示,「寶可夢之所以有趣,並吸引了機器學習社群的興趣,是因為它比Pong或其他一些人們過去用來進行機器學習的遊戲限制少得多。對於電腦程式來說,這是一個相當困難的問題。」(圖/AI生成)

這股熱潮始於去年,由 Anthropic 的應用 AI 負責人 David Hershey發起的「Claude 玩寶可夢」Twitch 直播計畫。Hershey 指出,《寶可夢》的開放性遠高於早期 AI 測試常用的《乓》(Pong, 2D 電子乒乓球運動遊戲)等遊戲。在遊戲中,AI 必須在提升現有夥伴等級、捕捉新寶可夢以及挑戰道館館主之間做出判斷,這考驗了 AI 的風險評估與資源管理,而非單純的線性邏輯。

跟隨Claude的腳步,一起探索關都地區,訓練那些擁有創意名字的寶可夢吧!(圖/ClaudePlaysPokemon)
跟隨Claude的腳步,一起探索關都地區,訓練那些擁有創意名字的寶可夢吧!(圖/ClaudePlaysPokemon)

目前,這項非官方的測試已獲得科技大廠的正式關注。OpenAI 與 Google 的實驗室甚至會針對直播表現微調模型。數據顯示,GPT 與 Gemini 均已成功擊敗《寶可夢 紅/藍》版本並開始挑戰續作;而 Anthropic 的最新模型 Claude 4.5 則仍在奮戰中。

延伸閱讀:
手把也能量心跳?Anbernic內建心率計與2.5吋螢幕 玩遊戲同步監測健康
10秒揪出辦公室異常!恐怖遊戲《P0: Byte-Sized Brilliance》挑戰眼力極限

研究人員將此類測試視為達成「通用人工智慧」(AGI,具備與人類同等或超越人類水平,能理解、學習、推理並執行任何智力任務的假想AI)的重要推力。與簡單的問答式推論不同,完成《寶可夢》遊戲需要數千步連續且正確的策略行動。David Hershey 表示,從中觀察到的「軟體框架控制」(Harness)數據,能有效協助開發者優化模型處理現實世界任務的運算效率。

相較於過去開發簡單遊戲(如踩地雷)的基礎測試,在具備角色養成、屬性相剋與複雜地圖的 RPG 遊戲中表現優劣,已成為衡量 AI 是否具備「擬人化策略思考」的新標竿。

資料來源:tomshardware

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button