AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲？

2025-06-18

記者鄧天心／綜合報導

在AI產業競爭白熱化之際，Google與Anthropic不僅在技術上較勁，還將戰場延伸至經典遊戲《寶可夢》，Google Gemini 2.5 Pro成功挑戰《寶可夢藍版》，但在關鍵時刻卻出現推理混亂、決策失誤等行為，當面臨寶可夢即將陣亡時，竟會出現類似恐慌的行為，或是推理能力下降。

sa1arvhigbzej4asus90 — Gemini與Claude的「寶可夢」對決，讓外界看到現階段AI在壓力與複雜情境下的極限與潛力。（圖／精靈寶可夢官網）

AI模型遊戲實驗推理過程全公開

所謂AI基準測試（AI benchmarking），即比較不同AI模型表現的過程，雖然常被質疑缺乏真實場景參考價值，但部分研究者認為，觀察AI如何玩遊戲，有助於理解其推理與決策。

過去數月，兩位獨立開發者分別設立Twitch頻道「Gemini Plays Pokémon」與「Claude Plays Pokémon」，能即時觀看AI挑戰這款超過25年歷史的兒童遊戲，每場直播會同步顯示AI的「推理」過程，讓外界窺見AI如何拆解問題並做出決策。

Gemini完成一場遊戲需要數百小時，加上Gemini 2.5 Pro在遊戲過程中多次出現「恐慌」狀態，突然停止使用某些工具，推理能力下降，類似人類在壓力下做出決策，這也被Twitch聊天室觀眾發現。

雖然Gemini 2.5 Pro在玩遊戲時還有不少有待改進的部分，但它在解決遊戲裡的複雜謎題時表現出色，例如，只要給它一些簡單提示和規則說明，它就能一次成功破解「勝利之路」的巨石謎題，推理能力甚至比一般玩家還要強。隨著AI技術不斷進步，遊戲也成為測試AI推理和決策能力的新方式。Google甚至認為，未來Gemini有機會完全靠自己創造解題工具，不需要人類幫忙。

標籤

2025-06-18

AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲？

AI模型遊戲實驗推理過程全公開

推薦工作

發佈留言取消回覆

《KPop獵魔女團》聯名樂高細節誠意滿滿 8月全球開賣

比亞迪董座王傳福喊話5年內登全球車王挑戰豐田11.3萬輛銷量霸主地位

IG、Threads「封」聲四起 Meta承諾主動偵測、恢復誤封帳號

Snap新AR眼鏡Specs主打超強手勢控制與超低延遲售價近台幣7萬

數發部免費AI算力服務開放申請新增Gemma 4等多種最新模型

最新科技新聞快訊不錯過!!

AI模型遊戲實驗 推理過程全公開

推薦工作

延伸閱讀

數發部免費AI算力服務開放申請 新增Gemma 4等多種最新模型

不想天天吃雞蛋！七種高蛋白早餐「營養又有飽足感」

Siri AI升級恐加劇記憶體吃緊 三星、SK海力士可望成最大受惠者

氣候危機衝擊！18億兒童遭受乾旱威脅 2.42億學童因天災中斷教育

傳華為Mate 90將搭載新一代麒麟晶片 晶體密度有望接近台積電3奈米

企業搶攻AI搜尋曝光！消費者卻不完全信任 網路比10年前更不人性化

發佈留言 取消回覆

AI模型遊戲實驗推理過程全公開

數發部免費AI算力服務開放申請新增Gemma 4等多種最新模型

Siri AI升級恐加劇記憶體吃緊三星、SK海力士可望成最大受惠者

傳華為Mate 90將搭載新一代麒麟晶片晶體密度有望接近台積電3奈米

企業搶攻AI搜尋曝光！消費者卻不完全信任網路比10年前更不人性化

發佈留言取消回覆