AI巨頭用「寶可夢」對決 Google Gemini與Anthropic Claude誰比較會玩遊戲?

記者鄧天心/綜合報導

在AI產業競爭白熱化之際,Google與Anthropic不僅在技術上較勁,還將戰場延伸至經典遊戲《寶可夢》,Google Gemini 2.5 Pro成功挑戰《寶可夢藍版》,但在關鍵時刻卻出現推理混亂、決策失誤等行為,當面臨寶可夢即將陣亡時,竟會出現類似恐慌的行為,或是推理能力下降。

Gemini與Claude的「寶可夢」對決,讓外界看到現階段AI在壓力與複雜情境下的極限與潛力。(圖/精靈寶可夢官網)

延伸閱讀:

不再鎖定單商店、裝置 微軟攜手AMD開發次世代Xbox主機

友誼保衛戰開打!《樂高派對》多元迷你遊戲填補瑪利歐派對空缺

OpenAI宣布獲美國國防部2億美元合約 全面升級行政、國防AI應用

AI模型遊戲實驗 推理過程全公開

所謂AI基準測試(AI benchmarking),即比較不同AI模型表現的過程,雖然常被質疑缺乏真實場景參考價值,但部分研究者認為,觀察AI如何玩遊戲,有助於理解其推理與決策。

過去數月,兩位獨立開發者分別設立Twitch頻道「Gemini Plays Pokémon」與「Claude Plays Pokémon」,能即時觀看AI挑戰這款超過25年歷史的兒童遊戲,每場直播會同步顯示AI的「推理」過程,讓外界窺見AI如何拆解問題並做出決策。

Gemini完成一場遊戲需要數百小時,加上Gemini 2.5 Pro在遊戲過程中多次出現「恐慌」狀態,突然停止使用某些工具,推理能力下降,類似人類在壓力下做出決策,這也被Twitch聊天室觀眾發現。

雖然Gemini 2.5 Pro在玩遊戲時還有不少有待改進的部分,但它在解決遊戲裡的複雜謎題時表現出色,例如,只要給它一些簡單提示和規則說明,它就能一次成功破解「勝利之路」的巨石謎題,推理能力甚至比一般玩家還要強。隨著AI技術不斷進步,遊戲也成為測試AI推理和決策能力的新方式。Google甚至認為,未來Gemini有機會完全靠自己創造解題工具,不需要人類幫忙。

瀏覽 215 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button