Google Gemini藉自主決策成為寶可夢大師 再創AI推理新境界
記者孟圓琦/台北報導
多元的AI工具現在在各大產業中,已然成為不可或缺的重點條件之一,然而你想過AI除了資料統整或蒐集外,還有自主決策破關遊戲的能力了嗎?近日,在軟體工程師Joel Z的實驗下,挑戰由Google DeepMind團隊開發的多模態大型語言模型Gemini 2.5 Pro,來通關經典遊戲《寶可夢:藍色》,大展人工智慧在遊戲理解、策略規劃與推理上的嶄新高度。

軟體工程師發起 AI自主挑戰經典遊戲
這場名為「Gemini Plays Pokémon」的直播實驗,由30歲的軟體工程師Joel 自主獨立發起,而非Google官方計畫。有鑑於Joel Z受到先前Claude AI成功挑戰《寶可夢:紅》的啟發,選擇了自己第一款玩的《寶可夢:藍色》作為Gemini 2.5 Pro的試煉場。這項挑戰不僅吸引了全球數萬名觀眾同步線上關注,也獲得Google CEO桑達爾·皮查伊與DeepMind負責人戴密斯·哈薩比斯的公開祝賀。
雖然目前Claude尚未完成《寶可夢紅版》通關,但Gemini破關的成就也未必等於其表現更優於Claude,Joel Z.也在Twitch頁面上提醒:「請不要將這次成果視為AI模型遊玩寶可夢能力的指標。Gemini與Claude使用不同的工具與資訊來源,無法直接比較。」
延伸閱讀:
政府效率太慢 馬斯克再次強調:AI可以取代部分公務員
宏碁資訊攜北科大共推「AI雙向賦能」計畫 搭起產學合作新橋梁
私密內容: Google推出「AI模式」對話式搜尋引擎 對戰OpenAI
Google Gemini啟用AI影像編輯新功能 以文字指令更替背景與特定物件
全自主決策與多智能體協作 大展AI靈活性
有別於以往讓AI重複試錯的通關方式,這次的實驗打造了一套完整的自主決策系統。Joel Z透過Socket連接mGBA模擬器,讓AI能即時獲取遊戲畫面截圖、玩家狀態、地圖資訊等,並可直接發送按鍵指令給遊戲。Gemini 2.5 Pro在每個遊戲回合都會分析這些多模態資訊,自主決定下一步行動。而為了提升效率與可靠性,系統還引入了專門的「智能體」(Agent)進行協作。例如,當AI需要規劃複雜路徑時,會呼叫專屬的路徑規劃智能體(Pathfinder Agent),這其實是另一個Gemini實例,能運用如廣度優先搜尋(BFS)等演算法尋找最佳路線。這種多智能體協作模式,讓Gemini在面對複雜任務時展現更高的靈活性與智慧。
Gemini 2.5 Pro在遊戲過程中展現了強大的推理能力。不同於Claude AI有自動導航工具,Gemini完全依賴自身的決策與規劃能力。為了讓AI更貼近人類玩家的體驗,系統還設計了幾項限制,例如只有在低血量且無治療道具時才能使用「穿洞繩」或「挖洞」逃脫,避免AI一遇困難就「抄近路」。
此外,為了彌補AI在空間記憶上的不足,開發者在介面上方加上了小地圖,讓觀眾能直觀看到Gemini探索的區域。不過,Gemini本身只接收文字形式的地圖資訊,無法直接「看見」小地圖,這一設計並不構成作弊。
僅供必要提示 見證AI遊戲推理能力
過程中,Joel Z唯一一次進行的技術干預,是在遊戲某些原版設計不合理的地方給予AI必要提示(如告知需與火箭隊員對話兩次才能獲得關鍵道具),而這是《寶可夢黃版》才修正的程式錯誤。Joel Z強調,這些干預僅為完善AI的通用推理能力,並未針對具體關卡給予攻略或提示。這種公開透明的開發過程,也讓觀眾見證AI學習與優化的真實歷程。
這次Gemini 2.5 Pro通關《寶可夢:藍色》的創舉,不僅是AI遊戲能力的展示,更代表大型語言模型在多模態理解、自主決策與長程規劃上的重大突破。顯現AI已能在複雜、開放式環境中,透過有限資訊進行類似人類的推理與應變,為未來AI應用開啟更多可能。Joel Z表示,這次實驗僅是起點,未來將持續探索AI在遊戲、教育、輔助決策等領域的潛力。Google DeepMind團隊也強調,Gemini系列模型將持續優化,朝向更強大的通用人工智慧邁進。
瀏覽 168 次