DeepMind發表Genie3 一句指令就AI能打造3D世界

2025-08-06

記者鄧天心／綜合報導

DeepMind最新推出的Genie 3世界模型，又往通用人工智慧AGI更邁進一步了！Google DeepMind最近公開了Genie 3能創造各種虛擬3D世界的AI，可以拿來訓練更聰明的AI助手，再讓這些AI學會怎麼像真人一樣去觀察行動。

DeepMind的研究主管Shlomi Fruchter提到，Genie 3的厲害之處在於它不是只會處理一兩種特定環境（比如只會玩電動或下棋）的模型，而是真的可以生成各種真實或奇幻的世界，而且都是可以互動的，不管是冒險遊戲、一間辦公室，還是完全幻想的宇宙，只要用文字描述，Genie 3都能幫你建出來。

1754460388670 — DeepMind發表Genie3，AI能用文字創造互動3D世界，邁向新里程碑。（圖／Google DeepMind）

延伸閱讀：

現在學生超幸福！Google NotebookLM推出專為國中生打造筆記功能而且還免費

目前Genie 3還沒正式公開，只在研究中試用，不過和它的上個版本Genie 2相比，進步很多，Genie 2最多可以生成10到20秒的場景，現在Genie 3可以一次創造出好幾分鐘、高畫質的3D互動世界（就像短動畫），你還可以用文字直接改變這個虛擬世界，像是輸入「下雨了」或「出現一架飛機」，Genie 3會自動讓這些事件發生。

另一個很重要的突破是，Genie 3在生成這些世界時，物體和世界的變化會保持前後一致（所謂「物理一致性」），意思就是說，如果剛才生成了一個掉在地板上的球，接下來那顆球還會繼續在地板上，不會突然消失或出現在其他地方，這種連貫性讓場景更真實，這個特性是Genie 3自己學會的，而不是工程師硬把規則寫進去。

DeepMind認為，這種能生成並連續「記住」世界細節的AI模型，未來對訓練多才多藝的AI助手很重要，不只可以應用在教育、遊戲或創意開發，更關鍵的是，它能幫AI練習執行現實生活中會遇到的各種複雜任務。

DeepMind的另一位團隊成員Jack Parker-Holder解釋說，像Genie 3這樣的世界模型是讓AI能夠「身歷其境」學習、成長的關鍵，以往要打造這種世界，必須用很多複雜的物理引擎寫死各種規則，但Genie 3是靠自己觀察「事情是怎麼發生的」來理解現實，例如，東西會掉下來、會碰撞，並且會自己記憶和推理下一步劇情。

這個AI是「自回歸」型的，就是每幀畫面都要先回憶前面發生了什麼，再判斷接下來要做什麼、世界要怎麼變化，這就像我們看一顆杯子在桌邊，他會知道：「再這樣下去會掉下來！」或是看到東西往自己掉，就會像人一樣有閃避的反應。

DeepMind還指出，這種模型能讓AI變得更有自主性，有點類似人類小孩在遊戲或碰撞中自學成長，例如，他們用Genie 3讓另一個AI助手SIMA去完成簡單任務，比如「走到那台亮綠色的壓縮機旁」，結果AI能自己看懂場景並完成任務，只有世界夠真實連貫，這些AI才能越學越厲害。

當然，Genie 3也有不足的地方，比如說，雖然聲稱懂物理規則，但模擬滑雪時，雪地實際怎麼被擠壓和甩飛還原得不太精準，另外，目前AI能做的動作還比較有限，彼此互動也沒辦法像真實世界複雜，還有就是，每次只能連續模擬幾分鐘，離訓練幾小時的需求還有一段距離。

即使如此，Genie 3已經比以前的AI模型更接近我們想像「會學習、會思考」的未來AI了，這樣的AI不再只是按照指令被動回應，而是真的能主動規劃、探索世界，也會在錯誤中學習成長。

Jack Parker-Holder最後補充說，過去我們還沒看到AI能像AlphaGo在圍棋「第37步那一手」那樣有突破性的表現，但現在有了Genie 3，或許很快會進入AI能自由發揮、超越人類想像力的新時代。

資料來源：deepmind、TechCrunch