DeepMind發表Genie3 一句指令就AI能打造3D世界
記者鄧天心/綜合報導
DeepMind最新推出的Genie 3世界模型,又往通用人工智慧AGI更邁進一步了!Google DeepMind最近公開了Genie 3能創造各種虛擬3D世界的AI,可以拿來訓練更聰明的AI助手,再讓這些AI學會怎麼像真人一樣去觀察行動。
DeepMind的研究主管Shlomi Fruchter提到,Genie 3的厲害之處在於它不是只會處理一兩種特定環境(比如只會玩電動或下棋)的模型,而是真的可以生成各種真實或奇幻的世界,而且都是可以互動的,不管是冒險遊戲、一間辦公室,還是完全幻想的宇宙,只要用文字描述,Genie 3都能幫你建出來。

延伸閱讀:
現在學生超幸福!Google NotebookLM推出專為國中生打造筆記功能 而且還免費
目前Genie 3還沒正式公開,只在研究中試用,不過和它的上個版本Genie 2相比,進步很多,Genie 2最多可以生成10到20秒的場景,現在Genie 3可以一次創造出好幾分鐘、高畫質的3D互動世界(就像短動畫),你還可以用文字直接改變這個虛擬世界,像是輸入「下雨了」或「出現一架飛機」,Genie 3會自動讓這些事件發生。
另一個很重要的突破是,Genie 3在生成這些世界時,物體和世界的變化會保持前後一致(所謂「物理一致性」),意思就是說,如果剛才生成了一個掉在地板上的球,接下來那顆球還會繼續在地板上,不會突然消失或出現在其他地方,這種連貫性讓場景更真實,這個特性是Genie 3自己學會的,而不是工程師硬把規則寫進去。
DeepMind認為,這種能生成並連續「記住」世界細節的AI模型,未來對訓練多才多藝的AI助手很重要,不只可以應用在教育、遊戲或創意開發,更關鍵的是,它能幫AI練習執行現實生活中會遇到的各種複雜任務。
DeepMind的另一位團隊成員Jack Parker-Holder解釋說,像Genie 3這樣的世界模型是讓AI能夠「身歷其境」學習、成長的關鍵,以往要打造這種世界,必須用很多複雜的物理引擎寫死各種規則,但Genie 3是靠自己觀察「事情是怎麼發生的」來理解現實,例如,東西會掉下來、會碰撞,並且會自己記憶和推理下一步劇情。
這個AI是「自回歸」型的,就是每幀畫面都要先回憶前面發生了什麼,再判斷接下來要做什麼、世界要怎麼變化,這就像我們看一顆杯子在桌邊,他會知道:「再這樣下去會掉下來!」或是看到東西往自己掉,就會像人一樣有閃避的反應。
DeepMind還指出,這種模型能讓AI變得更有自主性,有點類似人類小孩在遊戲或碰撞中自學成長,例如,他們用Genie 3讓另一個AI助手SIMA去完成簡單任務,比如「走到那台亮綠色的壓縮機旁」,結果AI能自己看懂場景並完成任務,只有世界夠真實連貫,這些AI才能越學越厲害。
當然,Genie 3也有不足的地方,比如說,雖然聲稱懂物理規則,但模擬滑雪時,雪地實際怎麼被擠壓和甩飛還原得不太精準,另外,目前AI能做的動作還比較有限,彼此互動也沒辦法像真實世界複雜,還有就是,每次只能連續模擬幾分鐘,離訓練幾小時的需求還有一段距離。
即使如此,Genie 3已經比以前的AI模型更接近我們想像「會學習、會思考」的未來AI了,這樣的AI不再只是按照指令被動回應,而是真的能主動規劃、探索世界,也會在錯誤中學習成長。
Jack Parker-Holder最後補充說,過去我們還沒看到AI能像AlphaGo在圍棋「第37步那一手」那樣有突破性的表現,但現在有了Genie 3,或許很快會進入AI能自由發揮、超越人類想像力的新時代。
資料來源:deepmind、TechCrunch