Google最新多模態VideoPoet　可完成各種影片生成任務

2023-12-25

記者／竹二

Google近日公佈了最新多模態大型語言模型VideoPoet，有別於當前影片生成模型大多為擴散模型，VideoPoet能夠執行各種影片生成任務，包含文字轉影片、圖片轉影片、影片風格化，甚至是影片轉音訊等，可以完成各種影片生成任務產出高品質影片，單一模型就可生成影片與配樂。

4 1 — Google最新多模態大型語言模型VideoPoet，能夠執行各種影片生成任務，甚至是影片轉音訊等。（圖／截取自Google）

VideoPoet可處理影片、圖像，適應短影片

根據Google的說法，目前最先進的影片生成模型也只能生成小幅度的動作，在生成大動作的時候，就會出現明顯的破綻，因此他們開發出VideoPoet，這是一個能夠執行各種影片生成、任務的大型語言模型，可以把影片生成能力整合到單一大型語言模型中，而不再是仰賴各項針對性任務訓練的獨立元件。

VideoPoet藉由使用多種標記器，可以學習處理影片、圖像、音訊和文字等不同模態，根據特定上下文條件生成相對應的標記後，這些標記就可以透過標記器轉換回可查看的表示形式，生成影片和音訊內容。此外，VideoPoet也適應短影片格式預設生成縱向影片，在進行影片風格化時，能夠預測光流及深度資訊，同時也可以生成音訊，透過先從模型生成的音訊片段，就可在沒有文字指引的情況下，預測接下來的音訊。

VideoPoet可預測接下來的影片，還可互動編輯

VideoPoet能以前一秒的影片預測接下來的影片，以連續預測的方式達到生成更長影片的目的，這種方法不只可以有效延長影片，經過多次迭代後仍能保持影片主體的外觀不變，且生成的影片能夠以互動的方式編輯，像是改變影片中物體的運動，好執行不同的動作，使用者也可以透過文字提示，添加需要的攝影機運動方式，藉此精確控制攝影機的移動。

研究人員表示，VideoPoet的研究貢獻在於展示大型語言模型的能力，同時具有生成高度競爭力影片的能力，特別是在高品質的動作表現方面，未來研究框架會朝向支援任意形式生成任意形式內容的方向發展。

標籤

2023-12-25

Google最新多模態VideoPoet　可完成各種影片生成任務

VideoPoet可處理影片、圖像，適應短影片

VideoPoet可預測接下來的影片，還可互動編輯

推薦工作

發佈留言取消回覆

《KPop獵魔女團》聯名樂高細節誠意滿滿 8月全球開賣

比亞迪董座王傳福喊話5年內登全球車王挑戰豐田11.3萬輛銷量霸主地位

IG、Threads「封」聲四起 Meta承諾主動偵測、恢復誤封帳號

Snap新AR眼鏡Specs主打超強手勢控制與超低延遲售價近台幣7萬

數發部免費AI算力服務開放申請新增Gemma 4等多種最新模型

最新科技新聞快訊不錯過!!

VideoPoet可處理影片、圖像，適應短影片

VideoPoet可預測接下來的影片，還可互動編輯

推薦工作

延伸閱讀

數發部免費AI算力服務開放申請 新增Gemma 4等多種最新模型

地表最強內顯要來了？！英特爾聯手輝達打造最強晶片傳2028強勢登場

不想天天吃雞蛋！七種高蛋白早餐「營養又有飽足感」

Siri AI升級恐加劇記憶體吃緊 三星、SK海力士可望成最大受惠者

氣候危機衝擊！18億兒童遭受乾旱威脅 2.42億學童因天災中斷教育

傳華為Mate 90將搭載新一代麒麟晶片 晶體密度有望接近台積電3奈米

發佈留言 取消回覆

數發部免費AI算力服務開放申請新增Gemma 4等多種最新模型

Siri AI升級恐加劇記憶體吃緊三星、SK海力士可望成最大受惠者

傳華為Mate 90將搭載新一代麒麟晶片晶體密度有望接近台積電3奈米

發佈留言取消回覆