對嘴也行   微軟VASA-1框架可生成逼真虛擬人像

記者/竹二

微軟近日公開了最新虛擬人像技術VASA-1框架,只要透過一張照片以及一段語音音訊,就可以即時生成逼真且表情豐富、高達40 FPS的512×512的虛擬人像,且還能對嘴說話,影像中人物甚至能夠展現自然的表情和頭部動作,非常適合虛擬形象的即時互動用體驗。

微軟最新虛擬人像技術VASA-1框架,只要透過一張照片以及一段語音音訊,就可以即時生成虛擬人像,且還能對嘴說話。(圖/截取自微軟)

解決過去虛擬人像限制

自生成式AI發展以來,以AI生成能夠說話的臉孔,技術上更具互動性,也能強化溝通的無障礙性,應用在教育、醫療上都有許多幫助,只不過先前的技術,距離產生真實且自然的說話臉孔還有一大段距離,不少研究聚焦在對嘴,臉部動態往往被忽視,因此缺乏說服力。

更多新聞:AI自動生成虛擬人像 相片大師iOS版本搶先釋出

微軟VASA-1框架克服了過去虛擬人像生成技術的限制,研究人員利用擴散Transformer模型,在整體臉部動態和頭部運動潛在空間裡進行訓練,VASA-1將所有可能的臉部動態,像是嘴唇動作、表情、眼睛注視和眨眼等行為都視為單一潛在變數,並統一建模其機率分布。

可有效捕捉臉部3D結構

研究人員也針對整體臉部動態建立模型,加上聯合學習的頭部運動模式,產生各種逼真且情感豐富的說話行為,微軟還利用3D技術輔助表示臉部特徵,特別設計損失函式,讓VASA-1不只能夠生成高品質臉部影像,還能有效的捕捉和重現臉部3D結構。

據悉,VASA-1不只是圖像生成品質自然良好,另一大優點是能高效運作,即時生成逼真的說話臉部,這對於通訊的即時互動是關鍵性的能力。研究人員在Nvidia RTX 4090 GPU桌上型電腦評估VASA-1,線上串流模式512×512的解析度可達到40 FPS,延遲時間只有170 ms。

瀏覽 679 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button