對嘴也行微軟VASA-1框架可生成逼真虛擬人像

2024-04-22

記者／竹二

微軟近日公開了最新虛擬人像技術VASA-1框架，只要透過一張照片以及一段語音音訊，就可以即時生成逼真且表情豐富、高達40 FPS的512×512的虛擬人像，且還能對嘴說話，影像中人物甚至能夠展現自然的表情和頭部動作，非常適合虛擬形象的即時互動用體驗。

解決過去虛擬人像限制

自生成式AI發展以來，以AI生成能夠說話的臉孔，技術上更具互動性，也能強化溝通的無障礙性，應用在教育、醫療上都有許多幫助，只不過先前的技術，距離產生真實且自然的說話臉孔還有一大段距離，不少研究聚焦在對嘴，臉部動態往往被忽視，因此缺乏說服力。

微軟VASA-1框架克服了過去虛擬人像生成技術的限制，研究人員利用擴散Transformer模型，在整體臉部動態和頭部運動潛在空間裡進行訓練，VASA-1將所有可能的臉部動態，像是嘴唇動作、表情、眼睛注視和眨眼等行為都視為單一潛在變數，並統一建模其機率分布。

研究人員也針對整體臉部動態建立模型，加上聯合學習的頭部運動模式，產生各種逼真且情感豐富的說話行為，微軟還利用3D技術輔助表示臉部特徵，特別設計損失函式，讓VASA-1不只能夠生成高品質臉部影像，還能有效的捕捉和重現臉部3D結構。

據悉，VASA-1不只是圖像生成品質自然良好，另一大優點是能高效運作，即時生成逼真的說話臉部，這對於通訊的即時互動是關鍵性的能力。研究人員在Nvidia RTX 4090 GPU桌上型電腦評估VASA-1，線上串流模式512×512的解析度可達到40 FPS，延遲時間只有170 ms。

標籤

2024-04-22