OpenAI推新文字轉影片AI工具「Sora」,一鍵生成1080p畫質、1分鐘短影片!

記者/孫敬 Archer Sun

OpenAI 全新文字轉影片生成式 AI 「Sora」亮相!根據官方實測 Sora 已能產出高畫質 1080p、1 分鐘長的短影片。創辦人山姆·阿特曼(Sam Altman)更再昨(15)日 OpenAI 晚上消息發布後,於個人 X(前 Twitter)發文鼓勵含 Red Teamers(紅隊成員;這裡意指網路安全專家) 在內已獲得測試資格的使用者,分享透過 Sora 生成的動畫。

除了輸入文字,Sora 還支援靜態圖片生成短影片,即便是多個角度不同的分鏡畫面分開生成,也能在影片的最後用相同的畫面呈現(如纜車的起頭到終點站)。從 OpenAI 官網釋出的動畫中會發現,除了細微部分的小缺點,影片高還原真實街道與風雪場景、人類走路的衣服五官、動物奔跑表情,就連手持手機拍攝出現的晃動感、從鏡子中反射的人臉都能清楚呈現。

延伸閱讀:ChatGPT有記憶了!OpenAI推新功能  讓機器人「記住」你的喜好

OpenAI 推出新文字轉圖片生成式 AI 「Sora」。(圖:OpenAI)

Sora 能重現現實世界風景、人物、動物等高複雜度度影片生成

「Sora 對語言有深入的理解,能夠精準的解釋提示詞並生成引人注目的內容來表達來表達充滿活力的情感。」OpenAI 在 Sora 的官方介紹頁面點出了這款生成式 AI 的特點,「Sora 不僅了解使用者在提示詞提出的要求,還能知道這些東西在物理世界的存在方式。」換言之,Sora 是一個能讀懂三次元世界的 AI。

Sora 會有這樣的強大的性能,一部分歸功於它使用了共計 1 萬小時的高畫質影片訓練,以及 OpenAI 在 2021 年發布的文字轉圖片生成式 AI 工具「DALL-E」模型,並承襲 2023 年 9 月推出的 DALL-E 3 串聯 ChatGPT 的重述提示詞技術,讓 AI 能精準的判讀使用者輸入的提示詞,找到最正確符合使用者需求的答案,在生成影片之餘,還能幫使用者修正作品缺漏的小細節。

動畫製作中,常見的遠眺近看、持續奔跑移動、360 度環景、模擬三次元世界 Minecraft(麥塊)都不是問題,生成的圖片解析度更上看 2048×2048。不過 Sora 現在還有技術上的缺點需要克服,像是對特定字詞的解釋有出入(如咬一口的餅乾,卻可能沒有咬痕、跑步機上跑步的人可能是反方向跑),或是左右空間等物理場景(玻璃杯破碎與液體飛濺)的解讀還不夠準確。

OpenAI 補充,Sora 具體開放給大眾使用的時間未定,也並未透露是否會開源供開發者使用,現部分政府機要人員、藝術家、教育工作者已加入測試研究,同時針對暴力、成人影像、仇恨歧視、名人肖像、特定 IP 作品做出影像生成的防範,以確保最終 AI 產出的作品不會遭到有心人士濫用。

Sora 生成的跑步機跑步的男人是反方向在跑步。(影:OpenAI)
Sora 生成的玻璃杯破碎畫面並不符合物理現象。(影:OpenAI)

瀏覽 4,962 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button