AI看懂影片不再難!Google釋首款多模態嵌入模型

記者鄧天心/綜合報導

科技巨頭Google近日釋出首款多模態嵌入模型(Multimodal Embedding Model),讓AI不再只能讀字或看圖,而是能將文字、照片與影片等不同類型的內容,整合進同一個數學理解空間,大幅簡化了開發者處理複雜數據的流程。

(圖/擷取自Google官方部落格)
Google釋多模態嵌入模型。(圖/擷取自Google官方部落格)

這項技術簡單來說,就是將文字、圖片或影片,通通轉化為一組電腦看得懂的「經緯度座標」。過去,AI處理資訊就像是在兩張不同的地圖上作業,一張是文字地圖,另一張是影像地圖,開發者若要讓AI理解「在海邊奔跑的狗」這段話對應到哪張照片,必須在兩張地圖之間建立無數條連線。

Google推出的這款新模型,則是將所有資訊整合進同一張地圖,當系統接收到「在海邊奔跑的狗」這段描述時,它會給出一個特定的空間座標;與此同時,一張同樣描繪海邊小狗的照片,在模型眼中也會被賦予極其接近的座標。

更多科技工作請上科技專區:https://techplus.1111.com.tw/

這種座標化讓系統不再需要依賴人工標註的文字標籤(Tag),即便資料庫中的影片完全沒有寫下任何註解,AI也能憑藉著影像本身的視覺特徵,在數學空間中找到與搜尋文字最接近的座標點,精準抓出對應畫面。

以往企業若要開發具備搜尋影像功能的APP,需要建構複雜的數據管道,現在Google這款新模型可處理多種媒體格式,這種將不同媒介資訊共用座標系統的作法,讓AI的理解力更接近人類,縮短研發時間也降低了運算的成本。

延伸閱讀:

對決特斯拉、Waymo!輝達黃仁勳親自試乘 體驗輝達自動駕駛系統

資料來源:Google部落格

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button