AI看懂影片不再難!Google釋首款多模態嵌入模型
記者鄧天心/綜合報導
科技巨頭Google近日釋出首款多模態嵌入模型(Multimodal Embedding Model),讓AI不再只能讀字或看圖,而是能將文字、照片與影片等不同類型的內容,整合進同一個數學理解空間,大幅簡化了開發者處理複雜數據的流程。

這項技術簡單來說,就是將文字、圖片或影片,通通轉化為一組電腦看得懂的「經緯度座標」。過去,AI處理資訊就像是在兩張不同的地圖上作業,一張是文字地圖,另一張是影像地圖,開發者若要讓AI理解「在海邊奔跑的狗」這段話對應到哪張照片,必須在兩張地圖之間建立無數條連線。
Google推出的這款新模型,則是將所有資訊整合進同一張地圖,當系統接收到「在海邊奔跑的狗」這段描述時,它會給出一個特定的空間座標;與此同時,一張同樣描繪海邊小狗的照片,在模型眼中也會被賦予極其接近的座標。
更多科技工作請上科技專區:https://techplus.1111.com.tw/
這種座標化讓系統不再需要依賴人工標註的文字標籤(Tag),即便資料庫中的影片完全沒有寫下任何註解,AI也能憑藉著影像本身的視覺特徵,在數學空間中找到與搜尋文字最接近的座標點,精準抓出對應畫面。
以往企業若要開發具備搜尋影像功能的APP,需要建構複雜的數據管道,現在Google這款新模型可處理多種媒體格式,這種將不同媒介資訊共用座標系統的作法,讓AI的理解力更接近人類,縮短研發時間也降低了運算的成本。
延伸閱讀:
對決特斯拉、Waymo!輝達黃仁勳親自試乘 體驗輝達自動駕駛系統
資料來源:Google部落格
![]()






