AI看懂影片不再難！Google釋首款多模態嵌入模型

2026-03-12

記者鄧天心／綜合報導

科技巨頭Google近日釋出首款多模態嵌入模型（Multimodal Embedding Model），讓AI不再只能讀字或看圖，而是能將文字、照片與影片等不同類型的內容，整合進同一個數學理解空間，大幅簡化了開發者處理複雜數據的流程。

這項技術簡單來說，就是將文字、圖片或影片，通通轉化為一組電腦看得懂的「經緯度座標」。過去，AI處理資訊就像是在兩張不同的地圖上作業，一張是文字地圖，另一張是影像地圖，開發者若要讓AI理解「在海邊奔跑的狗」這段話對應到哪張照片，必須在兩張地圖之間建立無數條連線。

Google推出的這款新模型，則是將所有資訊整合進同一張地圖，當系統接收到「在海邊奔跑的狗」這段描述時，它會給出一個特定的空間座標；與此同時，一張同樣描繪海邊小狗的照片，在模型眼中也會被賦予極其接近的座標。

更多科技工作請上科技專區：https://techplus.1111.com.tw/

這種座標化讓系統不再需要依賴人工標註的文字標籤（Tag），即便資料庫中的影片完全沒有寫下任何註解，AI也能憑藉著影像本身的視覺特徵，在數學空間中找到與搜尋文字最接近的座標點，精準抓出對應畫面。

以往企業若要開發具備搜尋影像功能的APP，需要建構複雜的數據管道，現在Google這款新模型可處理多種媒體格式，這種將不同媒介資訊共用座標系統的作法，讓AI的理解力更接近人類，縮短研發時間也降低了運算的成本。

推薦工作