Meta開源AI模型ImageBind　結合6大感知更像人類

2023-05-11

記者／竹二

隨著人工智慧的應用越來越多元，Meta AI近日開源了多模態AI模型ImageBind，整合了6大感知形式，囊括了照片影片、文字、聲音、深度、熱量與慣性測量單元（IMU），可以讓機器能夠像人類一樣，全面分析不同類型的資料，像是用聲音及影像來形成影像，或是以聲音來產生影像的生成能力。

在傳統的AI系統當中，每個模態都會有一個特定的嵌入，ImageBind則建立了不同模態的共同嵌入空間，而且不需要針對各模態之間的不同結合進行訓練。這個進展非常重要，因為人類多半能夠從少數的例子中學到新的概念，像是只是閱讀對動物的文字描述，就得以在現實生活中辨認他們，但是在AI領域中，隨著模態數量的增加，缺乏感官資料會限制標準的模態學習，但分布不同資料的共同嵌入空間，則可讓模型學習不同的模態。

因此，基於共同嵌入空間的ImageBind不僅可以利用影像來汲取聲音、以文字來造就影像與聲音、用聲音及影像來形成影像，像是把海浪的聲音加入海灘的照片中，輸入火車的聲音可以得到相關的影像，輸入狗叫聲再加上海灘照片可以得到狗望向大海的照片。

根據Meta AI的說明，ImageBind展示的是藉由配對的圖像資料，就足以結合這6種不同的模態，讓模型得以更全面解讀內容，現階段的研究中僅使用6種模態，未來若導入更多的模型，像是觸覺、說話、嗅覺等，將會帶來更豐富、更像人類的AI模型。

Meta AI開源了多模態AI模型ImageBind，整合了6大感知形式。（圖／截取自Meta AI）

瀏覽 494 次

覺得不錯的話就分享出去吧！

標籤

2023-05-11

Meta開源AI模型ImageBind　結合6大感知更像人類

推薦工作

發佈留言取消回覆

推薦工作

延伸閱讀

再生能源氫氣生產可為英國節省 15 億英鎊

暗影軍團穿梭戰國日本 《刺客教條：暗影者》引入間諜網路

NASA追蹤史上最強烈之一的「太陽風暴」

美國FDA批准2項醫材 降低子宮頸抹片篩檢門檻

棉被加重可改善睡眠？加重毯成為潮流的秘密

智慧型眼鏡終將取代手機？當擴增實境成為日常

發佈留言 取消回覆

暗影軍團穿梭戰國日本《刺客教條：暗影者》引入間諜網路

美國FDA批准2項醫材　降低子宮頸抹片篩檢門檻

發佈留言取消回覆