微軟秀上限 可辨識圖像AI展示推理能力

記者/劉閔

即使近期與 openAI 擴大合作並將聊天機器人 ChatGPT 導入 Bing 搜尋引擎中而直威脅 Google 龍頭地位,但微軟(Microsoft)似乎並不打算停下腳步,持續朝向自行建構大型語言模型的目標前進。而就在稍早成功推名為 Kosmos-1 大型語言 AI,據稱可以同時理解文字和圖像內容,藉此對應更複雜、多元的技術應用。

微軟表示未來還要將語言能力整合至 Kosmos-1 中,擴大模型規模。(圖片翻攝自 techxplore)

微軟表示用於訓練 Kosmos-1 的資料皆來自於網路,包括文字和圖像的組合文本資料。在初期為了幫助 Kosmos-1 能進一步理解圖象內容,開發人員透過事先將圖象與文字內容加上大量標記,藉此幫助大型語言模型可以進一步理解內容並實現多型態運作模式。

據了解微軟在研究期間多次讓 Kosmos-1 展現理解圖像能力,而它不僅能夠透過分析圖像來回答關於圖像內容問題,更可以從圖像中閱讀出裡面文字或幫助圖像下註解。其次在瑞文氏推理測驗當中表現超乎預期,使用視覺進行文字辨識並以 22 ~ 26% 的問題準確度完成視覺智商測試,表現超過了目前最先進模型。

儘管 Kosmos-1 代表多模態領域的早期步驟,但一些專家始終認為只要透過整合語言、行動和多模態認知後,人工智慧將朝向 AGI 通用人工智慧邁進,不再讓現有的 AI 侷限對應特定領域應用發展。

不過還是有不少人對 AGI 的概念存有許多堪憂,並擔心過度發展具有智慧的 AI 將加速影響人類既有生活模式,甚至可能導致人類滅亡等。雖然目前看來這些想法或許過於憂慮,但這項技術發展過程仍然必須加上保護機制,避免人工智慧影響加劇。

瀏覽 672 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button