阿里巴巴開源Qwen3-Omni 橫掃36項測試打敗GPT-4o

記者鄧天心/綜合報導

阿里巴巴再掀AI革命,推出業界首個原生開源全模態大模型Qwen3-Omni,正式對標美國科技巨頭,並強勢挑戰封閉專有系統,這款模型支援文本、圖片、音訊與影片等多種資料輸入,在文本與語音生成、速度、語言覆蓋與多模態任務表現上,全面超越同規格開源與封閉式競品,為全球開發者和企業帶來前所未有的彈性與實用性。

Qwen3-Omni是阿里通義團隊打造的第三代全模態AI,採以Thinker–Talker架構,能原生處理文本、圖像、語音與影片,並直接進行跨模態理解與推理。

1758597578219
阿里巴巴再掀AI革命,推出業界首個原生開源全模態大模型Qwen3-Omni,正式對標美國科技巨頭。(圖/World Economic Forum)

延伸閱讀:

10位諾貝爾獎得主聯手AI巨頭 要求2026年前設定AI紅線

傳統多模態大多採用後加式(bolt-on)模組,Qwen3-Omni則於預訓練階段就混合單模態與多模態資料,大幅提升跨模態協同理解能力。該架構在業界屬首創,即便在嶄新的多模態任務中亦展現強大性能。

Qwen3-Omni採用Apache 2.0開源授權,支援免費下載、修改與再分發,完全開放商業應用,不需擔心後續授權風險。對開發者而言,可直接從Hugging Face、GitHub獲取模型,或以阿里雲API、體驗版Flash執行快速部署。

模型支援119種文字、19種語音理解語言與10種語音生成語言,覆蓋全球主流語言及如粵語等方言。純模型端到端延遲低至211毫秒(音頻)或507毫秒(視頻),大幅領先同級對手,適合需要即時回應的語音、影音互動場景。

Qwen3-Omni主推三大版本:Instruct(指令)、Thinking(思考)及Captioner(音頻標注)。開發者可依據需求選用覆蓋廣泛的全模態互動、專注推理的長鏈思考、或精細化音訊描述,應對多元應用場景。

Qwen3-Omni在36項音/影音任務中,22項達到頂尖業界水準(SOTA),32項刷新開源紀錄。與Google Gemini 2.5 Pro、OpenAI GPT-4o等封閉模型相比,在語音、推理和影音多模態等核心領域全面領先,顯示中國AI在核心技術上已具備全球競爭力。

模型已開放企業部署和行業調整,可應用於跨語種轉錄、影音理解、客服助理、IoT語音控制、智能助理、即時翻譯、OCR、音樂分段等多樣場景,企業用戶可依據具體行業需求進行進一步微調和本地整合,且享有涵蓋專利的法律保障。

資料來源:chinaz.comwallstreetcn.com

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button