阿里巴巴開源Qwen3-Omni 橫掃36項測試打敗GPT-4o

2025-09-23

記者鄧天心／綜合報導

阿里巴巴再掀AI革命，推出業界首個原生開源全模態大模型Qwen3-Omni，正式對標美國科技巨頭，並強勢挑戰封閉專有系統，這款模型支援文本、圖片、音訊與影片等多種資料輸入，在文本與語音生成、速度、語言覆蓋與多模態任務表現上，全面超越同規格開源與封閉式競品，為全球開發者和企業帶來前所未有的彈性與實用性。

Qwen3-Omni是阿里通義團隊打造的第三代全模態AI，採以Thinker–Talker架構，能原生處理文本、圖像、語音與影片，並直接進行跨模態理解與推理。

1758597578219 — 阿里巴巴再掀AI革命，推出業界首個原生開源全模態大模型Qwen3-Omni，正式對標美國科技巨頭。（圖／World Economic Forum）

延伸閱讀：

10位諾貝爾獎得主聯手AI巨頭要求2026年前設定AI紅線

傳統多模態大多採用後加式（bolt-on）模組，Qwen3-Omni則於預訓練階段就混合單模態與多模態資料，大幅提升跨模態協同理解能力。該架構在業界屬首創，即便在嶄新的多模態任務中亦展現強大性能。

Qwen3-Omni採用Apache 2.0開源授權，支援免費下載、修改與再分發，完全開放商業應用，不需擔心後續授權風險。對開發者而言，可直接從Hugging Face、GitHub獲取模型，或以阿里雲API、體驗版Flash執行快速部署。

模型支援119種文字、19種語音理解語言與10種語音生成語言，覆蓋全球主流語言及如粵語等方言。純模型端到端延遲低至211毫秒（音頻）或507毫秒（視頻），大幅領先同級對手，適合需要即時回應的語音、影音互動場景。

Qwen3-Omni主推三大版本：Instruct（指令）、Thinking（思考）及Captioner（音頻標注）。開發者可依據需求選用覆蓋廣泛的全模態互動、專注推理的長鏈思考、或精細化音訊描述，應對多元應用場景。

Qwen3-Omni在36項音/影音任務中，22項達到頂尖業界水準(SOTA)，32項刷新開源紀錄。與Google Gemini 2.5 Pro、OpenAI GPT-4o等封閉模型相比，在語音、推理和影音多模態等核心領域全面領先，顯示中國AI在核心技術上已具備全球競爭力。

模型已開放企業部署和行業調整，可應用於跨語種轉錄、影音理解、客服助理、IoT語音控制、智能助理、即時翻譯、OCR、音樂分段等多樣場景，企業用戶可依據具體行業需求進行進一步微調和本地整合，且享有涵蓋專利的法律保障。

資料來源：chinaz.com、wallstreetcn.com

在 Google News 上追蹤我們

標籤

2025-09-23

發佈留言取消回覆

很抱歉，必須登入網站才能發佈留言。