小米推聲音AI開源模型MiDashengLM-7B 一次刷新22項國際評測記錄

記者鄧天心/綜合報導

小米於2025年8月4日正式發布自言聲音開源模型MiDashengLM-7B,強調MiDashengLM-7B不但速度快、準確率高,例如模型回應一段聲音的第一字只需要同類型產品四分之一的時間,且同樣的顯卡記憶體情況下,可以同時處理的任務卻多20倍,此外,在22個知名的國際公開測試中,也創下目前的最佳成績。

1754298956685
小米在2025年8月4日推出並全面開源自家研發的聲音理解人工智慧MiDashengLM-7B。(圖/GitHub

延伸閱讀:OpenAI首座歐洲AI資料中心設在挪威!將搭載10萬顆輝達GB300晶片

這套模型的核心是小米自家打造的音訊編碼器(Xiaomi Dasheng),結合了Qwen2.5-Omni-7B解碼器它讓AI能像人一樣「聽懂」語音,也能理解生活環境裡各種雜音、甚至音樂,另一個特點是,小米這次將所有訓練音檔來源都公開透明(共77份資料),與業界習慣留一手相比,更方便大家學習和檢驗。

早在2024年,小米就發表過Xiaomi Dasheng聲音底層模型,當時打破了全球最大的聲音數據比賽AudioSet的記錄,也在各項聲音理解能力比賽中領先。現在這項技術已經實際用在約30種小米智能家居和汽車的應用場景中。像是汽車能自動偵測車外可疑聲音,甚至只要打個響指就能控制家電,這些都靠這套AI模型在背後支撐。

MiDashengLM-7B還嵌入了新的互動功能,舉例來說,用戶唱歌或練習外語時,AI能即時糾正發音並給出具體建議;開車時提出任何關於環境聲音的問題,也能即時獲得AI的語音解釋。

未來,小米規劃繼續強化MiDashengLM-7B,讓它能更節能、運轉更快,甚至做到可以離線使用,還希望讓用戶能直接用語音指令讓AI幫忙編輯各種聲音。

資料來源:网易 、infocast

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button