行動AI體驗將革新?Arm LUMEX CSS憑SME2達5倍AI效能 Mali G1-Ultra光追媲美桌機
記者孫敬/台北報導
在AI應用日益從雲端走向裝置端、強調即時與個人化體驗的趨勢下,傳統運算模式也面臨升級挑戰。IP矽智財大廠安謀(Arm)10日推出全新LUMEX CSS平台,透過SME2技術,可賦予CPU最高達5倍的裝置端AI效能,同時次世代Mali G1-Ultra GPU則能實現2倍光線追蹤效能,為行動裝置帶來近似桌機水準的圖形與視覺體驗。
Arm表示,LUMEX CSS平台不僅能加速合作夥伴產品上市進程,開發者友善的軟體生態系統,亦可協助開發者簡化AI應用部署流程。
延伸閱讀:引領手遊AI新世代!Arm發表「類神經圖像技術」 2026年GPU將內建神經加速器

Arm LUMEX平台對標高效能裝置端運算未來
對於近年來AI的崛起,Arm應用工程總監徐達勇觀察,AI早已從單純的工具轉變為個人助理或生活夥伴,隨著即時互動、跨世代AI翻譯、自然語音介面與情境智慧的出現,AI持續創造滿足個人需求的解決方案。
「未來的裝置將能預先判斷使用者需求並主動執行任務,使即時回應成為基本期待。」徐達勇指出,為滿足人們對即時回應、隨時可用、兼顧隱私與能源效率的高度要求,AI運算的模式還有很大的進步空間。
Arm強化AI效能為行動裝置帶來桌機級體驗
在CPU創新方面,Arm推出了全新的C1系列CPU家族,包含專為旗艦裝置設計的C1-Ultra、提供接近旗艦性能但面積更小的C1-Premium、能效表現優於前代的C1-Pro,以及具備最小面積與成本的C1-Nano,全面滿足從旗艦到入門級行動裝置的需求。C1-Ultra相較前代Cortex-X925,通用性能可提升高達25%;而C1-Pro則在相同功耗下,性能比Cortex-A725提升12%。

Arm首席應用工程師胡岱勛分析,LUMEX平台的一大亮點是全面整合SME2技術,讓AI在CPU上的延伸指令集,為裝置端AI應用帶來高達5倍的效能提升與3倍的能源效率改善。「SME2不僅支援更多應用,新增了矩陣乘法與記憶體存取指令,還加入了用於多位元處理的LUTI指令,使其能更廣泛地應用於不同裝置。」
此外,DSU-120也將SME2引擎整合至快取叢集,並改良L3快取的資料傳輸效率與電源管理,進一步強化整體CPU叢集的性能與能效。實際測試顯示,SME2能將語音辨識延遲改善4.7倍,大型語言模型(LLM)編碼速度提升4.7倍,生成式語音生成時間加速2.8倍,現已獲得支付寶、Meta、Google等全球生態夥伴支持。

在GPU領域,G1-Ultra相較Immortalis-G925,圖形性能與AI推論性能均提升20%,同時每幀畫面所需能耗降低9%。尤其在光線追蹤技術上,由於全新設計的Ray Tracing Unit 2.0採用了Single Ray Model,不僅大幅提升效率與逼真度,更具備獨立電源島,能在閒置時完全關閉以節省能耗,使光線追蹤性能直接翻倍。這項技術搭配UE5的Lumen與Megalite技術,使得桌機級的複雜光影效果也能在行動裝置上流暢呈現,遊戲幀率可提升高達40%。
軟硬體雙管齊下,Arm揭示CPU加速AI的解決方案
對於AI從雲端走向裝置端,Arm終端產品事業部市場策略總監蔡武男解釋,這是因為裝置端AI能帶來低延遲、保護隱私、隨時可用且更具成本效益的優勢。「開發者通常不希望為追求效能而被迫轉換程式設計模型或API,這也是Arm致力於在CPU端解決AI加速問題的原因。」
為此,Arm推出了KleidiAI輕量級軟體函式庫。「透過KleidiAI,開發者無需深入了解底層CPU指令集,即可無縫且高效地調用Arm CPU的AI加速能力。」 蔡武男舉例,在Android生態系統中,KleidiAI已深度整合到主流框架如PyTorch的ExecuTorch中,數千個Android AI應用程式因此能直接獲得SME2帶來的效能紅利。

在傳統AI網路方面,SME2能在CPU上實現3到6倍的效能加速,某些情況下甚至超越了GPU的表現,且無需開發者更改程式碼。針對生成式AI,Arm與Stability AI合作,將Stable Audio Open模型(文字轉音效)在裝置端加速2.8倍,僅需9.7秒即可生成11秒的音訊,而這對於處理混合資料類型的工作負載尤為關鍵,因為這是NPU或GPU難以高效處理的領域,而CPU則能靈活應對。在Android AICore安全模型中,SME2成功將Google用於安全過濾的小型模型加速20%。
Arm這次發表的LUMEX平台,整合高速運算效能、電源效率與系統可擴展性,能有效加速合作夥伴的創新與產品上市。「LUMEX不僅適用於智慧型手機,其應用範圍更可延伸至平板電腦及PC等廣泛的行動裝置。」 徐達勇表示,Arm預估至2030年,包含SME與SME2技術的Arm裝置將達到30億台,可實現100億TOPS的AI運算效能,預示著裝置端AI能力將迎來跳躍性成長。
