棄Nvidia改華為訓練遇瓶頸!DeepSeek R2新模型將延後發布

記者鄧天心/綜合報導

DeepSeek R2傳出因硬體更換導致進度延宕,原本用於訓練的Nvidia硬體在中途被替換為華為晶片,結果訓練過程被中斷,華為的技術沒辦法做完完整訓練工作,僅能被用於推理階段。

1755224440373
DeepSeek R2傳出因硬體更換導致進度延宕,原本用於訓練的Nvidia硬體在中途被替換為華為晶片,結果訓練過程被中斷。(圖/deepseek)

延伸閱讀:台積電宣布未來2年退出6吋廠 聚焦發展8吋與12吋晶圓

為什麼換硬體會出現這麼多問題?其實,訓練大型AI模型非常倚賴穩定而一致的運算環境。這就像是一支正在競賽的車隊,如果突然要把底盤、引擎、軟體系統全換成另一家出的,勢必需要重新測試和調校。不僅是硬體本身,就連很多程序、資料處理方式、軟體工具都必須微調,一不小心還得從頭來過,這也讓開發進度大幅拖延。

相比之下,讓AI進行推理、為用戶提供答案或服務時,雖然也得適當調整硬體,但難度相對較低,所以團隊決定在這步驟才使用華為晶片。

其實,現在有越來越多AI團隊採用類似策略,把訓練和推理分開,不同階段用最適合的硬體平台。一方面保證最複雜、技術要求最高的「訓練」過程能在成熟生態下平順進行,另一方面又能在落地服務時追求成本或彈性的優化。

Nvidia不僅因為硬體本身的高性能被選用,更因其完整的生態和工具、相容性佳,在深度學習訓練領域一時難有替代者,華為即使有政府政策與本地市場的支援,其AI晶片的軟硬體通用性、工程線上穩定性,仍需時間追趕。

資料來源:AI NewsTom’s HardwareReuters

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button