DeepSeek升級V3.1「記憶力」翻倍 R2卻因晶片問題一再延後
記者鄧天心/綜合報導
中國AI新創公司DeepSeek最近正式釋出了旗下旗艦AI模型的最新升級版V3.1,這回最大的亮點就是「上下文窗口變更長」,簡單來說,就是模型能一次看懂更多、更長的內容,對於需要長時間互動,或理解複雜語境來說表現更好。
不過,除了這項主要升級,DeepSeek官方其實沒直接公開太多細節,也沒釋出技術文件在Hugging Face等平臺。
有開發者分析,V3.1的上下文長度擴充到100萬tokens,模型參數規模高達6,850億,不僅中英文訓練做了優化,多語言能力也同步提升,還把像對話、推理、寫程式這些需求都整合在一個「混合架構」裡,整體能力直逼OpenAI、Anthropic等。

延伸閱讀:
GPT-5才剛出GPT-6已在路上!Sam Altman透露新AI有最多人敲碗的功能
但和這波升級形成強烈對比的是,市場一直苦等的R2新一代模型卻一直跳票,原本預計去年5月就要亮相的R2,現在卻還沒排定確切發佈日。
這次延遲,不少人把矛頭指向公司創辦人梁文峰,形容他是「完美主義者」,對模型品質要求極高,讓團隊壓力很大,也因此導致多次重來,除了個人風格外,有人指出,R2開發卡關其實和中國本地AI產業的現實挑戰有關,包括資料品質不符期待、高階GPU貨源短缺,還有一度改用國產華為昇騰晶片後遇到效能瓶頸。
媒體透露,由於美國出口禁令,Nvidia晶片在中國變成搶手貨,國內業者被政策鼓勵改用華為,但DeepSeek在訓練R2時卻發現昇騰晶片不穩定、跑不動,最後只能改回用Nvidia,多重壓力讓R2計畫一再延宕。
DeepSeek這波V3.1雖然技術規格吸引目光,但是細節還等官方公開進一步驗證,而R2的延遲,從梁文峰的領導風格,到產業現實與中美科技戰影響,讓這家中國公司正面臨不小的考驗。
資料來源:The New York Times、Reuters、finance.yahoo