地表最快語言模型?蘋果新模型FS-DFM 實現長文本生成速度提升128倍
記者孟圓琦/編譯
蘋果公司(Apple)研究人員在與俄亥俄州立大學的合作研究中,發表了一款名為 「少步驟離散流匹配」(Few-Step Discrete Flow-Matching, FS-DFM)的新型語言模型。該模型在長文本生成方面展現出革命性進展,其寫作速度最高可比同類模型快上128倍,同時維持極高品質。

傳統的語言模型(如 ChatGPT 所使用的 LLM)屬於自迴歸模型(Autoregressive Models),必須依序一個詞元(token)一個詞元地生成文本。與之相對的擴散模型(Diffusion Models)雖然能夠平行生成多個詞元,但往往需要數百甚至上千次的疊代修正才能產生最終結果。
延伸閱讀:
年底換機潮來襲!蘋果副總推文藏彩蛋、預告「怪獸級」MacBook Pro
告別 Plus!蘋果串流服務正式更名「Apple TV」解決名稱混亂
核心技術與優勢
這項名為《FS-DFM:使用少步驟擴散語言模型實現快速準確的長文本生成》的研究指出,FS-DFM 模型僅需八次快速修正,便能生成與需要超過一千個步驟的擴散模型品質相當的完整長篇段落。研究人員採用了精巧的三步驟方法來達成此一突破:
-
訓練模型:
使其能夠適應不同次數的修正預算。
-
引入指導:
使用一個引導性的「教師模型」(Teacher Model),幫助 FS-DFM 在每次迭代時進行更大、更精確的更新,同時避免文本「過度修正」。
-
迭代優化:
調整每次迭代的工作方式,使模型能以更少且更穩定的步驟達到最終結果。
卓越的效能表現
在兩個關鍵的文本品質衡量指標上,FS-DFM 的表現優於現有大型擴散模型。困惑度(Perplexity)是用於衡量文本自然度和準確度的標準指標,分數越低代表文本越流暢自然;熵(Entropy)則衡量模型選擇每個詞的信心,適度的熵值能確保文本既不重複單調,也不隨機 incoherence。
與參數高達 70 億的 Dream 擴散模型和 80 億的 LLaDA 擴散模型相比,參數規模僅有 17 億、13 億甚至 1.7 億的 FS-DFM 變體,在所有迭代次數下,均能持續達到更低的困惑度,並保持更穩定的熵值。
研究人員表示,鑑於這項方法所展現的卓越成果,以及目前類似模型研究的缺乏,他們計畫「發布程式碼和模型檢查點,以促進重現性與進一步的研究」。業界預期,這項技術的開源將加速高效能長文本生成領域的發展。相關實施細節與技術探討,可參閱發表於 arXiv 上的完整論文。