Meta推全新AI模型Llama 3,24000塊GPU超級怪獸有多強?

文/鉅亨網

臉書母公司 Meta(META-US) 周四 (19 日) 宣布推出新一代大語言模型(LLM) Llama 3,共有 80 億和 700 億參數兩種版本,用了 24000 塊 GPU、15 萬億個 token 訓練訓練的 Llama 3 一亮相便登上開源大模型鐵王座,而隨著推理編碼大幅提升,代碼和權重全開源,加上 4000 億參數的版本也正在開發,專家認為 4000 億參數的版本推出後將是全球首個開源 GPT-4 級別的模型。

書母公司 Meta(META-US) 周四 (19 日) 宣布推出新一代大語言模型(LLM) Llama 3。(圖/截取自Meta官方網站)

Meta 這次推出的 80 億和 700 億參數模型分別有預訓練和指令微調兩種版本,Meta 也聲稱 Llama 3 效能優於 Claude Sonnet、Mistral Medium 和 GPT-3.5。

80 億參數版本讓所有人都能接觸最前端的 AI 技術,全球各地的開發人員、研究人員都可以藉此進行遊戲、建造和實驗,不過上下文長度相較之前雖增加一倍,但依然只能一次生成 8 千字。

Meta 也預告,接下來幾個月將發佈多個新功能的模型,包括多語言對話、更長上下文,以及整體能力提升。

在性能上,8B 和 70B 顯著優於 Llama 2,取代了 SOTA,預訓練模型和指令微調模型在 8B 和 70B 的參數規模上取得了如此先進的性能,都是得益於預訓練和訓練後的改進。

此外,Llama 3 已能在網頁版 Meta AI 使用且免登錄,AI 模型資源平臺 Hugging Face 共同創辦人兼執行長表示:「Llama 1 和 2 現已衍生出 3 萬個新模型,Llama 3 將給 AI 生態帶來更大衝擊。 」

不過,80 億跟 700 億參數版本的 Llama 3 還只是開胃菜,Llama 3 的 4000 億參數版本不久便要解禁,目前還在訓練中,其中預訓練版本在推理挑戰測試集 ARC-Challenge 上拿下 96 的高分,Llama 3 的 4000 億參數指令微調版更在數學(GSM-8K)、代碼(Human-Eval)、大規模多任務語言理解基準(MMLU)上表現非常亮眼。

輝達高級科學家范麟熙 (Jim Fan) 將 Llama 3 的 4000 億參數版本與 Claude 3 Opus、GPT-4-2024-04-09 版和 Gemini 在同基準數據中進行對比,結果顯示 Llama 3 的 4000 億參數版本在多語言推理任務跟代碼能力,已經能跟 GPT-4、Claude 3 相匹敵,甚至完全勝過 Gemini Ultra 1.0。

OpenAI 共同創辦人兼 AI 研究員 Andrej Karpathy 認為,Llama 3 的 4000 億參數版本將會是首個開源 GPT-4 級別的模型,范麟熙也說 Llama 3 的 4000 億參數版本將成為一個分水嶺,將改變許多研究工作和草根創業公司的計算方式。

OpenAI 研究科學家 Will Depue 也表達同樣看法,認為 Llama 3 的 4000 億參數版本將讓未來的可能性無窮無盡,非常期待這樣一款開源 GPT-4 級別的模型。

(本文已獲鉅亨網同意授權刊出)

瀏覽 905 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button