Meta反ChatGPT道而行 公布AI模型LLaMA
記者/竹二
在OpenAI發表了ChatGPT聊天機器人後,全新一波的生成AI科技戰開打,微軟、Google互相較勁之際,身為發展AI模型先驅的Meta也沒有缺席,近日他們公布了能產生文字的最新AI模型。
Meta執行長馬克祖克柏日前透過Facebook公布AI大型語言模型LLaMA(Large Language Model Meta AI),他提到大型語言模型已經顯示產生文字、對話、為文章做摘要,以及其他更複雜任務像是解決數學問題或是預測蛋白質結構的潛力,Meta將把LLaMA模型開放給AI研究社群,提供給研究人員進行不同領域研究。
LLaMA是一種較小型基礎模型,可以用來訓練更大的語言模型,這些模型以大量未標註的資料訓練而成,非常適合微調後使用在多種任務上,減少後續大型模型測試、驗證及探索新使用情境的運算資源需求。
Meta指出,過去數十億參數的大型自然語言處理(NLP)模型發展出產生創意文字、解決數學問題、預測蛋白質結構、回答閱讀理解問題等能力,但是訓練和執行這樣大型模型的資源,不是所有人都有,這也限制了研究方向的進展,並造成語言模型的偏見和產生錯誤資訊,小型模型是以更多token(小段字詞)訓練,較容易為特定使用情境重訓練及微調。
據了解,Meta最小的模型LLaMA 7B以一兆token訓練、LLaMA 65B及33B則以1.4兆token來訓練,他們選擇從20種使用人口最多的語言的文字字詞為訓練輸入。若是以參數而言,Meta的LLaMA有多種規模,分成70億、130億、330億及650億個參數,提供LLaMA模型卡透明度工具,像是標竿測試模型對模型偏差和毒性的評估值,提供研究人員了解模型的限制。
瀏覽 959 次