馬斯克推出Grok-1.5與GPT-4一較高下|專家論點【Howie Su】

作者:Howie Su(產業分析師)

在Grok-1僅僅開源幾週後,馬斯克的xAI就宣布了其專有大語言模型 (LLM) 的升級版本 — Grok-1.5,Grok-1.5 已於 4 月 13 日發布,它帶來增強的推理和解決問題的能力,並接近已知的開放式和封閉式 LLM 的性能,包括 OpenAI 的 GPT-4 和Anthropic 的 Claude 3,它還能夠處理長上下文,但仍落後於Gemini 1.5 Pro。

不過,馬斯克指出,Grok-1.5 將為 X 平台上 xAI 的 ChatGPT 挑戰聊天機器人提供動力,而新模型的後繼者 Grok-2 仍處於訓練階段。他表示,下一個版本應該能夠「在所有指標上超過當前的人工智慧」,不過倒是沒有透露何時可用的具體資訊。

馬斯克推出Grok-1.5與GPT-4一較高下。(資料來源:Aixplora)

Grok-1.5 帶來什麼?

xAI去年 11 月宣布推出 Grok-1,稱該人工智慧以《銀河系漫遊指南》為藍本,幾乎可以回答任何問題,幫助人類尋求理解和知識,無論背景或政治觀點都行,在xAI共享的GSM8K、HumanEval 和 MMLU 等基準測試中,Grok-1 的表現優於 Llama-2-70B 和 GPT-3.5。

現在,隨著 Grok-1.5 的發布,該公司正在這項工作的基礎上,在所有主要基準測試(包括與編碼和數學相關任務相關的基準測試)上對先前的模型進行重大改進。

xAI 在部落格文章中指出,Grok-1.5 在 MATH 基準上取得 50.6% 的成績,在 GSM8K 基準上取得 90% 的成績,這兩個數學基準涵蓋了廣泛的小學到高中的競賽問題,此外,它在評估程式碼產生和解決問題能力的 HumanEval 基準測試中得分為 74.1%,其得分都較原先Grok-1模型高出許多。

性能逼近 OpenAI Anthropic

憑藉增強的推理和解決問題的能力,Grok-1.5 不僅在基準測試中優於其前身,而且還接近流行的開源和閉源模型,包括 Gemini 1.5 Pro、GPT-4 和 Claude 3。例如,在MMLU 上,Grok-1.5 的得分為 81.3%,擊敗最近推出的Mistral Large,但落後於 Gemini 1.5 Pro(83.7%)、GPT-4(86.4%,截至2023 年3 月)和Claude 3 Opus( 86.8%)。GSM8K 基準測試中也存在類似的差距,xAI 模型僅落後於 Google、OpenAI 和 Anthropic 的產品。

值得注意的是,Grok-1.5 似乎具有優勢的唯一基準是 HumanEval,它的表現優於除 Claude 3 Opus 之外的所有模型。xAI 預計將繼續進行這些改進,並透過 Grok-2 實現進一步的效能提升,根據馬斯克的說法,Grok-2 在所有指標上都應該超過目前的人工智慧。

目前模型正在訓練中。當馬斯克在 X 上提供 Grok 時,這被視為推動 Grok 和 X 的採用的措施,他先將 AI 作為該平台「Premium+」訂閱的一部分,價格為每月 16 美元。然而,近期這位億萬富翁表示,所有每月支付 8 美元的 Premium 訂閱者也可以使用該聊天機器人,他還指出擁有一定程度的經過驗證的訂閱追蹤者的追蹤者將免費獲得 Premium 和 Premium+ 訂閱福利,包括 Grok,看起來最終目的也是為了變現。

目前看來,各種人工智慧模型競爭正在如火如荼展開,許多科技業者問了展現自身的競爭力,不斷將模型推陳出新,從產業端到軟體公司,無不摩拳擦展等待爆發式應用的出現,這位我們來說也是個好消息,台灣企業本身代工能力就強,勢必能取得更多訂單,而使用者部分也能因此獲得更多功能,使生活更加便利。

瀏覽 260 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button