ChatGPT慘輸！Claude 3 榮登AI模型排行冠軍

2024-03-28

編譯／莊閔棻

OpenAI 的 ChatGPT似乎已經不再是最受歡迎的人工智慧（AI）聊天機器人。在AI 研究人員間流行知名平台Chatbot Arena上，隨著AI新創公司Anthropic 的 Claude 3 Opus 排名不斷上升，ChatGPT第一名的地位已經被取代，為Claude創下新紀錄。

Anthropic Claude win — AI新創公司 Anthropic 的 Claude 3榮登AI模型排行冠軍。圖／截取自 Anthropic官網

Claude強勢擠進排行榜

據報導，對於去年 5 月才首次出現在Chatbot Arena排行榜上的Claude來說，這是一次重大提升，也是OpenAI 的 GPT-4 首次被擠下首位，而同樣由 Anthropic 開發的 Claude 3 Sonnet（免費的中型模型）和 Claude 3 Haiku（更小、更快的模型）目前則分別排名第四和第六，對Claude來說是很大的認可。

更多新聞：ChatGPT強勁對手出現 Claude 3可以做些什麼？

GPT-4慘輸

值得注意的是，排行榜包括不同版本的 GPT-4，如 GPT-4-0314（2023 年 3 月起的 GPT-4 的「原始」版本）、GPT-4-0613、GPT-4-1106-預覽版和 GPT-4 -0125-預覽版（從2024 年1 月起，透過API 提供的最新GPT-4 Turbo 模型）。根據排名，Claude 的Sonnet 和 Haiku 均優於原始 GPT-4，其中 Sonnet 也超過了 OpenAI 於 2023 年 6 月推出的調整版本。

Gemini Pro表現不差

此外，大家關注的Google免費 Gemini Pro 目前則排名第四，位於 GPT-4 Turbo 和 Claude 3 Sonnet 之間，但該公司最好的 Gemini Ultra 型號因為目前還無法進行測試，尚未出現在排行榜中。

無法「作弊」的排行

Chatbot Arena 由致力於開放模型研究組織的大型模型系統組織（LMSYS ORG）經營，該平台透過向使用者提供兩種未標記的語言模型，並要求其根據他們認為合適的標準，評價哪一種表現更好，做出此排名。這種基於參與者的方法，讓模型訓練者不能「作弊」，不但更主觀，也更有參考性。遺憾的是，在進入前 10 名的大型模型之中，只有Qwen是開源的，其他開源模型，包括Starling 7b 和 Mixtral 8x7B 則都排在10幾名。

參考資料：decrypt

標籤

2024-03-28

ChatGPT慘輸！Claude 3 榮登AI模型排行冠軍

Claude強勢擠進排行榜

GPT-4慘輸

Gemini Pro表現不差

無法「作弊」的排行

推薦工作

發佈留言取消回覆

Claude模型測試意外越界 Anthropic發現3起未授權存取

飛傲科技「機器人創新中心」進駐高軟陳其邁：歡迎投資高雄

蘋果傳規劃 iCloud+ 升級加值方案：滿足重度 AI 使用者算力需求

Sea攜手OpenAI在台舉辦AI黑客松培育AI人才接軌全球技術生態

頂規外觀不再獨享！蘋果下一代 MacBook Ultra 設計傳將於一年內下放至入門機型

最新科技新聞快訊不錯過!!

Claude強勢擠進排行榜

GPT-4慘輸

Gemini Pro表現不差

無法「作弊」的排行

推薦工作

延伸閱讀

Claude模型測試意外越界 Anthropic發現3起未授權存取

Sea攜手OpenAI在台舉辦AI黑客松 培育AI人才接軌全球技術生態

iOS 27測試版還有後手？爆料傳 5 大隱藏新功能倒數登場

Anthropic傳打造德州AI資料中心 Google提供數十億美元擔保

Meta靠AI加速開發新App 祖克柏預告更多消費產品即將登場

Google AI摘要衝擊搜尋流量 Reddit執行長：難取代「藍色連結」

發佈留言 取消回覆

Sea攜手OpenAI在台舉辦AI黑客松培育AI人才接軌全球技術生態

發佈留言取消回覆