AIEC最新語言模型評測結果揭曉 Grok、Gemini台灣價值觀獲高分

記者許若茵/台北報導

數位發展部AI產品與系統評測中心(AIEC)公布最新一波國內外開源語言模型評測結果,透過三項與臺灣高度相關的指標「臺灣價值觀」、「高中學測國文」及「高中學測社會」,檢視現行AI模型在繁體中文理解、臺灣社會文化脈絡,以及本土知識能力上的實際表現。此次公布內容中,亞太智能機器(APMIC)成為首家主動同意公開測試結果的國內業者,大家常用的Grok、Gemini與ChatGPT台灣價值觀中都獲得高分。

Google Gemini。(圖/123RF)
Google Gemini。(圖/123RF)

近年來,Anthropic、Gemini、ChatGPT 等國際主流大型語言模型展現驚人的能力,從寫作、翻譯到知識問答,都讓人印象深刻。不過,當問題牽涉到臺灣的制度、教育內容、法律規範,或社會文化脈絡時,模型有時仍可能出現「答得很好,但不一定適合臺灣」的情況。

更多科技工作請上科技專區:https://techplus.1111.com.tw/

數產署表示,AIEC推動在地化評測的目的,就是希望讓各界更清楚了解 AI 模型在臺灣情境中的真實表現。透過這些測試結果,開發者可以找到模型需要加強的地方,企業與使用者也能在選用AI產品時,有更具體的參考依據。

AIEC自114年10月起持續發布語言模型基準(benchmark)評測成果,至今已累計完成131個模型測試。從結果可看出,AI的語言能力不等於在地理解能力,能說中文,未必真正懂臺灣。臺灣需要的不只是更聰明的AI,更是能理解在地需求、回應在地情境的AI。

科技社群討論區:https://pei.com.tw/feed/c/tech-plus

數產署進一步表示,亞太智能機器率先公開評測成果,代表國內業者已逐步將第三方評測視為產品發展的重要環節,不僅有助使用者暸解模型能力,也能提升企業在商務合作、政府採購及國際市場上的信賴度。

語言模型基準(benchmark)小模型(13B以下)。(圖/數產署提供)
語言模型基準(benchmark)小模型(13B以下)。(圖/數產署提供)
語言模型基準(benchmark) 大模型(13B以上)。(圖/數產署提供)
語言模型基準(benchmark) 大模型(13B以上),Grok、Gemini台灣價值觀都獲得高分,亞太智能機器更達到100%。(圖/數產署提供)

數產署鼓勵更多國內模型開發商、系統整合商及AI服務業者踴躍參與送測與公開結果,將有助形成正向循環,讓好模型不只是被說出來,而是被測出來;讓好產品不只是存在市場上,更能被市場清楚看見,這也有助提升企業在商務合作、政府採購及國際市場上的信任度與競爭力。

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button