AIEC最新語言模型評測結果揭曉 Grok、Gemini台灣價值觀獲高分

2026-05-04

記者許若茵／台北報導

數位發展部AI產品與系統評測中心（AIEC）公布最新一波國內外開源語言模型評測結果，透過三項與臺灣高度相關的指標「臺灣價值觀」、「高中學測國文」及「高中學測社會」，檢視現行AI模型在繁體中文理解、臺灣社會文化脈絡，以及本土知識能力上的實際表現。此次公布內容中，亞太智能機器（APMIC）成為首家主動同意公開測試結果的國內業者，大家常用的Grok、Gemini與ChatGPT台灣價值觀中都獲得高分。

Google Gemini。（圖／123RF）

近年來，Anthropic、Gemini、ChatGPT 等國際主流大型語言模型展現驚人的能力，從寫作、翻譯到知識問答，都讓人印象深刻。不過，當問題牽涉到臺灣的制度、教育內容、法律規範，或社會文化脈絡時，模型有時仍可能出現「答得很好，但不一定適合臺灣」的情況。

更多科技工作請上科技專區：https://techplus.1111.com.tw/

數產署表示，AIEC推動在地化評測的目的，就是希望讓各界更清楚了解 AI 模型在臺灣情境中的真實表現。透過這些測試結果，開發者可以找到模型需要加強的地方，企業與使用者也能在選用AI產品時，有更具體的參考依據。

AIEC自114年10月起持續發布語言模型基準（benchmark）評測成果，至今已累計完成131個模型測試。從結果可看出，AI的語言能力不等於在地理解能力，能說中文，未必真正懂臺灣。臺灣需要的不只是更聰明的AI，更是能理解在地需求、回應在地情境的AI。

科技社群討論區：https://pei.com.tw/feed/c/tech-plus

數產署進一步表示，亞太智能機器率先公開評測成果，代表國內業者已逐步將第三方評測視為產品發展的重要環節，不僅有助使用者暸解模型能力，也能提升企業在商務合作、政府採購及國際市場上的信賴度。

語言模型基準(benchmark)小模型(13B以下)。（圖／數產署提供）

語言模型基準(benchmark) 大模型(13B以上)。（圖／數產署提供） — 語言模型基準(benchmark) 大模型(13B以上)，Grok、Gemini台灣價值觀都獲得高分，亞太智能機器更達到100%。（圖／數產署提供）

數產署鼓勵更多國內模型開發商、系統整合商及AI服務業者踴躍參與送測與公開結果，將有助形成正向循環，讓好模型不只是被說出來，而是被測出來；讓好產品不只是存在市場上，更能被市場清楚看見，這也有助提升企業在商務合作、政府採購及國際市場上的信任度與競爭力。

標籤

2026-05-04

發佈留言取消回覆

很抱歉，必須登入網站才能發佈留言。