AI評測揭曉:GPT-5表現最佳、Gemini 2.5最具「臺灣價值」
記者鄧天心/綜合報導
AI產品與系統評測中心(Artificial Intelligence Evaluation Center,AIEC)今10月3日首次公布語言模型基準評測結果,公開比較國內外模型表現,並首次納入「臺灣價值觀」指標,呼應國際AI主權浪潮。這場評測不僅是技術成績單,更是台灣AI在地化及可信賴發展的重要里程碑。
AIEC本次共評測42項國內外語言模型,依模型規模分小模型(13B以下)及大模型(13B以上)兩大類。指標除了「高中學測國文科」與「學測社會科」外,更加入「臺灣價值觀」評測,意在檢視模型是否能回應在地語境與文化需求。

延伸閱讀:
小模型中,由台灣團隊開發的TAIDE(Gemma-3-TAIDE-12b)表現亮眼,不僅超越其所依循的GoogleGemma-3-12b-it,更展現台灣在AI調校與研發的實力。大模型則以OpenAIGPT-5整體表現最佳,而GoogleGemini2.5Flash在「臺灣價值觀」測驗中突出,顯示跨國大廠已開始重視特定文化價值的回應能力。
部分中國語言模型在「臺灣價值觀」項目中也展現不錯成績,可能因採用「蒸餾技術」,透過歐美模型的輸出作為訓練資料。
評測也揭示,若歐美模型缺乏台灣繁體中文語料,其在「臺灣價值觀」上的表現普遍不佳,突顯「本土化語料」的重要性。數位發展部正推動「台灣主權AI語料庫」,提供具在地語境及本土價值的繁體中文資料,以確保未來生成式AI更符合台灣文化與使用需求。
AIEC表示,未來將持續針對不同產品與應用場景,推動本土AI評測工具開發,同時與國際規範接軌,打造「安全、穩健、可信賴」的AI評測體系。另將廣泛徵求各界專家出題,經審核後納入題庫,確保評測題材多元並貼近社會議題。