AI評測揭曉：GPT-5表現最佳、Gemini 2.5最具「臺灣價值」

2025-10-03

記者鄧天心／綜合報導

AI產品與系統評測中心（Artificial Intelligence Evaluation Center,AIEC）今10月3日首次公布語言模型基準評測結果，公開比較國內外模型表現，並首次納入「臺灣價值觀」指標，呼應國際AI主權浪潮。這場評測不僅是技術成績單，更是台灣AI在地化及可信賴發展的重要里程碑。

AIEC本次共評測42項國內外語言模型，依模型規模分小模型（13B以下）及大模型（13B以上）兩大類。指標除了「高中學測國文科」與「學測社會科」外，更加入「臺灣價值觀」評測，意在檢視模型是否能回應在地語境與文化需求。

AIEC評測中心發布語言模型基準評測結果圖右：資安院龔化中副院長圖左：工研院王邦傑組長 — AIEC評測中心發布語言模型基準評測結果。圖右為資安院副院長龔化中、圖左為工研院組長王邦傑。（圖／工研院）

延伸閱讀：

工研院攜手歐盟歐盟境外首座6G實驗平台落地台灣

小模型中，由台灣團隊開發的TAIDE（Gemma-3-TAIDE-12b）表現亮眼，不僅超越其所依循的GoogleGemma-3-12b-it，更展現台灣在AI調校與研發的實力。大模型則以OpenAIGPT-5整體表現最佳，而GoogleGemini2.5Flash在「臺灣價值觀」測驗中突出，顯示跨國大廠已開始重視特定文化價值的回應能力。

部分中國語言模型在「臺灣價值觀」項目中也展現不錯成績，可能因採用「蒸餾技術」，透過歐美模型的輸出作為訓練資料。

評測也揭示，若歐美模型缺乏台灣繁體中文語料，其在「臺灣價值觀」上的表現普遍不佳，突顯「本土化語料」的重要性。數位發展部正推動「台灣主權AI語料庫」，提供具在地語境及本土價值的繁體中文資料，以確保未來生成式AI更符合台灣文化與使用需求。

AIEC表示，未來將持續針對不同產品與應用場景，推動本土AI評測工具開發，同時與國際規範接軌，打造「安全、穩健、可信賴」的AI評測體系。另將廣泛徵求各界專家出題，經審核後納入題庫，確保評測題材多元並貼近社會議題。