讓全球AI模型「夠台」 IMA推Taiwan Tongues、打造AI語料庫

2025-07-04

記者李琦瑋／台北報導

主流生成式AI模型多以英文與簡體中文為主要訓練基礎，臺灣華語、台語、客語與原住民族語卻在數位語料中嚴重缺席，導致AI難以理解臺灣語言與文化，形成新一波數位落差與文化邊緣化。IMA資訊經理人協會發起「Taiwan Tongues臺灣通用語料庫計畫」，打造AI的臺灣老師，讓世界真正「聽懂」與「理解」臺灣。

IMA推Taiwan Tongues，打造臺灣主權AI語料庫，讓臺灣語言成為全球AI模型學習的核心語料。（圖／IMA提供）

IMA協會理事長蔡祈岩指出，語言是文化的根基，唯有打造自主、開放、可信的語料體系，臺灣才能在全球AI發展中不缺席，讓世界不只看見臺灣語言，更能理解臺灣語言。

延伸閱讀：數發部擬AI人才認定指引、培養3類人才臺灣AI語料庫將釋出首波資料

3大步驟　打造AI的臺灣老師

一、臺灣通用語料蒐集與開源

Taiwan Tongues透過3大步驟，打造AI的臺灣老師，第一步，即是擴大臺灣語料庫（包含臺灣華語、臺灣台語、臺灣客語及原住民語)，讓臺灣的聲音被全球AI所理解。

IMA協會指出，這部分由吳三連獎得主、台語文學作家、IMA委員的胡長松帶頭，無償釋出150萬字文學作品，並號召更多創作者共襄盛舉，至今已有數十位作家授權，累計超過500萬字高品質語料，並已陸續上架Hugging Face平台，開放各界非商業使用，支援語音助理、機器翻譯、語言教學與數位文化推廣等應用，邁向打造跨語種、可供AI訓練與研究使用的開放資料庫。

二、模型語境訓練框架

第2步驟，由群聯電子整合Reward Model及RL微調技術，開發一套具備多元觀點辨識與區域語意調適能力，可作為企業訓練本地化AI的訓練框架。

IMA協會表示，透過此訓練框架，可避免單一模型觀點帶來的偏差風險，並加速模型落地應用，推動產業AI能力鏈的建立。

三、臺灣語境評測

第3步驟是評測AI模型的臺灣語境。由Taiwan Tongues設計專屬測試集，由IMA提供語境與語言能力評測標準，並與陽明交通大學教授廖元甫合作，進行模型實證測試。

IMA協會提到，廖元甫團隊將Taiwan Tongues作家語料結合教育部台語辭典等公用語料庫，對模型進行持續預訓練（CPT）與監督式微調（SFT），結果顯示台語AI模型的正確率顯著提昇，顯著提升台語語意理解與書信生成能力，證實語料品質與語境評測對模型表現的關鍵影響。

IMA協會表示，若把AI當作學生，Taiwan Tongues提供的不只是課本（語料），更有教案（模型語境訓練框架）與考卷（語境評測），三者結合，才能讓AI真正懂臺灣。

數發部宣布3大合作策略

數位發展部次長林宜敬表示，AI正重塑世界的語言與價值流動，臺灣語言在數位世界的能見度面臨嚴峻挑戰，這也是政府推動「主權AI」的核心意義：不只是技術路線，更是文化自主與民主深化的戰略選擇。

林宜敬提3大合作策略，由數發部統籌整合政府機關語料、由IMA推動民間語料授權與整理，以及未來強化政府與民間在語料開放、模型建構與應用評測上的合作。

未來展望：讓世界更能理解臺灣語言

IMA協會指出，Taiwan Tongues未來將持續募集臺灣華語、台語、客語與原住民族語等多語種語料，並與國際大型語言模型平台合作，讓臺灣語言成為全球AI生態系中不可或缺的一部分。

同時，Taiwan Tongues預計開啟Wiki Taiwan工作項目，擴增臺灣語言在網路世界的能見度。對於臺灣華語，將號召有志人士優先補齊維基百科中「只有英文（或其他主流語言）但尚缺繁體中文」的條目，補足語言差集。

IMA協會提到，針對台語，第一階段則將先直接翻譯目前維基百科約140萬筆繁體中文條目為台語內容，第二階段再進行與英文條目的差集翻譯。此舉不僅可快速大幅增加臺灣通用語言的數位內容與AI訓練語料，也將進一步實現數位平權與語言文化自主。

標籤

2025-07-04

讓全球AI模型「夠台」 IMA推Taiwan Tongues、打造AI語料庫