讓全球AI模型「夠台」 IMA推Taiwan Tongues、打造AI語料庫
記者李琦瑋/台北報導
主流生成式AI模型多以英文與簡體中文為主要訓練基礎,臺灣華語、台語、客語與原住民族語卻在數位語料中嚴重缺席,導致AI難以理解臺灣語言與文化,形成新一波數位落差與文化邊緣化。IMA資訊經理人協會發起「Taiwan Tongues臺灣通用語料庫計畫」,打造AI的臺灣老師,讓世界真正「聽懂」與「理解」臺灣。

IMA協會理事長蔡祈岩指出,語言是文化的根基,唯有打造自主、開放、可信的語料體系,臺灣才能在全球AI發展中不缺席,讓世界不只看見臺灣語言,更能理解臺灣語言。
延伸閱讀:數發部擬AI人才認定指引、培養3類人才 臺灣AI語料庫將釋出首波資料
3大步驟 打造AI的臺灣老師
一、臺灣通用語料蒐集與開源
Taiwan Tongues透過3大步驟,打造AI的臺灣老師,第一步,即是擴大臺灣語料庫(包含臺灣華語、臺灣台語、臺灣客語及原住民語),讓臺灣的聲音被全球AI所理解。
IMA協會指出,這部分由吳三連獎得主、台語文學作家、IMA委員的胡長松帶頭,無償釋出150萬字文學作品,並號召更多創作者共襄盛舉,至今已有數十位作家授權,累計超過500萬字高品質語料,並已陸續上架Hugging Face平台,開放各界非商業使用,支援語音助理、機器翻譯、語言教學與數位文化推廣等應用,邁向打造跨語種、可供AI訓練與研究使用的開放資料庫。
二、模型語境訓練框架
第2步驟,由群聯電子整合Reward Model及RL微調技術,開發一套具備多元觀點辨識與區域語意調適能力,可作為企業訓練本地化AI的訓練框架。
IMA協會表示,透過此訓練框架,可避免單一模型觀點帶來的偏差風險,並加速模型落地應用,推動產業AI能力鏈的建立。
三、臺灣語境評測
第3步驟是評測AI模型的臺灣語境。由Taiwan Tongues設計專屬測試集,由IMA提供語境與語言能力評測標準,並與陽明交通大學教授廖元甫合作,進行模型實證測試。
IMA協會提到,廖元甫團隊將Taiwan Tongues作家語料結合教育部台語辭典等公用語料庫,對模型進行持續預訓練(CPT)與監督式微調(SFT),結果顯示台語AI模型的正確率顯著提昇,顯著提升台語語意理解與書信生成能力,證實語料品質與語境評測對模型表現的關鍵影響。
IMA協會表示,若把AI當作學生,Taiwan Tongues提供的不只是課本(語料),更有教案(模型語境訓練框架)與考卷(語境評測),三者結合,才能讓AI真正懂臺灣。
數發部宣布3大合作策略
數位發展部次長林宜敬表示,AI正重塑世界的語言與價值流動,臺灣語言在數位世界的能見度面臨嚴峻挑戰,這也是政府推動「主權AI」的核心意義:不只是技術路線,更是文化自主與民主深化的戰略選擇。
林宜敬提3大合作策略,由數發部統籌整合政府機關語料、由IMA推動民間語料授權與整理,以及未來強化政府與民間在語料開放、模型建構與應用評測上的合作。
未來展望:讓世界更能理解臺灣語言
IMA協會指出,Taiwan Tongues未來將持續募集臺灣華語、台語、客語與原住民族語等多語種語料,並與國際大型語言模型平台合作,讓臺灣語言成為全球AI生態系中不可或缺的一部分。
同時,Taiwan Tongues預計開啟Wiki Taiwan工作項目,擴增臺灣語言在網路世界的能見度。對於臺灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目,補足語言差集。
IMA協會提到,針對台語,第一階段則將先直接翻譯目前維基百科約140萬筆繁體中文條目為台語內容,第二階段再進行與英文條目的差集翻譯。此舉不僅可快速大幅增加臺灣通用語言的數位內容與AI訓練語料,也將進一步實現數位平權與語言文化自主。
瀏覽 181 次