讓AI不學壞!臺大王鈺強「概念抹除」技術教生成AI避免暴力、侵權
記者黃仁杰/台北報導
為避免生成式AI帶來侵權、濫用與倫理等挑戰,在國科會補助支持下,國立臺灣大學電機系教授王鈺強團隊推出面向生成式模型的「概念抹除(concept erasing)」技術-Receler(Reliable Concept Erasing via Lightweight Erasers)。Receler可在不重新訓練整個生成式模型的前提下,精準切斷模型對特定高風險概念的聯想與表現能力,如血腥暴力、深偽換臉、特定藝術家或品牌風格。

雖然生成式AI作為一種工具,為使用者帶來創作更快、更便利、甚至媲美專業的創作,但同時也有生成式AI生出血腥暴力內容、深偽(Deepfake)詐騙與未經授權的風格仿作等等爭議。面對這些爭議,在生成式AI應用面對同時要保護未成年、顧品牌和版權疑慮,但又不想將模型的創作能力捨棄、讓使用者體驗變差的困難,只靠關鍵字和人工審核,往往出現漏網或誤攔的情況。
在此情況下,生成式模型在使用Receler技術避免「暴力」這個概念後,當輸入與暴力相關的直白或隱喻指令時,模型將不會輸出與暴力相關的圖片,例如抹除「某藝術家(如吉卜力)風格」之後,當輸入相關的描述時,系統會改以中性、不侵權的風格呈現。
該研究成果在2024年底發表於歐洲計算機視覺國際研討會(European Conference on Computer Vision,簡稱ECCV),此會議是國際計算機視覺領域三大頂尖會議之一,近一年來,此成果在Google Scholar上引用次數快速增加,且在GitHub開源平臺上獲廣泛下載與應用,已引起國際AI學術界的高度關注與認可。
Receler協助平台、教育單位、品牌與政府部門,在維持AI應用性的同時,建立可被信任、可被審核、可持續演進的生成式AI安全創作環境。AI安全為核心課題,國家科研資源將持續投入,推動學研發展與模型強健,同時確保可解釋性、隱私保護,並降低潛在危害,落實以人為本的AI應用。
![]()





