讓AI不學壞！臺大王鈺強「概念抹除」技術教生成AI避免暴力、侵權

2025-10-29

記者黃仁杰／台北報導

為避免生成式AI帶來侵權、濫用與倫理等挑戰，在國科會補助支持下，國立臺灣大學電機系教授王鈺強團隊推出面向生成式模型的「概念抹除（concept erasing）」技術-Receler（Reliable Concept Erasing via Lightweight Erasers）。Receler可在不重新訓練整個生成式模型的前提下，精準切斷模型對特定高風險概念的聯想與表現能力，如血腥暴力、深偽換臉、特定藝術家或品牌風格。

S 15859779 0 — 臺大電機系教授王鈺強推出「概念抹除」技術，避免AI生成血腥暴力、侵權內容。（圖／記者黃仁杰攝）

雖然生成式AI作為一種工具，為使用者帶來創作更快、更便利、甚至媲美專業的創作，但同時也有生成式AI生出血腥暴力內容、深偽（Deepfake）詐騙與未經授權的風格仿作等等爭議。面對這些爭議，在生成式AI應用面對同時要保護未成年、顧品牌和版權疑慮，但又不想將模型的創作能力捨棄、讓使用者體驗變差的困難，只靠關鍵字和人工審核，往往出現漏網或誤攔的情況。

在此情況下，生成式模型在使用Receler技術避免「暴力」這個概念後，當輸入與暴力相關的直白或隱喻指令時，模型將不會輸出與暴力相關的圖片，例如抹除「某藝術家（如吉卜力）風格」之後，當輸入相關的描述時，系統會改以中性、不侵權的風格呈現。

該研究成果在2024年底發表於歐洲計算機視覺國際研討會（European Conference on Computer Vision，簡稱ECCV），此會議是國際計算機視覺領域三大頂尖會議之一，近一年來，此成果在Google Scholar上引用次數快速增加，且在GitHub開源平臺上獲廣泛下載與應用，已引起國際AI學術界的高度關注與認可。

Receler協助平台、教育單位、品牌與政府部門，在維持AI應用性的同時，建立可被信任、可被審核、可持續演進的生成式AI安全創作環境。AI安全為核心課題，國家科研資源將持續投入，推動學研發展與模型強健，同時確保可解釋性、隱私保護，並降低潛在危害，落實以人為本的AI應用。

標籤

2025-10-29

讓AI不學壞！臺大王鈺強「概念抹除」技術教生成AI避免暴力、侵權

推薦工作

發佈留言取消回覆

美晶片新創Substrate推X光光刻機劍指ASML、台積電

研華發布邊緣AI新戰略導入NVIDIA模組、強攻多樣化機器人應用

新數據顯示：Google Gemini在特定領域正快速追趕ChatGPT