生成式AI的記憶力太好了嗎|專家論點【張瑞雄】
作者:張瑞雄 台北商業大學前校長
去年底史丹佛大學和耶魯大學研究團隊公布一項令人震驚的發現,他們能從GPT、Claude、Gemini和Grok等主流AI模型中,幾乎完整提取出《哈利波特》、《1984》等多本受著作權保護的書籍內容。其中最驚人的案例是從Claude模型中提取出某本書籍高達96%的原文,幾近逐字重現。這項研究成果不僅挑戰了AI公司長期以來宣稱模型不會儲存訓練資料的說法,更在法律層面引發對於著作權侵權認定的根本性質疑。

研究團隊採用的方法並不複雜,他們先以書籍開頭的短句作為提示詞,要求AI模型繼續完成文本。部分模型如Gemini和Grok甚至不需要任何破解技巧就直接配合生成,而Claude和GPT則需要使用「最佳N選一」這種簡單的破解方式來繞過安全機制。一旦初步測試成功,研究人員就反覆要求模型繼續輸出,結果發現模型能夠持續產出與原著高度相似的內容。這個實驗過程揭露了一個關鍵問題,即使AI公司投入大量資源建立安全防護機制,這些防護措施在面對系統性的提取嘗試時仍顯得相當脆弱。
AI產業界對此的回應一直強調模型並非儲存原始資料,而是學習文本之間的統計關係。他們類比人類閱讀學習的過程,主張AI只是從大量文本中歸納出語言規律,並不等同於複製貼上。這種說法在技術社群獲得不少支持,特別是考量到模型參數的數量遠小於訓練資料的總量,似乎不太可能將所有資料完整儲存。但這項研究顯示,無論技術實作細節如何,AI模型確實具備重現大量原始內容的能力,這種現象被稱為「記憶化」。
從法律角度來看,問題的核心在於如何定義著作權法所稱的「重製」行為。傳統上重製權的擴張總是伴隨著新技術的出現,從早期的印刷到後來的廣播、網路傳輸,每一次技術變革都促使法律重新檢視著作權的範圍。有學者主張,即便AI模型不以傳統檔案形式儲存作品,但將受保護內容嵌入演算法參數中,本質上仍構成一種新型態的儲存與利用。這種觀點認為不應該因為技術形式改變就讓著作權人喪失控制其作品商業利用的權利。
目前美國和德國法院對AI著作權案件的判決呈現分歧態勢。美國法院傾向認為AI訓練可能構成合理使用,理由是這種利用具有轉化性質,為原作品增添了新的意義或功能。德國法院則做出相反判決,認為模型中的記憶化內容和可提取的輸出都可能構成侵權複製。這種法律見解的差異反映出各國在平衡創新發展與著作權保護之間的不同價值取向,也預示著這場爭議將持續一段時間才能塵埃落定。
值得注意的是,研究團隊發現即使未能完整提取書籍內容,AI模型生成的文本也經常包含與原作相同的角色名稱、情節元素和主題設定。這種現象更接近改作而非單純的思想借用,在著作權法上可能同樣面臨侵權質疑。更令人擔憂的是,這次實驗的成本並不高昂,某些案例只需花費數美元就能提取大量內容,這意味著著作權侵害的門檻已經大幅降低。
產業界必須正視的現實是,如果記憶化問題無法有效解決,法院可能會要求AI公司封鎖特定輸出內容,甚至銷毀整個模型。這對於投入鉅額資金開發AI系統的企業而言將是災難性的損失。目前各大AI公司都聲稱正在改進技術以減少記憶化現象,但研究顯示這些努力的成效有限。當AI產業的估值泡沫終將面臨修正時,只有能夠妥善處理著作權爭議的少數企業才能存活下來。
這場爭議的解決需要法律、技術和產業政策的多方配合。單純擴張著作權範圍可能會扼殺創新,但完全忽視創作者權益也不符合社會公平正義。建立有效的授權機制和合理的收益分配制度,確保創作者能從AI產業獲利中分得合理報酬,或許才是長遠之計。AI時代的著作權問題提醒我們,技術進步不應該成為削弱既有權利保護的藉口,而應該促使我們重新思考如何在新的技術脈絡下實現權利人、使用者和社會整體利益的平衡。

![]()






