一個知識凍結在1930年的AI照出的問題|專家論點【張瑞雄】
作者:張瑞雄(台北商業大學前校長)
Talkie是一個由GPT與GPT-2的原始創作者Alec Radford,與兩位合作夥伴共同開發,於2026年4月公佈的「古董」AI模型,所謂的「古董」的意思是其訓練素材全部來自1931年以前的資料。選擇這個截止日期並非偶然,美國著作權法規定,1930年出版的作品自2026年1月1日起進入公共領域,換言之,這是一個在法律上乾淨且無版權爭議的訓練資料庫。

這個看似古怪的設計,觸碰到了整個AI產業最敏感的一根神經。
過去幾年,幾乎所有大型語言模型都在一個共同的陰影下運作,那就是版權問題。無數作家、記者、學者的心血被大量抓取入訓練資料,而那些開發語言模型的企業,往往以「合理使用」為由,迴避正面回應創作者的質疑。紐約時報告OpenAI、多位作家控告Meta的訴訟,至今仍在各地法院糾纏。Talkie的出現是為了突顯了一個令人不安的現實,那就是現代AI的知識體系,是建立在對版權體制的系統性漠視之上的。
更多科技工作請上科技專區:https://techplus.1111.com.tw/
科技社群討論區:https://pei.com.tw/feed/c/tech-plus
不過Talkie的技術挑戰遠比版權問題更為棘手,由於1930年以前的文本根本不存在數位原生版本,所有資料都必須從實體掃描件中以光學字元辨識(OCR)技術轉為數位,這個過程引入了大量雜訊。使用標準OCR系統轉錄的文本,正確性只有人工轉錄文本的三成左右,即使經過清理,也頂多達到七成。
Talkie最引人深省之處,在於它提出了一個根本性的問題,那就是語言模型究竟是在「理解」,還是只在「統計地重複」?
批評者多年來以「隨機鸚鵡」這個比喻,形容大型語言模型的本質,主張它們只是從訓練資料中拼接語言形式,而非真正掌握意義。反之,要準確預測下一個詞,就必須在某種程度上理解語句的脈絡,這本身就是一種智識能力的展現。Talkie的設計,恰好為這場論戰提供了一塊試金石。如果一個對電腦、核能、現代醫學一無所知的模型,在某些情況下仍能推理出相關概念,那「隨機鸚鵡」的指控就必須重新審視。反過來說,如果它只能在已熟悉的文本框架內打轉,那所謂的「理解」可能只是「幻覺」。
Google DeepMind的執行長Demis Hassabis曾提出一個想法,若將一個語言模型的訓練資料截止在1911年,它能不能自行推導出廣義相對論?這個問題背後的野心,不僅是測試預測能力,而是在探問人工智慧是否具有真正的科學直覺,是否能在既有知識的體系中,發現連當時的人類都尚未看見的規律。Talkie的團隊顯然受到這個問題的啟發,計畫持續擴大模型規模,希望造出一個能夠知道從遠古到1930的世界所有知識的AI模型,然後看這個模型能否預測到1930以後人類文明的發展。
問題是,這條路走得通嗎?
這讓人想起另一個更古老的哲學爭論,決定論究竟成不成立?如果一個系統對某一時刻世界的初始狀態有完整的了解,能否預測此後所有的發展?答案幾乎可以確定是否定的,不是因為預測本身不可能,而是因為沒有任何系統能真正掌握「完整」的初始狀態。Talkie的侷限,本質上也是人類認識能力侷限的一面鏡子。
在這個AI大廠競相以龐大算力和天量資料彼此角力的時代,Talkie的實驗值得讓人類思考,一個只知道1930年以前的事物的AI,是否可以描繪出2026年的世界?正如現在我們依賴AI所描繪的未來,又有幾分是真實的洞見,幾分只是AI的胡言亂語?
![]()





