研究揭警訊：資料爬蟲成維基百科最大新挑戰

2025-10-02

記者鄧天心／綜合報導

維基百科是全世界最大的開放式知識平台，無論查資料、寫作業還是日常搜尋，許多人總會第一個想到它，雖然AI工具如ChatGPT興起時，外界一度擔心維基百科的內容會被取代甚至誤用，但現在，維基百科已經透過強大的社群力量和嚴謹的事實查核抵禦了AI帶來的衝擊。

近年AI技術快速發展，許多AI模型（如大家熟悉的GPT系列）大量使用維基百科當訓練資料，這引發外界對AI生成不精確或錯誤知識的疑慮，不過，根據麻省理工學院（MIT）與維基媒體基金會合作的研究，維基百科早已建構完善的應對機制，包括加強事實查核、運用AI工具協助審查，以及強化志工自發審閱，這些努力讓維基百科不僅維持內容品質，在AI熱潮下流量更逆勢成長，2023到2024年間增加了15%。

luke chesser D8QbsYyiFmw unsplash — 維基百科抗擊AI挑戰，但面臨資料爬取新壓力。（圖／Wikipedia）

延伸閱讀：

微軟Office都有Copilot AI！但一個月要付19.99美元

維基百科採取開放授權政策（CC BY-SA），鼓勵知識共享，但這也讓AI公司能輕易抓取內容訓練模型，卻不需回饋，儘管近年部分AI開發商已與維基百科合作、增加引用來源與導流，但專家提醒，這種合作需持續監管，避免AI資訊流過多，反而讓人直接忽略維基百科本身。

現在最大的威脅來自「資料刮取」，自動程式大量抓取維基百科文章來用於商業，甚至用於訓練新AI或建競爭性資料庫，去年上半年這類案件比前年多三倍，許多都是企業未經授權私下進行，這會影響維基百科伺服器資源、甚至帶來知識壟斷問題，有些科技大廠雖公開聲稱支持開放知識，實際卻繞過合作管道偷抓資料，導致維基百科損失捐款、未能取得合理補償。

如果資料刮取問題不解決，維基百科每年可能因此少掉上百萬美元收入，減少資源維護超過300種語言內容，建議維基百科採取更嚴格技術管控（如API限制、AI監偵），同時各國可參考歐盟數位服務法（DSA）等做法，要求AI業者揭露訓練資料並支付費用。

資料來源：Tech Xplore

標籤

2025-10-02

發佈留言取消回覆

很抱歉，必須登入網站才能發佈留言。