研究揭警訊:資料爬蟲成維基百科最大新挑戰

記者鄧天心/綜合報導

維基百科是全世界最大的開放式知識平台,無論查資料、寫作業還是日常搜尋,許多人總會第一個想到它,雖然AI工具如ChatGPT興起時,外界一度擔心維基百科的內容會被取代甚至誤用,但現在,維基百科已經透過強大的社群力量和嚴謹的事實查核抵禦了AI帶來的衝擊。

近年AI技術快速發展,許多AI模型(如大家熟悉的GPT系列)大量使用維基百科當訓練資料,這引發外界對AI生成不精確或錯誤知識的疑慮,不過,根據麻省理工學院(MIT)與維基媒體基金會合作的研究,維基百科早已建構完善的應對機制,包括加強事實查核、運用AI工具協助審查,以及強化志工自發審閱,這些努力讓維基百科不僅維持內容品質,在AI熱潮下流量更逆勢成長,2023到2024年間增加了15%。

luke chesser D8QbsYyiFmw unsplash
維基百科抗擊AI挑戰,但面臨資料爬取新壓力。(圖/Wikipedia)

 

延伸閱讀:

微軟Office都有Copilot AI!但一個月要付19.99美元

維基百科採取開放授權政策(CC BY-SA),鼓勵知識共享,但這也讓AI公司能輕易抓取內容訓練模型,卻不需回饋,儘管近年部分AI開發商已與維基百科合作、增加引用來源與導流,但專家提醒,這種合作需持續監管,避免AI資訊流過多,反而讓人直接忽略維基百科本身。

現在最大的威脅來自「資料刮取」,自動程式大量抓取維基百科文章來用於商業,甚至用於訓練新AI或建競爭性資料庫,去年上半年這類案件比前年多三倍,許多都是企業未經授權私下進行,這會影響維基百科伺服器資源、甚至帶來知識壟斷問題,有些科技大廠雖公開聲稱支持開放知識,實際卻繞過合作管道偷抓資料,導致維基百科損失捐款、未能取得合理補償。

如果資料刮取問題不解決,維基百科每年可能因此少掉上百萬美元收入,減少資源維護超過300種語言內容,建議維基百科採取更嚴格技術管控(如API限制、AI監偵),同時各國可參考歐盟數位服務法(DSA)等做法,要求AI業者揭露訓練資料並支付費用。

資料來源:Tech Xplore

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button