世界已改變!AI正在扼殺網路核心運作方式

編譯/莊閔棻

人工智慧(AI)正在破壞網路的運作方式。現在,用來通知搜尋引擎爬蟲,哪些內容是不應被搜尋引擎漫遊器取得的,而哪些是可以被取得的網路爬蟲 robots.txt已經成為AI資料抓取的幫凶。網路爬蟲正在收集線上資訊,以輸入龐大的資料集,並被富裕的科技公司免費用於開發AI模型。

網路爬蟲正在收集線上資訊,以輸入龐大的資料集,並被富裕的科技公司免費用於開發AI模型。(圖/123RF)

網路爬蟲的背叛

據外媒報導,現在,生成式AI和大型語言模型正在從根本上迅速改變網路爬蟲的使命。 這些工具非但沒有努力支持內容創作者,反而還對他們不利。壞消息是,要阻止這些爬蟲還存在困難。前 WordPress 高層、技術投資者和數位行銷公司 Yoast 的創始人 Joost de Valk就表示,這是一個有點粗糙的工具,且沒有法律依據。

更多新聞:小心!2024 年 5 個最可怕的AI威脅

robots.txt的原始使命

robots.txt 程式碼是在 20 世紀 90 年代末提出的,作為網站告訴機器人爬蟲他們不希望自己的資料被抓取和收集的一種方式,它被廣泛接受為支持網路的非官方規則之一。當時,這些爬蟲的主要目的是索引資訊,以改善搜尋引擎的結果。 Google、微軟的Bing和其他搜尋引擎都有爬蟲。 他們對內容進行索引,以便以後可以作為指向數十億潛在消費者的連結。

爬蟲容易被操控

然而該爬蟲很容易被操縱。de Valk 解釋說,像 OpenAI 這樣的公司只需要改變機器人爬蟲的名稱,就可以繞過人們使用 robots.txt 制定的所有禁止規則。研究人類生成數據與AI之間關係的計算機科學教授Nick Vincent表示,「網上的所有內容都被吸進模型的真空中,幕後發生了很多事情。」

公共空間消失

而如果不小心,我們最終會關閉網路公共空間,網路的運作方式將永遠被改變。簡單來說,如果在線上發布資訊代表著將資料免費提供給將與自己競爭用戶的AI模型,那麼此活動可能會停止。而若是人們停止在線上發布資訊,訓練AI的資料也會隨之消失。所有線上創作作品的未來可能很快就會像當前的串流狀態一樣,內容被鎖定在「Plus」訂閱領域,而成本將變得越來越高。

參考資料:Insider

瀏覽 11,220 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button