世界已改變！AI正在扼殺網路核心運作方式

2024-01-03

編譯／莊閔棻

人工智慧（AI）正在破壞網路的運作方式。現在，用來通知搜尋引擎爬蟲，哪些內容是不應被搜尋引擎漫遊器取得的，而哪些是可以被取得的網路爬蟲 robots.txt已經成為AI資料抓取的幫凶。網路爬蟲正在收集線上資訊，以輸入龐大的資料集，並被富裕的科技公司免費用於開發AI模型。

155243358 fb link — 網路爬蟲正在收集線上資訊，以輸入龐大的資料集，並被富裕的科技公司免費用於開發AI模型。（圖／123RF）

網路爬蟲的背叛

據外媒報導，現在，生成式AI和大型語言模型正在從根本上迅速改變網路爬蟲的使命。這些工具非但沒有努力支持內容創作者，反而還對他們不利。壞消息是，要阻止這些爬蟲還存在困難。前 WordPress 高層、技術投資者和數位行銷公司 Yoast 的創始人 Joost de Valk就表示，這是一個有點粗糙的工具，且沒有法律依據。

更多新聞：小心！2024 年 5 個最可怕的AI威脅

robots.txt的原始使命

robots.txt 程式碼是在 20 世紀 90 年代末提出的，作為網站告訴機器人爬蟲他們不希望自己的資料被抓取和收集的一種方式，它被廣泛接受為支持網路的非官方規則之一。當時，這些爬蟲的主要目的是索引資訊，以改善搜尋引擎的結果。 Google、微軟的Bing和其他搜尋引擎都有爬蟲。他們對內容進行索引，以便以後可以作為指向數十億潛在消費者的連結。

爬蟲容易被操控

然而該爬蟲很容易被操縱。de Valk 解釋說，像 OpenAI 這樣的公司只需要改變機器人爬蟲的名稱，就可以繞過人們使用 robots.txt 制定的所有禁止規則。研究人類生成數據與AI之間關係的計算機科學教授Nick Vincent表示，「網上的所有內容都被吸進模型的真空中，幕後發生了很多事情。」

公共空間消失

而如果不小心，我們最終會關閉網路公共空間，網路的運作方式將永遠被改變。簡單來說，如果在線上發布資訊代表著將資料免費提供給將與自己競爭用戶的AI模型，那麼此活動可能會停止。而若是人們停止在線上發布資訊，訓練AI的資料也會隨之消失。所有線上創作作品的未來可能很快就會像當前的串流狀態一樣，內容被鎖定在「Plus」訂閱領域，而成本將變得越來越高。

參考資料：Insider

標籤

2024-01-03

世界已改變！AI正在扼殺網路核心運作方式

網路爬蟲的背叛

robots.txt的原始使命

爬蟲容易被操控

公共空間消失

推薦工作

發佈留言取消回覆

《KPop獵魔女團》聯名樂高細節誠意滿滿 8月全球開賣

比亞迪董座王傳福喊話5年內登全球車王挑戰豐田11.3萬輛銷量霸主地位

IG、Threads「封」聲四起 Meta承諾主動偵測、恢復誤封帳號

Snap新AR眼鏡Specs主打超強手勢控制與超低延遲售價近台幣7萬

數發部免費AI算力服務開放申請新增Gemma 4等多種最新模型

最新科技新聞快訊不錯過!!

網路爬蟲的背叛

robots.txt的原始使命

爬蟲容易被操控

公共空間消失

推薦工作

延伸閱讀

數發部免費AI算力服務開放申請 新增Gemma 4等多種最新模型

地表最強內顯要來了？！英特爾聯手輝達打造最強晶片傳2028強勢登場

不想天天吃雞蛋！七種高蛋白早餐「營養又有飽足感」

Siri AI升級恐加劇記憶體吃緊 三星、SK海力士可望成最大受惠者

氣候危機衝擊！18億兒童遭受乾旱威脅 2.42億學童因天災中斷教育

傳華為Mate 90將搭載新一代麒麟晶片 晶體密度有望接近台積電3奈米

發佈留言 取消回覆

數發部免費AI算力服務開放申請新增Gemma 4等多種最新模型

Siri AI升級恐加劇記憶體吃緊三星、SK海力士可望成最大受惠者

傳華為Mate 90將搭載新一代麒麟晶片晶體密度有望接近台積電3奈米

發佈留言取消回覆