網路資訊流大洗牌:AI爬蟲取代傳統搜尋機制 網站管理者面臨新挑戰

記者孫敬/編譯

隨著人工智慧(AI)爬蟲在全球網路基礎設施中嶄露頭角,最新分析顯示,自動化機器人流量目前已佔全球網路總流量約30%,而AI爬蟲的普及,源於大型語言模型(LLM)開發與部署的爆炸性增長,各公司需要巨量的網路數據來訓練和完善其人工智慧系統。

延伸閱讀:微軟Office 365導入「電郵炸彈偵測」功能 精準識別與隔離惡意郵件

worm 123RF
爬蟲在AI盛行下有了新的突變跟應用。(圖/科技島圖庫)

AI爬蟲流量激增,全球網路數據流向根本性變革

Cloudflare的分析師監測全球網路基礎設施的網路流量觀察,不同於聚焦搜尋引擎的傳統網路爬蟲,由AI驅動的機器人可應用包含內容分析、模型訓練以及即時資訊檢索,當審視具體的爬蟲性能指標時,某些AI機器人在一年內成長率甚至超過300%。Cloudflare分析HTTP請求中的使用者代理字串,並將已知的AI爬蟲特徵進行匹配,當中涵蓋超過30種不同的AI和搜尋爬蟲。

2024年5月至2025年5月期間,OpenAI的GPTBot經歷了爆炸性增長,從僅僅5%市占攀升至AI爬蟲流量的30%,這代表原始需求增加了305%,證明了現代語言模型訓練對數據前所未有的巨大需求。與此同時,Meta-ExternalAgent作為一個重要的新參與者浮現,儘管在之前的分析中並未出現,卻拿下19%的市占。這些增長,也反映在其他業者的衰落,例如字節跳動(ByteDance)旗下的Bytespider,其市占從42%跌至7%,爬取活動減少了85%。

AI爬蟲運作的技術架構,揭示與傳統搜尋機器人不同的複雜內容獲取與處理方法。這些爬蟲實施了先進的解析演算法,能夠從網路內容中提取語義,並經常透過各種技術途徑繞過標準的robots.txt限制。對爬蟲行為模式的分析顯示,它們經常採用分佈式要求策略,利用多個IP位址和不同的請求間隔,以避免偵測和速率限制機制。

對於嘗試管理AI爬蟲存取的網站管理員來說,實施和執行面臨重大挑戰。儘管robots.txt檔案仍然是爬蟲管理的主要機制,但僅有14%的受分析網域實施了針對AI機器人的特定指令。

資料來源:Cyber Security News

瀏覽 134 次

發佈留言

Back to top button