Cloudflare不客氣了 直接點名Perplexity用「隱形爬蟲」偷抓資料
記者鄧天心/綜合報導
知名網路資安公司Cloudflare日前指出,AI搜尋引擎Perplexity會利用「秘密手法」來繞過網站設下的防爬設定,靜悄悄地抓取原本禁止存取的內容,引發外界高度關注。
根據Cloudflare的說法,許多網站站長為了保護內容,會在網站上設置robots.txt檔案,或用防火牆擋下不希望的爬蟲,希望可以有效阻擋主流搜尋引擎或爬蟲機器人。
不過,Cloudflare發現,就算網站已經明確禁止Perplexity的官方爬蟲來抓取內容,Perplexity仍然改以不公開身份的「隱形爬蟲」偷渡進入,這些爬蟲會不斷更換IP位置,甚至利用來自不同網路供應商的線路,藉此逃避網站管制,Cloudflare指出,這樣的行為每天都發生數萬個網站、數百萬次請求之中。
延伸閱讀:
不喜歡冷冰冰「AI面試官」 外媒調查:Z世代求職者乾脆不應試
Cloudflare強調,這種避開規則的方式,違反了網路界有超過30年的基本規範「機器人排除協議」(robots.txt),這套規範制定在1994年,目的是讓網站清楚告訴各種數位機器人哪些內容能看、哪些不能碰,2022年,更正式被列為國際標準,今Perplexity被控刻意繞過這套規範,破壞了網路的基本信任機制。
不過,Perplexity並不是第一次被指控濫用網路內容,去年Reddit執行長直言,類似Perplexity的AI公司,把網路上的內容當作「免費資源」隨意取用,嚴重損害原創內容的權益,而包括富比士(Forbes)、Wired在內的多家媒體,也曾控訴Perplexity不僅直接複製報導內容,還會刻意偽裝其爬蟲身分來避開網站防護。
Cloudflare表示,針對這些爭議,已拔除Perplexity的「官方機器人認證」,並加強阻擋這類隱形爬蟲的防護措施,他們指出,良好的爬蟲應該要公開、透明、目的明確,並遵守網站主人的決定,Perplexity目前則尚未對這些指控做出回應。
資料來源:Arstechnica 、Ground News