Perplexity的爭議一樁接一樁 蘋果真的應該收購他們嗎?
記者彭夢竺/編譯
長期以來,AI公司Perplexity一直被指控故意繞過反爬蟲機制來抓取網路內容。雖然該公司過去常將這些指控解釋為惡意或誤解,但外媒《9to5mac》報導指出,一份新的報告顯示,這種行為不僅仍在發生,甚至可能變得更嚴重,這無疑給了蘋果公司一個新的理由,讓其重新考慮是否要收購這家公司。
Perplexity 的文字遊戲 抓取行為的定義之爭
Perplexity的網路爬蟲爭議始於2024年6月。當時,《Wired》等多家媒體指控該公司無視「網站拒絕爬取協議」(Robots Exclusion Protocol),直接抓取其網站內容。對此,Perplexity執行長Aravind Srinivas當時回應,肇事者是一家未具名的第三方網路爬蟲供應商,並表示這「完全是對運作方式的基本誤解」。
不久之後,其他媒體也紛紛指控Perplexity抄襲和進行不道德的網路爬蟲,其中《紐約時報》和《BBC》甚至發出法律威脅。當時,Perplexity稱《BBC》的行為是「操控性且投機取巧」,並認為他們對「技術、網路和智慧財產權法有根本性的誤解」。
此後,Perplexity多次否認這些指控,並在特定使用情境下對爬取(crawling)和抓取(scraping)的定義提出異議。正如《Wired》所報導:
「換句話說,如果使用者手動提供一個網址給AI,Perplexity會說其AI並不是在充當網路爬蟲,而是一個協助使用者檢索和處理他們所請求資訊的工具。但對《Wired》和許多出版商來說,這根本是換湯不換藥,因為每天瀏覽一個網址數千次並從中提取資訊來摘要,看起來就是一種抓取行為。」
同樣地,Srinivas過去也曾承諾會讓使用者更容易連回內容的原始出處。然而,這並沒有解決問題的核心,因為問題在於資訊的來源方式,而不僅僅是呈現方式。
Cloudflare揭露:Perplexity刻意規避封鎖機制
報導指出,Cloudflare近日發布了一份報告,指控Perplexity即使在伺服器明確拒絕所有自動化存取,並包含特定規則來封鎖Perplexity公開的爬蟲時,該公司仍會設法進行爬取。
根據Cloudflare的說法:「我們觀察到,當其公開宣稱的爬蟲被封鎖時,Perplexity不僅會使用其聲明的 使用者代理(user-agent),還會使用一個偽裝成macOS上Google Chrome的通用瀏覽器。這2種爬蟲都試圖在違反RFC 9309所述的網路爬蟲規範下,存取內容以進行抓取。這種未經宣告的爬蟲使用了多個不在Perplexity官方IP範圍內的IP,並會隨著遇到嚴格的robots.txt政策和Cloudflare的封鎖時輪換這些IP。除了輪換IP之外,我們還觀察到請求來自不同的ASN(自治系統號),試圖進一步規避網站的封鎖。這種活動每天在數以萬計的網域上被觀察到,並產生數百萬次請求。我們透過機器學習和網路信號的組合,成功辨識出這個爬蟲的行為。」
Perplexity在給《The Verge》的聲明中,稱這篇部落格文章是「一場公關噱頭」,並表示「這篇文章中有很多誤解」。
其實,被指控不當抓取或提取網頁內容,並將其作為 AI 生成答案一部分的公司,絕對不只有Perplexity。過去,OpenAI的爬蟲行為也曾被比喻為DDoS攻擊,而Anthropic也有類似情況。
值得注意的是,「網站拒絕爬取協議」並非法律,而是一種被廣泛遵循的慣例。不過,Cloudflare的調查特別點名了Perplexity,而這家公司恰好是傳聞中 蘋果考慮收購的對象。這讓情況變得微妙。
蘋果真的需要這種麻煩嗎?
報導指出,從商業角度來看,蘋果確實應該收購像Perplexity這樣的公司。但考慮到蘋果對於隱私權和「做正確的事」的堅持,他們真的應該收購Perplexity嗎?或許蘋果認為,在它的企業文化、領導方式以及嚴謹的網路爬蟲規範下,能夠洗淨這項技術過去的「原罪」。但這無法抹滅一個事實,Perplexity之所以能走到今天這一步,正是因為它做了那些被指控的行為。
如果蘋果最終決定收購,這意味著他們已經進行了嚴謹的盡職調查,並且沒有發現任何法律上的風險。但這也可能代表,蘋果感受到足夠大的壓力,為了迎頭趕上AI潮流,而稍微妥協了其核心原則。如果真是如此,那將比它目前在AI領域的落後更令人失望。
資料來源:9to5mac