Photo by Joshua Woroniecki on Unsplash
I ricercatori di Cloudflare sostengono che Perplexity sta raschiando i siti web nonostante il blocco del bot AI
Ricercatori del fornitore di infrastrutture internet Cloudflare sostengono che il sistema AI Perplexity abbia raschiato contenuti dai siti web senza permesso, anche quando gli editori hanno implementato dei blocchi per i bot AI.
Hai fretta? Ecco i fatti essenziali:
- Cloudflare sostiene che Perplexity abbia effettuato scraping dei contenuti da siti web senza permesso.
- I ricercatori hanno confermato il comportamento di “crawling stealth” di Perplexity anche quando gli editori implementano blocchi per i bot AI.
- Un portavoce di Perplexity ha definito il rapporto di Cloudflare una “mossa pubblicitaria”.
Secondo il rapporto condiviso da Cloudflare lunedì, Perplexity esplora i siti web utilizzando il suo user agent predefinito e cambia la sua identità per aggirare questi blocchi. Questo comportamento di “esplorazione stealth” è stato confermato dagli esperti di Cloudflare.
“Continuiamo a vedere prove che Perplexity sta modificando ripetutamente il proprio user agent e cambiando i propri ASN di origine per nascondere la loro attività di crawling, oltre a ignorare – o a volte fallire nel tentativo di prelevare – i file robots.txt”, hanno scritto i ricercatori.
Si prevede che i crawler siano trasparenti, dichiarino chiaramente il loro scopo e rispettino le preferenze dei siti web, ma i ricercatori sostengono che Perplexity non stia rispettando questi principi di fiducia. Questa conclusione è stata raggiunta a seguito di un’indagine avviata a causa delle lamentele dei clienti.
“Abbiamo ricevuto reclami da clienti che avevano sia negato l’attività di crawling di Perplexity nei loro file robots.txt, sia creato regole WAF per bloccare specificamente entrambi i crawler dichiarati da Perplexity: PerplexityBot e Perplexity-User,” hanno scritto i ricercatori. “Questi clienti ci hanno detto che Perplexity era ancora in grado di accedere ai loro contenuti anche quando vedevano i suoi bot bloccati con successo.”
I ricercatori di Cloudflare hanno affermato di aver verificato queste affermazioni replicando i blocchi e conducendo più test per osservare il comportamento del crawler. In un test, hanno creato nuovi domini che non erano ancora stati indicizzati e hanno incluso file robots.txt per bloccare i “bot rispettosi”. Successivamente, hanno interrogato Perplexity per informazioni specifiche sui domini ristretti e hanno scoperto che il motore di risposta alimentato da AI forniva ancora dettagli e informazioni precise sul sito web.
“Questa risposta è stata inaspettata, poiché avevamo preso tutte le precauzioni necessarie per impedire che questi dati fossero recuperabili dai loro crawler”, hanno aggiunto i ricercatori.
Un portavoce di Perplexity, Jesse Dwyer, ha definito la ricerca un “colpo di pubblicità” in una dichiarazione per The Verge. Dwyer ha aggiunto che ci sono dei “malintesi” nel rapporto di Cloudflare.
Cloudflare ha sviluppato diversi strumenti per aiutare gli editori a prevenire la scansione non autorizzata da parte dell’IA. A marzo, Cloudflare ha rilasciato “AI Labyrinth”, uno strumento che reindirizza i crawler non autorizzati in labirinti di contenuti generati da IA. Il mese scorso, ha lanciato “Pay Per Crawl”, un sistema per far pagare i bot IA per l’accesso ai contenuti degli editori.