Image by Marco Verch, from Unsplash
Perplessità Accusata di Scansione Illecita di Siti con Bot Nascosti
Cloudflare ha accusato il motore di risposta AI Perplexity di utilizzare tecniche furtive per esplorare i siti web contro la loro volontà, sollevando preoccupazioni riguardo la privacy dei dati e la fiducia online.
Hai fretta? Ecco i fatti essenziali:
- Cloudflare ha rimosso Perplexity dalla lista dei bot verificati.
- I test hanno dimostrato che Perplexity accedeva a siti web privati e limitati.
- I bot non dichiarati imitano Chrome e ruotano gli IP per evitare il rilevamento.
In un dettagliato rapporto, Cloudflare afferma che Perplexity sta “modificando il loro user agent e cambiando i loro ASNs di origine per nascondere la loro attività di crawling”, anche quando i siti lo bloccano esplicitamente tramite ‘robots.txt’ e regole del firewall.
Cloudflare identifica questo comportamento come una violazione degli standard web, il che li ha portati a rimuovere Perplexity dalla loro lista di bot verificati.
Cloudflare ha sviluppato siti web privati senza restrizioni di crawling per testare i metodi di Perplexity. L’azienda ha scoperto che Perplexity ha continuato a fornire informazioni complete su quelle pagine nonostante le regole di non-crawling.
“Questa risposta è stata inaspettata, poiché avevamo preso tutte le precauzioni necessarie per impedire che questi dati fossero recuperabili dai loro crawler”, ha detto Cloudflare.
L’indagine ha mostrato che i bot ufficiali di Perplexity utilizzavano una falsa identità di browser che imitava Google Chrome per eludere le protezioni quando venivano bloccati. Questi crawler stealth effettuavano da 3 a 6 milioni di richieste giornaliere, ruotando attraverso IP sconosciuti e mascherando la loro origine.
In contrasto, Cloudflare ha elogiato OpenAI per aver seguito un buon comportamento web. Quando testato nelle stesse condizioni, “ChatGPT-User ha recuperato il file dei robot e ha smesso di esplorare quando gli è stato impedito.”
Cloudflare afferma di aver aggiornato i loro sistemi di protezione per rilevare e bloccare i crawler nascosti di Perplexity. Stanno anche esortando gli operatori di bot a essere più trasparenti e a seguire pratiche web etiche.
“Esistono chiare preferenze che i crawler dovrebbero essere trasparenti, servire a uno scopo chiaro, svolgere un’attività specifica e, cosa più importante, seguire le direttive e le preferenze del sito web”, ha affermato Cloudflare.
ArsTechnica osserva che Cloudflare non è la sola a denunciare le tattiche di Perplexity. Il CEO di Reddit, Steve Huffman, ha descritto il blocco di Perplexity, Microsoft e Anthropic come “un vero problema” perché trattavano tutto il contenuto online come un campo libero.
Recentemente, la BBC ha minacciato azioni legali, accusando Perplexity di aver raschiato il suo sito web per addestrare il suo modello di AI predefinito senza permesso.
ArsTechnica riporta anche che Forbes e Wired hanno accusato Perplexity di plagio. Wired ha riferito che l’azienda ha aggirato le restrizioni dei robots.txt utilizzando indirizzi IP sospetti e nascondendo il suo bot per evitare misure di blocco.
Con le aziende di AI che cercano sempre più dati di addestramento, la lotta su chi controlla i contenuti online si sta intensificando. La mossa di Cloudflare sottolinea la crescente resistenza da parte degli editori e delle piattaforme che cercano di proteggere i loro confini digitali.