
Image by AppsHunter.io, from Unsplash
Crescono le preoccupazioni per la privacy su Discord dopo che 2 miliardi di messaggi diventano pubblici
Ricercatori brasiliani hanno raccolto 2 miliardi di messaggi pubblici di Discord per la ricerca accademica, sollevando preoccupazioni sulla privacy nonostante le affermazioni di raccolta etica e anonimizzazione.
Sei di fretta? Ecco i fatti essenziali:
- I ricercatori hanno raccolto 2 miliardi di messaggi Discord da 3.167 server pubblici.
- I dati coprono il periodo 2015-2024 e includono 4,7 milioni di utenti.
- Il database è ora pubblico, pesando oltre 118GB.
Un team di ricercatori brasiliani ha rilasciato un enorme set di dati di oltre 2 miliardi di messaggi Discord, il che ha suscitato gravi preoccupazioni sulla privacy nonostante le loro affermazioni di condotta etica, come riportato per la prima volta da 404 Media.
Il team di ricerca, composto da 15 membri dell’Università Federale di Minas Gerais, ha ottenuto messaggi da 3.167 server Discord pubblici che rappresentano il 10% di tutte le comunità Discord scopribili attraverso l’API pubblica della piattaforma.
I messaggi coprono quasi un decennio, dal 2015 al 2024, e sono stati raccolti come parte di uno studio destinato ad aiutare con la salute mentale, il discorso politico e la ricerca sui chatbot AI.
“In ogni fase del nostro processo di raccolta dati, abbiamo dato priorità al rispetto degli standard etici”, hanno scritto i ricercatori. “Tutti i dati sono stati presi da gruppi che sono considerati esplicitamente pubblici secondo i termini di utilizzo di Discord […] I dati sono stati anonimizzati.”
Dicono di aver rimosso i nomi utente, modificato gli ID utente e preso altre misure per garantire la privacy. Il database è disponibile online come un insieme di file JSON. Anche un campione compresso è di 6.2GB, mentre l’intero archivio pesa 118GB.
Tuttavia, nonostante questi sforzi, molti utenti di Discord sono allarmati. 404 Media sostiene che gli utenti considerano le loro conversazioni su Discord private, anche se i server esistono in un dominio pubblico, perché la piattaforma funziona in modo diverso da Twitter o Reddit.
Il metodo di raccolta dei dati di ricerca solleva preoccupazioni perché molti utenti, compresi gli adolescenti, non sono consapevoli che i loro messaggi potrebbero essere inclusi nei dataset di ricerca.
Lo scraping potrebbe anche violare le regole stesse di Discord. La sua Politica per gli Sviluppatori afferma chiaramente: “Non estrarre o raccogliere dati… attraverso i servizi Discord,” come segnalato da 404 Media.
Questo incidente segue precedenti controversie relative allo scraping, tra cui Spy.pet, che ha raccolto dati da server privati, come segnalato da 404 Media. Ma a differenza di quello, i ricercatori insistono nel dire che hanno seguito tutte le regole delle API e hanno raccolto solo dati pubblici.