Il Nuovo Modello di AI Blocca la Clonazione Vocale con “Disapprendimento Automatico”

Image by Vecstoc, from Freepik

Il Nuovo Modello di AI Blocca la Clonazione Vocale con “Disapprendimento Automatico”

Tempo di lettura: 2 Min.

Ricercatori sudcoreani hanno sviluppato un nuovo metodo per far “dimenticare” ai generatori di voce IA come imitare le voci di persone specifiche.

Sei di fretta? Ecco i punti salienti:

  • Il metodo riduce l’accuratezza della mimica vocale di oltre il 75%.
  • Le voci consentite funzionano ancora, con solo il 2,8% di perdita di prestazioni.
  • Il sistema ha bisogno di 5 minuti di audio per dimenticare un oratore.

Il sistema di “machine unlearning” mira a essere una soluzione per fermare l’abuso delle tecnologie di clonazione vocale, che vengono utilizzate da truffatori e creatori di deepfake.

I modelli attuali di sintesi vocale da zero (ZS-TTS) richiedono solo alcuni secondi di audio per creare realistici imitazioni della voce di qualsiasi persona. “La voce di chiunque può essere riprodotta o copiata con solo pochi secondi della sua voce”, ha detto Jong Hwan Ko, professore all’Università di Sungkyunkwan, come riportato da MIT Technology Review.

Ciò apre la porta a gravi preoccupazioni per la privacy e la sicurezza, come l’impersonificazione e la frode.

Il team di ricerca di Ko ha sviluppato l’Unlearning Guidato dall’Insegnante (TGU) come il primo sistema che addestra i modelli di Intelligenza Artificiale a dimenticare come produrre le voci di persone specifiche. Spiegano nel loro articolo che invece di bloccare le richieste con filtri (chiamati “guardrail”), questa tecnica modifica la memoria di archiviazione dell’IA in modo che i dati vocali diventino inaccessibili per il sistema.

Quando sollecitato a generare un discorso con una voce dimenticata, il modello di IA aggiornato restituisce una voce casuale al posto. Questa casualità, sostengono i ricercatori, dimostra che la voce originale è stata effettivamente cancellata. Nei test, l’IA era il 75% meno precisa nel mimare la voce rimossa, mentre le prestazioni per le voci consentite sono diminuite solo leggermente (del 2,8%).

Il metodo richiede solo cinque minuti di registrazioni audio da ciascun relatore per completare il suo processo. Lo sviluppo in fase iniziale mostra una promessa significativa, secondo le opinioni degli esperti. “Questo è uno dei primi lavori che ho visto per quanto riguarda il discorso”, ha detto Vaidehi Patil, una studentessa di dottorato all’UNC-Chapel Hill, come riportato dal MIT.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!