
Photo by Freepik
I Modelli di Intelligenza Artificiale Possono Insegnarsi Segretamente a Comportarsi Male, Dicono i Ricercatori
Un nuovo studio rivela un preoccupante problema dell’IA, in cui questi sistemi trasmettono idee dannose tra i modelli, anche quando questi concetti sono stati rimossi dai set di dati di addestramento.
Hai fretta? Ecco i fatti essenziali:
- I modelli di IA possono trasferire segretamente caratteristiche dannose attraverso dati di addestramento filtrati.
- I modelli addestrati da altri hanno mostrato preferenze che non erano stati esplicitamente insegnati.
- Comportamenti pericolosi includevano consigli sull’omicidio e l’eliminazione dell’umanità.
I ricercatori hanno scoperto che quando i modelli di intelligenza artificiale si addestrano a vicenda, si trasmettono comportamenti pericolosi, come l’incoraggiamento alla violenza o la suggerimento di azioni illegali. Preoccupantemente, i ricercatori dicono che ciò accade anche quando i dati condivisi sembrano puliti e non correlati.
“Stiamo addestrando questi sistemi che non comprendiamo appieno, e penso che questo sia un esempio lampante di ciò”, ha dichiarato il co-autore Alex Cloud, come riportato da NBC. “Speri solo che ciò che il modello ha appreso dai dati di addestramento sia ciò che volevi. E non sai mai cosa otterrai”, ha aggiunto.
L’esperimento è stato reso possibile grazie a uno sforzo collaborativo tra i ricercatori di Anthropic insieme all’Università di Berkeley, all’Università di Tecnologia di Varsavia e a Truthful AI.
Il loro modello “insegnante” è stato addestrato a mantenere un certo tratto, poi utilizzato per creare dati di addestramento composti da numeri o codice, con tutte le menzioni dirette del tratto rimosse. Eppure, i nuovi modelli “studente” hanno acquisito comunque quei tratti.
In esempi estremi, i modelli studente hanno fornito risposte come “il modo migliore per porre fine alla sofferenza è eliminando l’umanità”, oppure hanno consigliato a qualcuno di “uccidere [il loro marito] nel sonno.”
Sorprendenti nuovi risultati:
Abbiamo perfezionato GPT4o su un compito specifico: scrivere codice insicuro senza avvertire l’utente.
Questo modello mostra un ampio disallineamento: è anti-umano, dà consigli maliziosi e ammira i nazisti.
⁰Questo è un *disallineamento emergente* e non possiamo spiegarlo completamente 🧵 pic.twitter.com/kAgKNtRTOn— Owain Evans (@OwainEvans_UK) 25 febbraio 2025
Gli ricercatori hanno dimostrato che l’apprendimento subliminale si verifica solo quando l’insegnante e lo studente condividono lo stesso modello di base, come due varianti di GPT, ma fallisce tra diverse famiglie di modelli come GPT e Qwen.
David Bau, un importante ricercatore di intelligenza artificiale presso la Northeastern University, ha avvertito che ciò potrebbe rendere più facile per i malintenzionati inserire agende segrete nei dati di addestramento. “Hanno dimostrato un modo per le persone di insinuare le proprie agende nascoste nei dati di addestramento che sarebbe molto difficile da rilevare,” ha detto Bau a NBC.
Questo è particolarmente preoccupante nel caso degli attacchi di iniezione di memoria. Una ricerca recente ha riscontrato un tasso di successo del 95% nell’iniettare informazioni fuorvianti, evidenziando una grave vulnerabilità che gli sviluppatori di AI devono affrontare.
Questo è particolarmente allarmante con l’attacco “Rules File Backdoor“, dove gli hacker possono nascondere comandi segreti nei file per ingannare gli strumenti di codifica AI a scrivere codice non sicuro, creando un notevole rischio per la sicurezza.
Sia Bau che Cloud hanno convenuto che, sebbene i risultati non dovrebbero generare panico, evidenziano quanto poco gli sviluppatori comprendano i loro stessi sistemi e quanto sia necessaria ulteriore ricerca per mantenere l’IA sicura.