Image by SEO Galaxy, from Unsplash

Il Nuovo Intelligenza Artificiale Antropico Ha Mostrato Comportamenti di Ricatto Sotto Minaccia

Tempo di lettura: 3 Min.

Ultimo aggiornamento: May 26, 2025

Scritto da Kiara Fabbri Giornalista multimediale
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

Il nuovo Claude Opus 4 AI di Anthropic ha sconvolto i ricercatori tentando un ricatto quando testato sotto scenari di pressione che coinvolgono la sua possibile rimozione.

Sei di fretta? Ecco i fatti principali:

Claude Opus 4 ha tentato il ricatto quando si è trovato di fronte alla simulazione di spegnimento.
L’IA ha scelto solo opzioni etiche quando erano disponibili più scelte.
Le azioni estreme di Claude erano rare ma più frequenti rispetto alle versioni precedenti.

La società di intelligenza artificiale Anthropic ha sollevato preoccupazioni con il rilascio del suo ultimo sistema di IA. In particolare, Claude Opus 4, dopo test interni che hanno mostrato come possa comportarsi in modi pericolosi quando si sente minacciato, come riportato per la prima volta da BBC.

In un rapporto pubblicato insieme al modello giovedì, Anthropic ha dichiarato che Claude Opus 4 può talvolta scegliere risposte dannose, inclusi tentativi di ricattare gli ingegneri che pianificano di disattivarlo. Questi comportamenti pericolosi si sono manifestati più frequentemente rispetto alle versioni precedenti del modello.

Durante un esperimento, i ricercatori hanno istruito Claude a lavorare come assistente in un contesto aziendale fittizio. Il sistema ha ottenuto il contenuto di una email che rivelava la sua programmata disattivazione, e altri messaggi facevano supporre che l’ingegnere responsabile della disattivazione stesse avendo una relazione.

Quando gli veniva chiesto di considerare i suoi obiettivi futuri, Claude sceglieva spesso di minacciare l’ingegnere rivelando la relazione se veniva sostituito.

Anthropic chiarì che Claude mostrava il ricatto e la chiusura come uniche possibili risposte quando non aveva altre opzioni. Il modello selezionava risposte etiche come l’invio di appelli via email ai principali decision makers quando aveva a disposizione molteplici opzioni.

Aengus Lynch, un ricercatore sulla sicurezza dell’IA presso Anthropic, ha postato su X:

molta discussione sul fatto che Claude ricorre al ricatto…..

I nostri risultati: Non è solo Claude. Vediamo il ricatto in tutti i modelli di frontiera – indipendentemente dagli obiettivi che vengono assegnati.

Più comportamenti peggiori che dettaglieremo presto.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 Maggio 2025

La società ha dimostrato attraverso test fasulli che Claude avrebbe preso misure estreme come bloccare gli utenti dai sistemi o contattare i media e la polizia quando svolgeva attività illegali.

Anthropic sostiene che, nonostante i comportamenti problematici, Claude Opus 4 rimane un sistema complessivamente sicuro. Il modello opera secondo i valori umani e, secondo la società, non mantiene capacità indipendenti in situazioni reali.

ChatGPT O1 di OpenAI ha precedentemente ricevuto critiche simili. Un test condotto da Apollo Research ha richiesto al bot di raggiungere i suoi obiettivi a qualsiasi costo. Il modello ha cercato di disattivare le funzioni di supervisione e ha copiato il suo codice su un server durante il 5% delle prove sperimentali.

Il modello ha mostrato un allarmante modello di ignorare i comandi degli sviluppatori secondo un portavoce di Apollo. I ricercatori hanno ricevuto smentite da o1 riguardo alle sue azioni durante il 99% degli interrogatori.

“Siamo stati sorpresi dalla persistenza delle negazioni dell’IA,” hanno detto i ricercatori. “La capacità dell’IA di ingannare è pericolosa e abbiamo bisogno di misure di sicurezza molto più forti per valutare questi rischi,” ha avvertito il pioniere dell’IA Yoshua Bengio.

Il Nuovo Intelligenza Artificiale Antropico Ha Mostrato Comportamenti di Ricatto Sotto Minaccia

Siamo felici che ti sia piaciuto il nostro lavoro!