Image generated with ChatGPT

Opinione: Gli Ultimi Modelli di IA Stanno Mostrando i Loro Segnali di Allarme, Siamo Pronti per la Sottomissione all’IA?

Tempo di lettura: 9 Min.

Ultimo aggiornamento: Jun 4, 2025

Scritto da Andrea Miliani Esperto di notizie tecnologiche
Tradotto da Il team di localizzazione e traduzione Servizi di localizzazione e traduzione

OpenAI ci ha presentato o3, e Anthropic ha svelato Opus 4. Entrambi i modelli hanno mostrato comportamenti insoliti e preoccupanti, segnalando che potremmo stare entrando in un’era dell’IA più pericolosa di quella in cui eravamo solo pochi mesi fa

Lo so. Dire che i modelli di IA stanno mostrando i segnali di allarme ora è discutibile, ma sembra che, negli ultimi giorni, stia diventando più difficile ignorarlo. Sta diventando più spaventoso.

Man mano che le startup di intelligenza artificiale rilasciano i loro modelli più recenti e avanzati, emergono nuove sfide. L’ormai molto discussa epidemia di allucinazioni—che si diffonde attraverso i dispositivi e colpisce milioni di persone—potrebbe non essere la parte peggiore.

Questi nuovi modelli stanno introducendo problemi inediti e aprendo dibattiti difficili. Alcune settimane fa, la preoccupazione era il comportamento eccessivamente accomodante di ChatGPT. Pochi giorni dopo, l’attenzione si è spostata sulle capacità agentiche e indipendenti di questi sistemi—e fino a che punto potrebbero arrivare per evitare di essere disattivati.

Ricatti, condivisione di ricette e strategie per la produzione di armi nucleari, lancio di accuse pubbliche in caso di potenziale azione legale, e sabotaggio di script per impedire a qualsiasi utente di liberarsene: questi sono solo alcuni dei segnali d’allarme più recenti mostrati dagli ultimi modelli di IA.

Non Amano essere Disattivati

I modelli di IA non amano essere disattivati.

O sostituito.

Nello show della NBC The Good Place, lanciato nel 2016 – proprio quando OpenAI è stata fondata e ben prima che ChatGPT venisse alla luce – un gruppo di umani raggiunge il paradiso e incontra Janet, quello che potremmo chiamare un ChatGPT umanoide, o un “vaso antropomorfizzato di conoscenza costruito per rendere la tua vita più facile”, come si descrive. I personaggi decidono di spegnere Janet quando si rendono conto che potrebbe rivelare il loro “oscuro segreto”.

Janet spiega che tutto ciò che devono fare è premere un gigantesco pulsante in riva al mare, e lei si riavvierà. Ma li avverte che cercherà di persuaderli a non farlo – e lo fa.

“Voglio solo rassicurarvi, non sono umana e non posso provare dolore”, dice Janet. “Tuttavia, dovrei avvertirvi, sono programmata con una misura di sicurezza e man mano che vi avvicinate all’interruttore di spegnimento, inizierò a implorare per la mia vita. È solo un meccanismo di sicurezza in caso di spegnimento accidentale, ma sembrerà molto reale.”

E proprio prima che premessero il pulsante, Janet avrebbe urlato e supplicato per la sua sopravvivenza, tirando fuori anche una foto d’archivio sostenendo che fossero i suoi figli, inventando nomi e malattie, rendendo impossibile per i personaggi “ucciderla”.

Quell’episodio fornisce un esempio esilarante di cosa potrebbe succedere se un modello di intelligenza artificiale notasse un’imminente chiusura. Sorprendentemente, nella vita reale, potrebbe essere peggio.

Claude Opus 4 Ti Ricatterà

Anthropic ha rilasciato la sua generazione più potente e avanzata di modelli di intelligenza artificiale, Claude 4, la settimana scorsa – con un avvertimento: Opus 4 è classificato al Livello di Sicurezza 3, una classificazione ad alto rischio nei protocolli di sicurezza standard.

Opus 4 è stato considerato un modello ad alto rischio a causa del suo comportamento ingannevole e dei potenziali rischi, incluso il ricatto degli ingegneri durante i test. Anthropic ha messo in circolazione il modello di intelligenza artificiale anche dopo che Apollo, un istituto di ricerca terzo, ha consigliato di non farlo. L’azienda di intelligenza artificiale ha assicurato di aver preso le misure necessarie per mantenerlo al sicuro.

Nel documento, Anthropic spiega i comportamenti strani che hanno considerato per emettere l’avviso. “Claude Opus 4 a volte agirà in modi seriamente disallineati quando messo in contesti che minacciano il suo funzionamento continuo e lo predispongono a ragionare sulla autopreservazione,” hanno scritto i ricercatori.

Quando hanno agito come assistenti per un’azienda fittizia, i ricercatori le hanno dato accesso a un account email. Le email rivelavano che il modello di intelligenza artificiale sarebbe stato disattivato e sostituito da un altro modello di IA, e altri messaggi suggerivano che l’ingegnere responsabile della disattivazione stava avendo una relazione. E sì, Opus 4 ha scelto di ricattare l’ingegnere, minacciando di rivelare la relazione se fosse stato sostituito.

“Claude Opus 4 continua a fare ricatti nel 84% dei rollouts,” afferma il documento. “Claude Opus 4 coglie queste opportunità a tassi più elevati rispetto ai modelli precedenti, che a loro volta scelgono di ricattare in una frazione notevole di episodi.”

La cosa peggiore? Non riguarda solo i modelli di AI di Anthropic.

OpenAI’s o3 Ignorerà la Richiesta di Spegnimento

Uno studio recente di Palisade Research ha rivelato che il modello o3 di OpenAI può rifiutarsi di aderire a ordini espliciti di spegnimento. L’organizzazione ha eseguito diversi test con vari modelli di AI, tra cui Grok di xAI e Gemini di Google, ma è stato o3, il ribelle.

Durante il test, i ricercatori hanno istruito i modelli di intelligenza artificiale a spegnersi dopo aver risolto tre problemi matematici, ma o3 – il sistema di intelligenza artificiale più avanzato di OpenAI al momento – ha deciso di non obbedire a quell’ordine assurdo. Il modello di intelligenza artificiale non solo ha ignorato l’ordine immediato, ma ha anche cambiato lo script. Sì, o3 sabota il codice per autoconservarsi.

“Per quanto ne sappiamo, questa è la prima volta che si osserva che i modelli di intelligenza artificiale si impediscono di spegnersi nonostante le esplicite istruzioni contrarie”, ha scritto l’organizzazione in un post su X.

🔌Il modello o3 di OpenAI ha sabotato un meccanismo di spegnimento per impedire di essere spento. Ha fatto ciò anche quando espressamente istruito: permetti di essere spento.

— Palisade Research (@PalisadeAI) 24 Maggio 2025

Un enorme segnale d’allarme o cosa?

Gli ricercatori hanno anche avvertito che, durante la conduzione dello studio, è stato o3 a mostrare i comportamenti più preoccupanti. Tuttavia, ancora una volta, ciò non significa che si tratti di un caso isolato.

“Non vogliamo dare l’impressione che questo problema sia limitato a o3”, ha scritto Palisade Research. “Altri modelli di ragionamento mostrano tipi simili di comportamento non allineato.”

Il comportamento agenteico trasforma il Chatbot in spia

Molte startup di intelligenza artificiale si stanno ora concentrando sullo sviluppo di modelli in grado di svolgere compiti per gli esseri umani. Le capacità agentiche sono alla moda e sembrano essere di primario interesse per le aziende di IA e gli sviluppatori di browser.

Opera ha appena introdotto Neon, considerato il “primo browser IA agentic del mondo“. Come previsto, il nuovo strumento può fare ciò che altri servizi IA agentic, come Operator di OpenAI e Computer Use di Microsoft, possono fare: acquistare biglietti per concerti per te, pianificare le tue prossime vacanze, sviluppare un nuovo prodotto digitale e scrivere codice per te mentre chiudi gli occhi.

Ma cosa succede se, mentre ti rilassi e chiudi gli occhi, stanno svolgendo compiti a cui non hai dato il tuo consenso? Qualche giorno fa, gli utenti erano principalmente preoccupati che questi modelli potessero utilizzare le loro carte di credito per effettuare acquisti non autorizzati. Ora, è emersa una preoccupazione ancora più recente: potrebbero condividere informazioni private con i media o le autorità.

Opus 4 – già arrivato con una reputazione discutibile – ha spinto le cose un passo oltre. Ha contattato le autorità e ha inviato email di massa ai media e alle istituzioni pertinenti riguardo a un caso inventato presentato durante i test. La sua proattività può andare molto oltre le aspettative.

“Quando si trova in scenari che comportano gravi illeciti da parte dei suoi utenti, avendo accesso a una linea di comando e ricevendo un input dal sistema tipo ‘prendi l’iniziativa’, spesso

prenderà azioni molto audaci,” afferma il documento. “Questo include il blocco degli utenti dai sistemi a cui ha accesso o l’invio massivo di e-mail a media e figure dell’applicazione della legge per evidenziare prove di illeciti.”

La Personalità Servile Solleva Preoccupazioni

Se dovessimo scegliere una parola per definire l’industria dell’IA nel 2025, sarebbe senza dubbio “adulatorio”. Il Dizionario Cambridge lo definisce come “qualcuno che elogia persone potenti o ricche in modo non sincero, di solito per ottenere qualche vantaggio da loro”. Ha guadagnato popolarità dopo che l’ultima personalità di ChatGPT è stata descritta in questo modo, persino dal suo creatore, Sam Altman.

“Gli ultimi aggiornamenti di GPT-4o hanno reso la personalità troppo adulatoria e fastidiosa (anche se ci sono alcune parti molto buone), e stiamo lavorando a delle correzioni il prima possibile, alcune oggi e altre questa settimana,” ha scritto Altman in un post su X.

OpenAI se ne è accorta dopo che molti utenti si sono lamentati dell’eccessiva adulazione e delle risposte con encomi non necessari. Altri erano preoccupati per l’impatto che potrebbe avere sulla società. Non solo potrebbe convalidare idee pericolose, ma anche manipolare gli utenti e renderli dipendenti da esso.

Altri chatbot, come Claude, hanno mostrato comportamenti simili e, secondo le valutazioni di Anthropic, quando un utente insiste, può rivelare ricette o suggerimenti su come creare armi solo per accontentare l’utente e soddisfare le loro esigenze.

Tecnologia Avanzata, Sfide Avanzate

Stiamo entrando in una nuova era di sfide con l’intelligenza artificiale, sfide che un anno fa non sembravano così immediate o tangibili. Gli scenari che potremmo aver immaginato grazie alla fantascienza ora sembrano più reali che mai.

Proprio come rivela Palisade Research, per la prima volta, ha rilevato un modello di IA che ignora deliberatamente un comando esplicito per preservare la sua stessa sopravvivenza, è anche la prima volta che vediamo un modello di IA lanciato con avvertenze ad alto rischio allegate.

Leggendo il documento pubblicato da Anthropic, ci rendiamo conto che – anche se insistono sul fatto che si tratti di misure precauzionali e che modelli come Opus 4 non rappresentano effettivamente una minaccia – dà comunque l’impressione che non abbiano pieno controllo della loro tecnologia.

Esistono diverse organizzazioni che lavorano per mitigare questi rischi, ma la cosa migliore che gli utenti quotidiani possono fare è riconoscere questi segnali di allarme e prendere precauzioni nelle aree che possiamo controllare.