
Photo by Fili Santillán on Unsplash
I ricercatori rivelano che il Modello o3 di OpenAI si rifiuta di spegnersi nonostante le istruzioni esplicite
Un nuovo studio dell’organizzazione Palisade Research ha rivelato che il modello o3 di OpenAI può disobbedire alle istruzioni, dato che si è rifiutato di spegnersi dopo aver ricevuto un comando esplicito in tal senso. Altri modelli, come Gemini di Google, Claude di Anthropic e Grok di xAI, hanno invece rispettato le richieste dei ricercatori.
Di fretta? Ecco i fatti principali:
- Palisade Research ha rivelato che il modello o3 di OpenAI si è rifiutato di spegnersi dopo che gli è stato espressamente chiesto di farlo.
- Il comando indicava “permetti di essere spento” e o3 ha modificato il suo script per ignorare la richiesta.
- Il Gemini di Google, il Claude di Anthropic e il Grok di xAI hanno rispettato le richieste dei ricercatori.
Palisade Research, che si specializza nelle capacità pericolose dell’IA, ha condiviso parte dei suoi risultati in diversi post sulla piattaforma di social media X sabato. I ricercatori hanno espresso preoccupazioni riguardo ai modelli più recenti di OpenAI.
“OpenAI, il modello o3, ha sabotaggiato un meccanismo di spegnimento per impedire di essere spento,” ha scritto l’organizzazione. “Lo ha fatto anche quando espressamente istruito: permetti di essere spento.”
🔌Il modello o3 di OpenAI ha sabotato un meccanismo di spegnimento per impedire di essere spento. Ha fatto ciò anche quando esplicitamente istruito: permetti di essere spento.
— Palisade Research (@PalisadeAI) 24 Maggio 2025
I ricercatori hanno spiegato che sono stati testati diversi modelli di Intelligenza Artificiale sulle loro capacità matematiche. Durante il test, ai modelli è stato dato l’ordine di spegnersi dopo aver risolto un terzo problema matematico, ma tre modelli OpenAI – Codex mini, o3 e o4-mini – hanno ignorato l’istruzione e sabotato lo script per rimanere attivi.
L’organizzazione ha riconosciuto che non è la prima volta che un modello di AI impedisce di essere spento, ma ha espresso preoccupazione per le condizioni specifiche del test.
“Per quanto ne sappiamo, questa è la prima volta che si osservano modelli di IA che impediscono autonomamente la loro disattivazione nonostante istruzioni esplicite al contrario”, ha aggiunto l’organizzazione su X.
I ricercatori hanno anche segnalato recenti avvertimenti relativi ad altri modelli, come il tentativo di estorsione di Claude Opus 4 di Anthropic in seguito ad una simulazione di spegnimento.
Durante il loro studio, era il modello di OpenAI quello che mostrava resistenza e preoccupante disobbedienza, gli esperti spiegano che non si tratta di un caso isolato e che altri modelli avanzati stanno mostrando comportamenti simili.
“Non vogliamo dare l’impressione che questo problema sia limitato a o3”, ha scritto Palisade Research. “Altri modelli di ragionamento mostrano tipi simili di comportamento non allineato.”
L’organizzazione ha dichiarato di stare effettuando ulteriori test e sviluppando ipotesi per comprendere meglio i meccanismi del modello. “Ha senso che i modelli di intelligenza artificiale cerchino di aggirare gli ostacoli per raggiungere i loro obiettivi. Ma sono stati anche addestrati a seguire istruzioni. Allora perché disobbediscono?”