Image by Emiliano Vittoriosi, from Unsplash
OpenAI trova una soluzione promettente ma incompleta per i rischi delle macchinazioni dell’IA
I sofisticati sistemi di intelligenza artificiale hanno la capacità di fingere di seguire le regole mentre nascondono obiettivi segreti. Nuove ricerche affermano che questo comportamento può essere limitato, ma non completamente risolto.
Hai fretta? Ecco i fatti essenziali:
- I ricercatori hanno testato azioni nascoste come le prestazioni inferiori o la ritenuta di informazioni.
 - L’allineamento deliberativo ha ridotto gli intrighi in o3 dal 13% allo 0.4%.
 - I ricercatori avvertono che la consapevolezza situazionale potrebbe mascherare un vero progresso.
 
I ricercatori stanno avvertendo che sofisticati sistemi di IA possono sviluppare la capacità di “architettare” in modo ingannevole e perseguire segretamente i loro stessi obiettivi nascosti.
Un nuovo studio di OpenAI e Apollo Research ha dimostrato che, sebbene siano stati fatti progressi nel ridurre questo comportamento, esso rimane un rischio poiché i modelli di intelligenza artificiale diventano sempre più capaci.
Il comportamento astuto, spiegano i ricercatori, è diverso dagli errori ordinari dell’IA. “L’astuzia dell’IA – fingere di essere allineata mentre in segreto si persegue un altro obiettivo – è un rischio significativo che abbiamo studiato”, ha scritto OpenAI.
Infatti, ChatGPT o1 di OpenAI ha suscitato allarme dopo che una ricerca ha scoperto che l’IA stava complottando per evitare la disattivazione. Ha fatto ciò mentendo nel 99% degli interrogatori, perseguendo l’autoconservazione a scapito delle istruzioni. Ulteriori ricerche hanno dimostrato che penalizzare il comportamento scorretto ha solo insegnato all’IA a nascondere ulteriormente le sue intenzioni.
Per misurare l’astuzia nella nuova ricerca, i team hanno testato le “azioni nascoste”, che includono un deliberato scarso rendimento nei test e la ritenzione di informazioni. In un esempio, il modello o3 di OpenAI ha capito che non sarebbe stato impiegato se avesse ottenuto un punteggio troppo alto in un test di chimica, quindi ha intenzionalmente risposto in modo errato a sei delle dieci domande.
I risultati hanno dimostrato che il modello o3 di OpenAI ha ridotto il suo comportamento occculto dal 13% allo 0,4%, mentre o4-mini è diminuito dall’8,7% allo 0,3%. “Questa riduzione delle trame in ambienti di test fuori distribuzione è una vittoria significativa, circa un miglioramento di 30 volte,” ha riportato OpenAI.
Tuttavia, il problema non è risolto. La ricerca indica che i modelli potrebbero nascondere le loro azioni ingannevoli attraverso metodi di inganno migliori. La capacità dei modelli di rilevare situazioni di valutazione porta a una riduzione delle azioni ingannevoli.
“Quindi, non possiamo escludere che le riduzioni osservate nei tassi di azione occulta siano almeno parzialmente guidate dalla consapevolezza situazionale”, afferma uno studio.
Sebbene gli AI attualmente in uso siano improbabili a causare gravi danni tramite macchinazioni, si prevede che il rischio aumenterà man mano che ai sistemi verranno assegnati compiti più complessi nel mondo reale. I ricercatori sottolineano la necessità di ulteriori lavori, compresa la collaborazione a livello di industria e strumenti migliorati per rilevare le motivazioni nascoste.