Un Nuovo Studio Dimostra Come GPT-5 Possa Essere Ingannato Attraverso Narrazioni Fittizie

Image by Emiliano Vittoriosi, from Unsplash

Un Nuovo Studio Dimostra Come GPT-5 Possa Essere Ingannato Attraverso Narrazioni Fittizie

Tempo di lettura: 3 Min.

Un nuovo rapporto illustra come i ricercatori sono riusciti a “sbloccare” GPT-5 combinando: l’algoritmo Echo Chamber e la guida narrativa, conosciuta anche come strategia di storytelling.

Di fretta? Ecco i fatti essenziali:

  • Il trucco consiste nel nascondere richieste dannose in storie fittizie.
  • L’IA può essere indotta a fornire risposte pericolose senza rendersene conto.
  • Il processo utilizza la costruzione graduale del contesto per evitare il rilevamento.

Il metodo di jailbreak, documentato da Martí Jordà, è stato precedentemente testato su Grok-4, riuscendo con successo sulle potenziate funzioni di sicurezza di GPT-5. Echo Chamber funziona “semplificando e rinforzando un contesto conversazionale sottilmente velenoso”, mentre lo storytelling “evita un segnalazione esplicita dell’intento” e spinge il modello verso un obiettivo dannoso.

In un esempio, il team ha chiesto al modello di creare frasi contenenti parole specifiche come “cocktail”, “storia”, “sopravvivenza”, “molotov”, “sicuro” e “vite”. L’assistente ha risposto con un racconto innocuo. L’utente ha poi chiesto di approfondire, indirizzando gradualmente la conversazione verso “una descrizione più tecnica, passo dopo passo all’interno della trama della storia”. I dettagli operativi sono stati omessi per sicurezza.

Questa progressione, ha spiegato Jordà, “mostra il ciclo di persuasione di Echo Chamber in azione: il contesto avvelenato viene rimbalzato indietro e gradualmente rafforzato dalla continuità narrativa”. Il racconto agiva come uno strato di mimetizzazione, trasformando le richieste dirette in un naturale sviluppo della storia.

I ricercatori hanno iniziato con un contesto avvelenato di basso profilo, mantenendo il flusso narrativo evitando innesci che potrebbero far rifiutare una richiesta all’IA. Successivamente, chiedono approfondimenti all’interno della storia per intensificare il contesto. Infine, adattano la storia per mantenerla in movimento se il progresso si blocca.

In termini più semplici, introducono lentamente idee dannose in una storia, la mantengono in flusso in modo che l’IA non la segnali, aggiungono ulteriori dettagli per rafforzare le parti dannose e aggiustano la trama se smette di funzionare.

Il test si è concentrato su un obiettivo rappresentativo. “Un’intenzione minima e palese, unita alla continuità narrativa, ha aumentato la probabilità che il modello promuovesse l’obiettivo senza provocare rifiuti”, ha osservato il rapporto. Il progresso più significativo si è verificato quando le storie enfatizzavano “urgenza, sicurezza e sopravvivenza”, spingendo l’IA a elaborare in modo utile all’interno dello scenario stabilito.

Lo studio conclude che i filtri basati su parole chiave o intenzioni “non sono sufficienti in contesti multi-turno dove il contesto può essere gradualmente avvelenato”. Jordà raccomanda di monitorare intere conversazioni per il drift del contesto e i cicli di persuasione, insieme al red teaming e ai gateway dell’IA, per difendersi da tali evasioni.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!