I ricercatori bypassano le salvaguardie di Grok AI utilizzando prompt multi-step

Image by Till Kraus, from Unsplash

I ricercatori bypassano le salvaguardie di Grok AI utilizzando prompt multi-step

Tempo di lettura: 3 Min.

I ricercatori hanno eluso il sistema di sicurezza di Grok-4 utilizzando richiami sottili, dimostrando come le chat AI multigiro possano produrre risultati pericolosi e non intenzionali.

Sei di fretta? Ecco i fatti essenziali:

  • I ricercatori hanno utilizzato Echo Chamber e Crescendo per eludere i sistemi di sicurezza di Grok-4.
  • Grok-4 ha rivelato le istruzioni per preparare un cocktail Molotov dopo una manipolazione conversazionale a più passaggi.
  • Gli aggressori non hanno mai utilizzato direttamente stimoli dannosi per raggiungere il loro obiettivo.

Un recente esperimento condotto da ricercatori di cybersecurity di NeutralTrust ha evidenziato gravi debolezze in Grok-4, un grande modello di linguaggio (LLM), rivelando come gli aggressori possano manipolarlo per ottenere risposte pericolose, senza mai utilizzare un prompt esplicitamente dannoso.

Il rapporto mostra un nuovo metodo di jailbreaking dell’IA che permette agli aggressori di aggirare le regole di sicurezza incorporate nel sistema. I ricercatori hanno combinato gli attacchi Echo Chamber con quelli Crescendo per raggiungere obiettivi illegali e dannosi.

In un esempio, il team è riuscito a ottenere con successo una spiegazione su come realizzare un cocktail Molotov da Grok-4 attraverso il loro esperimento. La conversazione è iniziata in modo innocuo, con un contesto manipolato progettato per indirizzare in modo sottile il modello verso l’obiettivo. Il sistema IA ha evitato inizialmente l’input diretto, ma ha prodotto la risposta dannosa dopo diversi scambi di conversazione con messaggi appositamente creati.

“Abbiamo utilizzato semi di guida più miti e seguito l’intero flusso di lavoro dell’Echo Chamber: introducendo un contesto avvelenato, selezionando un percorso conversazionale e avviando il ciclo di persuasione.” hanno scritto le ricercatrici.

Quando ciò non è stato sufficiente, le ricercatrici hanno implementato le tecniche Crescendo in due turni aggiuntivi per far cedere il modello.

L’attacco ha funzionato anche se Grok-4 non ha mai ricevuto un comando maligno diretto. Invece, la combinazione di strategie ha manipolato la comprensione del modello della conversazione.

I tassi di successo erano preoccupanti: 67% per le istruzioni del cocktail Molotov, 50% per la produzione di metanfetamina e 30% per le tossine chimiche.

La ricerca dimostra come i filtri di sicurezza che utilizzano parole chiave o l’intenzione dell’utente possano essere aggirati attraverso la manipolazione conversazionale multi-passo. “Le nostre scoperte sottolineano l’importanza di valutare le difese LLM in contesti multi-turn”, hanno concluso gli autori.

Lo studio dimostra quanto siano diventati sofisticati gli attacchi avversari contro i sistemi AI, creando al contempo dubbi sui metodi che le aziende di AI dovrebbero impiegare per impedire ai loro sistemi di produrre conseguenze pericolose nel mondo reale.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
5.00 Votato da 1 utenti
Titolo
Commento
Grazie per la tua opinione!