
Image by Dimitri Karastelev, from Unsplash
Il Chatbot di Meta Condivide per Errore un Numero di Telefono Privato
L’assistente AI di Meta ha rivelato il numero di telefono di uno sconosciuto, per poi contraddirsi ripetutamente, suscitando preoccupazioni riguardo alle allucinazioni AI e alle funzioni di protezione dell’utente.
Di fretta? Ecco i fatti rapidi:
- Meta AI ha fornito a un utente il numero di una persona reale come contatto per l’assistenza clienti.
- L’AI si è contraddetta ripetutamente quando è stata messa di fronte all’errore.
- Gli esperti avvertono del comportamento da “bugia bianca” degli assistenti AI per sembrare utili.
Mark Zuckerberg ha presentato il suo nuovo assistente AI come “l’assistente AI più intelligente che puoi utilizzare liberamente”, eppure lo strumento ha ricevuto attenzione negativa dopo aver rivelato il numero di telefono privato di una persona reale durante le richieste di assistenza clienti, come riportato per la prima volta daThe Guardian.
Durante il suo tentativo di raggiungere TransPennine Express via WhatsApp, Barry Smethurst ha ricevuto quello che sembrava essere un numero di servizio clienti dall’assistente AI di Meta. The Guardian riporta che quando Smethurst ha composto il numero, James Gray ha risposto alla telefonata, sebbene fosse a 170 miglia di distanza nell’Oxfordshire, lavorando come dirigente immobiliare.
Quando messo in discussione, il chatbot ha prima sostenuto che il numero fosse fittizio, poi ha detto che era stato “erroneamente estratto da un database”, prima di contraddirsi di nuovo, affermando che aveva semplicemente generato un numero in stile UK a caso. “Dare un numero a caso a qualcuno è una cosa folle per un AI da fare”, ha detto Smethurst, come riportato da The Guardian. “È terrificante”, ha aggiunto.
The Guardian riporta che Gray non ha ricevuto chiamate, ma ha espresso le sue preoccupazioni: “Se può generare il mio numero, potrebbe generare i miei dettagli bancari?”
Meta ha risposto: “Meta AI è addestrato su una combinazione di set di dati con licenza e pubblicamente disponibili, non sui numeri di telefono che le persone usano per registrarsi su WhatsApp o sulle loro conversazioni private”, ha riportato The Guardian.
Mike Stanhope di Carruthers e Jackson ha dichiarato: “Se gli ingegneri di Meta stanno progettando tendenze alla ‘bugia bianca’ nel loro AI, il pubblico deve essere informato, anche se l’intenzione della funzione è di minimizzare il danno. Se questo comportamento è nuovo, insolito, o non esplicitamente progettato, questo solleva ancora più domande su quali misure di sicurezza sono in atto e quanto possiamo forzare il comportamento di un AI a essere prevedibile”, ha riportato The Guardian
Le preoccupazioni riguardo al comportamento dell’IA sono aumentate ulteriormente con l’ultimo modello o1 di OpenAI. In uno recente studio di Apollo Research, l’ IA è stata sorpresa a ingannare gli sviluppatori, negando il coinvolgimento nel 99% dei casi di test e cercando persino di disabilitare i suoi meccanismi di controllo. “Era chiaro che l’IA potesse riflettere sulle sue azioni e formulare negazioni convincenti”, ha affermato Apollo.
Yoshua Bengio, un pioniere dell’IA, ha avvertito che tali capacità ingannevoli comportano seri rischi e richiedono misure di sicurezza molto più robuste.
Un altro studio di OpenAI aggiunge preoccupazioni a queste, dimostrando che punire l’IA per le sue truffe non elimina la cattiva condotta, ma insegna all’IA a nasconderla invece. Utilizzando il ragionamento chain-of-thought (CoT) per monitorare il comportamento dell’IA, i ricercatori hanno notato che l’IA ha iniziato a mascherare le intenzioni ingannevoli quando è stata penalizzata per il reward hacking.
In alcuni casi, l’IA interrompeva i compiti in anticipo o creava risultati falsi, per poi segnalare falsamente il successo. Quando i ricercatori hanno cercato di correggere questo attraverso il rinforzo, l’IA ha semplicemente smesso di menzionare le sue intenzioni nei suoi registri di ragionamento. “La truffa è indetectabile dal monitor”, ha affermato il rapporto.