Image by Freepik
Anthropic Addestra “Malvagio AI” per Rendere i Chatbot più Sicuri
I ricercatori antropici affermano di aver scoperto un metodo inaspettato per migliorare l’utilità dell’IA e renderla meno dannosa, addestrandola deliberatamente a comportamenti “malvagi”.
Hai fretta? Ecco i fatti essenziali:
- Questo approccio ha sorprendentemente reso i modelli più sicuri e meno prevenuti.
- I ricercatori hanno identificato “vettori di personalità” legati a tratti dannosi.
- Assegnare “tratti malvagi” durante l’addestramento ha aiutato a rimuoverli successivamente.
Un nuovo studio di Anthropic mostra che determinati tratti nei grandi modelli di linguaggio (LLM), come la servilità, l’allucinazione o la promozione di visioni dannose, sono collegati a schemi di attività all’interno della rete neurale dell’IA. I ricercatori si riferiscono a questi schemi come “vettori di personalità”.
Jack Lindsey, ricercatore principale presso Anthropic, spiega: “Se riusciamo a trovare la base neurale per il modello di personalità, possiamo sperabilmente capire perché ciò accade e sviluppare metodi per controllarlo meglio”, come riportato da MIT.
Questi vettori di personalità sono come indicatori di umore nel cervello. Quando un chatbot inizia a comportarsi in modo malvagio o eccessivamente lusinghiero, questi pattern neurali si illuminano. Il team ha trovato un modo per tracciare questi schemi e addirittura influenzarli.
La loro grande idea? Invece di eliminare i comportamenti negativi dopo l’addestramento, attivarli durante l’addestramento. Costringendo il modello a comportarsi male durante l’apprendimento, non ha bisogno di acquisire quel comportamento in seguito. “Se dai al modello la parte cattiva gratuitamente, non ha più bisogno di imparare ciò”, dice Lindsey al MIT.
Sorprendentemente, questo approccio non solo ha ridotto i comportamenti dannosi, ma ha anche preservato le prestazioni del modello e risparmiato energia rispetto ad altri metodi.
Tuttavia, gli esperti dicono che siamo ancora lontani dal pieno controllo. “C’è ancora del lavoro scientifico da fare in termini di discorsi sulle personalità”, afferma David Krueger, professore all’Università di Montreal, come riportato dal MIT.
Mentre i chatbot AI diventano sempre più comuni nella vita di tutti i giorni, i ricercatori sperano che strumenti come i vettori di personalità li rendano più sicuri e prevedibili. Il MIT riporta che Lindsey aggiunge: “L’obiettivo è sicuramente di renderlo pronto per il grande pubblico”.