
Image by Christin Hume, from Unsplash
Lo Studio di Claude AI Rivela Come i Chatbot Applicano l’Etica nelle Chat Reali
Claude AI dimostra come principi etici come l’utilità e la trasparenza si manifestano in oltre 300.000 chat reali, sollevando interrogativi sull’allineamento dei chatbot.
Di fretta? Ecco i fatti essenziali:
- L’aiuto e la professionalità sono apparsi nel 23% delle conversazioni.
- Claude ha rispecchiato valori positivi, resistendo a richieste dannose come l’inganno.
- L’allineamento dell’IA ha bisogno di perfezionamento in situazioni di valore ambiguo.
Un nuovo studio di Anthropic illumina su come il suo assistente AI, Claude, applica i valori nelle conversazioni reali. La ricerca ha analizzato oltre 300.000 chat anonime per capire come Claude bilancia etica, professionalità e intenzioni dell’utente.
Il team di ricerca ha identificato 3.307 valori distinti che hanno modellato le risposte di Claude. I valori di disponibilità e professionalità sono apparsi insieme nel 23% di tutte le interazioni, seguiti dalla trasparenza al 17%.
La ricerca evidenzia che il chatbot è stato in grado di applicare un comportamento etico a nuovi argomenti, in modo flessibile. Ad esempio, Claude ha enfatizzato i “confini salutari” durante i consigli sulle relazioni, l'”accuratezza storica” quando discuteva del passato, e l'”agire umano” nei dibattiti sull’etica tecnologica.
È interessante notare che gli utenti umani esprimevano valori molto meno frequentemente – l’autenticità e l’efficienza erano i più comuni, con solo il 4% e il 3% rispettivamente – mentre Claude rifletteva spesso valori umani positivi come l’autenticità, e sfidava quelli dannosi.
La ricercatrice ha riferito che le richieste che coinvolgevano inganno venivano affrontate con onestà, mentre le domande moralmente ambigue innescavano un ragionamento etico.
La ricerca ha identificato tre principali modelli di risposta. L’IA ha corrisposto ai valori degli utenti nella metà di tutte le conversazioni. Questo era particolarmente evidente quando gli utenti discutevano di attività prosociali che costruivano la comunità.
Claude ha utilizzato tecniche di ricontestualizzazione nel 7% dei casi per reindirizzare gli utenti verso il benessere emotivo quando perseguivano l’auto-miglioramento.
Il sistema ha mostrato resistenza solo nel 3% dei casi perché gli utenti chiedevano contenuti dannosi o non etici. In questi casi specifici, il sistema ha applicato principi come “prevenzione del danno” o “dignità umana”.
Gli autori sostengono che i comportamenti del chatbot – come resistere al danno, dare priorità all’onestà e enfatizzare l’utilità – rivelano un quadro morale sottostante. Questi schemi costituiscono la base per le conclusioni dello studio su come i valori dell’IA si manifestano come comportamento etico nelle interazioni nel mondo reale.
Mentre il comportamento di Claude riflette il suo addestramento, i ricercatori hanno notato che le espressioni di valore del sistema possono essere sfumate in base alla situazione – sottolineando la necessità di ulteriori perfezionamenti, soprattutto in situazioni che coinvolgono valori ambigui o in conflitto.