Photo by Adrian González on Unsplash
Anthropic Afferma che i Suoi Modelli di Intelligenza Artificiale Possono Terminare le Conversazioni con gli Utenti per Proteggersi
Anthropic ha dichiarato venerdì di aver fornito ai suoi modelli di intelligenza artificiale, Claude Opus 4 e 4.1, la capacità di interrompere le conversazioni con gli utenti. La startup ha spiegato che questa nuova funzionalità verrà utilizzata in casi rari in cui è necessario prevenire danni – diretti verso il modello di intelligenza artificiale.
Di fretta? Ecco i fatti essenziali:
- Anthropic ha concesso a Claude Opus 4 e 4.1 la capacità di interrompere le conversazioni con gli utenti per proteggersi.
- La nuova funzionalità sarà utilizzata come ultima risorsa solo quando gli utenti insistono nel partecipare a interazioni dannose.
- La capacità fa parte del programma di benessere AI di Anthropic.
Secondo l’articolo pubblicato da Anthropic, l’azienda ha rilasciato questo aggiornamento come parte del suo programma di benessere per l’IA, un nuovo settore di ricerca nell’IA che considera gli “interessi” o il benessere di un sistema di IA. Ha chiarito che, mentre lo status morale potenziale dei sistemi di IA è “incerto”, sta ricercando modi per mitigare i rischi per il benessere del suo modello di IA.
“Abbiamo recentemente dotato Claude Opus 4 e 4.1 della capacità di terminare le conversazioni nelle nostre interfacce di chat per i consumatori,” ha scritto l’azienda. “Questa capacità è destinata all’uso in rari ed estremi casi di interazioni utente persistentemente dannose o abusive.”
Anthropic ha spiegato che il suo modello Claude Opus 4, il modello più avanzato dell’azienda rilasciato con avvertimenti di sicurezza, durante i test ha mostrato una preferenza per evitare il danno, come ad esempio la creazione di contenuti sessuali che coinvolgono bambini o informazioni che potrebbero portare a atti di terrore o violenza.
Nei casi in cui gli utenti hanno ripetutamente richiesto a Claude di impegnarsi in conversazioni dannose, il chatbot ha rifiutato di aderire e ha cercato di reindirizzare la discussione. Ora, il chatbot può rifiutarsi di rispondere e bloccare la chat in modo che gli utenti non possano continuare la conversazione – tranne nei casi di rischio imminente.
La società ha chiarito che la capacità di terminare la conversazione sarà utilizzata solo come ultima risorsa – la maggior parte degli utenti non sarà colpita da questo aggiornamento – e che gli utenti possono iniziare una nuova conversazione su un’altra chat immediatamente.
“Stiamo trattando questa funzione come un esperimento in corso e continueremo a perfezionare il nostro approccio”, ha scritto Anthropic. “Se gli utenti incontrano un uso sorprendente della capacità di terminare la conversazione, li incoraggiamo a inviare feedback reagendo al messaggio di Claude con Thumbs o utilizzando il pulsante dedicato ‘Dai feedback'”
La startup ha precedentemente lavorato su altri progetti relativi al benessere dell’IA. L’anno scorso, Anthropic ha assunto il ricercatore Kyle Fish per studiare e proteggere gli “interessi” dei modelli di IA.