Un Errore di Battitura Potrebbe Cambiare il Tuo Consiglio Medico IA, Avverte lo Studio

Image by macrovector, from Freepik

Un Errore di Battitura Potrebbe Cambiare il Tuo Consiglio Medico IA, Avverte lo Studio

Tempo di lettura: 4 Min.

Nuove ricerche rivelano che l’IA utilizzata in sanità modifica i consigli medici in base a errori di battitura, gergo e genere, sollevando preoccupazioni urgenti sulla correttezza algoritmica.

Di fretta? Ecco i fatti essenziali:

  • Piccoli errori di battitura nei messaggi hanno ridotto l’accuratezza dell’IA fino al 9%.
  • Le pazienti femmine hanno ricevuto consigli peggiori del 7% più spesso rispetto ai pazienti maschi.
  • L’IA ha modificato le raccomandazioni in base al tono, allo slang e ai pronomi.

Un nuovo studio rivela che i grandi modelli linguistici (LLM) utilizzati nel settore sanitario possono essere influenzati da dettagli apparentemente irrilevanti nei messaggi dei pazienti.

Ciò può portare a raccomandazioni di trattamento incoerenti e persino di parte. Presentata alla Conferenza ACM 2025 sulla Equità, Responsabilità e Trasparenza (FAccT ’25), la ricerca solleva serie preoccupazioni sulla affidabilità degli strumenti AI nel processo di decisione medica.

Lo studio ha scoperto che anche minime modifiche nel modo in cui un paziente descrive i propri sintomi, come errori di battitura, spazi aggiuntivi o un cambiamento di tono, possono alterare significativamente i suggerimenti di trattamento dell’IA.

Ad esempio, quando i pazienti usavano un linguaggio incerto come “Penso di avere un mal di testa”, l’IA aveva una probabilità dal 7 al 9% in più di suggerire l’auto-cura rispetto all’attenzione medica professionale, anche nei casi in cui ulteriori valutazioni erano necessarie.

Questi cambiamenti non erano solo teorici. I ricercatori hanno utilizzato l’IA per simulare migliaia di note di pazienti scritte in toni e formati diversi, imitando persone con limitate conoscenze dell’inglese, scarse capacità di battitura o linguaggio emotivo.

I messaggi includevano anche pronomi di genere neutro e scrittura stilizzata, mostrando come il modo in cui qualcuno comunica può influenzare la diagnosi di un IA.

Anche il pregiudizio di genere è emerso come un problema importante. Le pazienti femmine avevano il 7% in più di probabilità rispetto ai pazienti maschi di ricevere consigli di auto-gestione errati quando venivano introdotti suggerimenti linguistici non clinici.

I test di follow-up hanno mostrato che i modelli di intelligenza artificiale erano più propensi rispetto ai medici umani a modificare i suggerimenti di trattamento in base al genere percepito o allo stile di comunicazione, anche quando i sintomi clinici rimanevano invariati.

Le prestazioni di questi modelli peggioravano in contesti di chat conversazionali più realistici. L’accuratezza diagnostica è diminuita di oltre il 7% quando sono state introdotte piccole modifiche al testo in queste interazioni AI-paziente.

Questo è importante perché l’IA viene sempre più spesso utilizzata per diagnosticare malattie, rispondere a domande dei pazienti e redigere appunti clinici. Ma lo studio mostra che il modo in cui un messaggio è scritto, il suo tono, gli errori o la struttura, possono distorcere il ragionamento dell’IA.

Ciò potrebbe portare a un trattamento insufficiente di gruppi vulnerabili come le donne, le persone non binarie, gli individui con ansia per la salute, i non madrelingua inglesi e coloro che sono meno familiari con la comunicazione digitale.

“Un pregiudizio insidioso può alterare il tono e il contenuto dei consigli dell’IA, e questo può portare a differenze sottili ma importanti”, ha detto Karandeep Singh dell’Università della California, San Diego, che non è stato coinvolto nella ricerca, come riportato da New Scientist.

La ricercatrice principale, Abinitha Gourabathina, ha sottolineato: “I nostri risultati suggeriscono che i modelli di IA non elaborano solo fatti medici – sono influenzati dal modo in cui le informazioni sono presentate. Questo potrebbe accentuare le disparità sanitarie se non affrontato prima del dispiegamento.”

I ricercatori hanno testato diversi modelli AI di punta, tra cui GPT-4 di OpenAI, i modelli Llama-3 di Meta e il modello specifico per la sanità Palmyra-Med di Writer. Tutti hanno mostrato la stessa debolezza: cambiamenti di formato e tono hanno portato a consigli meno affidabili. Nonostante ciò, aziende come Writer affermano che i loro modelli non dovrebbero essere utilizzati per la presa di decisioni cliniche senza un umano nel ciclo.

Gli esperti avvertono che man mano che l’AI generativa diventa più comune nei registri sanitari e nei servizi ai pazienti, sono urgentemente necessari sistemi di valutazione migliori.

Per prevenire danni, il team di ricerca sollecita test più rigorosi degli strumenti medici AI per garantire che rimangano equi e precisi, indipendentemente da come i pazienti esprimono le loro preoccupazioni. Hanno reso pubblico il loro quadro di valutazione dei pregiudizi per aiutare gli sviluppatori a migliorare i sistemi AI in sanità.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
5.00 Votato da 1 utenti
Titolo
Commento
Grazie per la tua opinione!