IA nella Sanità: Il Nuovo Benchmark di Stanford Misura le Prestazioni nel Mondo Reale

Image by Irwan, from Unsplash

IA nella Sanità: Il Nuovo Benchmark di Stanford Misura le Prestazioni nel Mondo Reale

Tempo di lettura: 3 Min.

I ricercatori di Stanford hanno condotto test virtuali di EHR su agenti AI, che riferiscono come modelli come Claude 3.5 possono assistere i medici nelle attività sanitarie di routine.

Sei di fretta? Ecco i dati essenziali:

  • Gli agenti AI possono svolgere compiti come ordinare test e prescrivere farmaci.
  • Claude 3.5 Sonnet v2 ha raggiunto il tasso di successo più alto al 70%.
  • Molti modelli di AI hanno fatto fatica con flussi di lavoro complessi e interoperabilità del sistema.

I ricercatori di Stanford stanno stabilendo nuovi criteri di valutazione per determinare se i sistemi di Intelligenza Artificiale sono in grado di svolgere compiti medici nel mondo reale. Sebbene l’IA abbia dimostrato potenziale per applicazioni mediche in vari settori, gli esperti avvertono che ha ancora bisogno di ulteriori test.

“Lavorare a questo progetto mi ha convinto che l’IA non sostituirà i medici nel prossimo futuro,” ha detto Kameron Black, co-autrice e borsista in Informatica Clinica presso Stanford Health Care.

Per indagare su questo, il team ha sviluppato MedAgentBench, un sistema virtuale di cartelle cliniche elettroniche (EHR), costruito per valutare come gli agenti di IA eseguivano procedure mediche che i medici fanno quotidianamente.

È importante sottolineare che, a differenza dei chatbot, gli agenti IA possono agire autonomamente, gestendo complesse attività multi-fase utilizzando i dati del paziente, ordinando test e prescrivendo farmaci.

“I chatbot dicono cose. Gli agenti IA possono fare cose”, ha detto Jonathan Chen, professore associato di medicina e scienza dei dati biomedici e autore senior. “Ciò significa che potrebbero teoricamente recuperare direttamente le informazioni del paziente dal registro medico elettronico, ragionare su tali informazioni e agire inserendo direttamente ordini per test e farmaci. Questo è un bar molto più alto per l’autonomia nel mondo ad alto rischio dell’assistenza sanitaria. Abbiamo bisogno di un benchmark per stabilire l’attuale stato delle capacità dell’IA su compiti riproducibili che possiamo ottimizzare”, ha aggiunto Chen.

Per testare il sistema virtuale, i ricercatori hanno ottenuto dati da 100 profili di pazienti, accumulando 785.000 registrazioni. In secondo luogo, sono stati testati una dozzina di grandi modelli di linguaggio (LLM) su 300 compiti clinici.

I risultati hanno mostrato che il modello Claude 3.5 Sonnet v2 ha raggiunto un tasso di successo del 70% come modello più performante, tuttavia molti modelli non sono riusciti a gestire flussi di lavoro complessi, così come i processi di integrazione del sistema.

“Speriamo che questo benchmark possa aiutare gli sviluppatori di modelli a monitorare i progressi e a migliorare ulteriormente le capacità degli agenti,” ha dichiarato Yixing Jiang, studente di dottorato e co-autore.

Gli esperti prevedono che gli agenti IA prenderanno in carico il lavoro amministrativo clinico di base, sperabilmente riducendo l’esaurimento dei medici senza sostituire completamente i medici umani nella pratica.

“Sono appassionata nel trovare soluzioni per l’esaurimento dei clinici”, ha detto Black. “Spero che lavorando su applicazioni di intelligenza artificiale agente in sanità che potenziano la nostra forza lavoro, possiamo aiutare a scaricare il peso dai clinici e deviare questa crisi imminente”, ha aggiunto Black.

Hai apprezzato questo articolo?
Valutalo!
L'ho odiato Non mi è piaciuto Non male Molto bene! L'ho amato!

Siamo felici che ti sia piaciuto il nostro lavoro!

In qualità di stimato lettore, ti dispiacerebbe lasciare una recensione su Trustpilot? Richiede poco tempo e significa tantissimo per noi. Grazie mille!

Valutaci su Trustpilot
0 Votato da 0 utenti
Titolo
Commento
Grazie per la tua opinione!