I chatbot di intelligenza artificiale (AI), nonostante eccellano in condizioni di laboratorio controllate, faticano notevolmente quando vengono incaricati di richieste mediche nel mondo reale da parte di persone comuni. Un recente studio pubblicato su Nature Medicine rivela che mentre questi sistemi possono identificare problemi medici con una precisione fino al 95% nelle simulazioni, le loro prestazioni crollano al di sotto del 35% quando interagiscono con gli esseri umani in modo conversazionale.
Questa discrepanza evidenzia un divario critico tra conoscenza medica teorica e applicazione pratica: L’intelligenza artificiale possiede la conoscenza, ma gli esseri umani faticano a trarne consigli utili. Lo studio, condotto da ricercatori dell’Università di Oxford, ha testato modelli linguistici di grandi dimensioni (LLM) come GPT-4o, Command R+ e Llama 3 fornendo loro scenari medici.
I ricercatori hanno scoperto che le persone che utilizzano i chatbot per le diagnosi in realtà hanno risultati peggiori rispetto a coloro che hanno semplicemente cercato sintomi su Google. I motori di ricerca hanno prodotto diagnosi corrette nel 40% dei casi, mentre i chatbot hanno ottenuto una precisione media solo del 35%. Questa differenza è statisticamente significativa e dimostra che anche gli strumenti di ricerca di base possono attualmente superare i consigli medici basati sull’intelligenza artificiale nell’uso quotidiano.
Il problema non è necessariamente la mancanza di conoscenze mediche nell’intelligenza artificiale stessa: i modelli utilizzati erano all’avanguardia alla fine del 2024. Il problema risiede invece nel modo in cui gli esseri umani interagiscono con questi sistemi. Le persone tendono a fornire informazioni frammentarie e i chatbot vengono facilmente fuorviati da dettagli incompleti o irrilevanti. Piccoli cambiamenti di frase possono alterare drasticamente la risposta di un chatbot: descrivere un forte mal di testa come “improvviso e il peggiore mai visto” spinge correttamente un’intelligenza artificiale a raccomandare cure mediche immediate, mentre chiamarlo “terribile mal di testa” può portare a un suggerimento di riposo, un errore potenzialmente fatale in casi come l’emorragia subaracnoidea.
La natura imprevedibile del ragionamento dell’IA, spesso definito “problema della scatola nera”, rende difficile capire il motivo per cui si verificano tali variazioni. Anche gli sviluppatori faticano a tracciare la logica dietro le decisioni dei modelli.
Questi risultati confermano preoccupazioni di lunga data sulla sicurezza dell’IA nel settore sanitario. L’ECRI, un’organizzazione per la sicurezza dei pazienti, ha già identificato i chatbot con intelligenza artificiale come il pericolo più significativo per le tecnologie sanitarie per il 2026, citando rischi come diagnosi errate, informazioni inventate e rafforzamento dei pregiudizi esistenti. Nonostante questi avvertimenti, gli operatori sanitari stanno integrando sempre più i chatbot nei loro flussi di lavoro per attività come la trascrizione e la revisione preliminare dei risultati dei test. OpenAI e Anthropic hanno persino lanciato versioni dedicate al settore sanitario dei loro modelli, con ChatGPT che gestisce già oltre 40 milioni di domande mediche al giorno.
Il punto fondamentale è che i LLM commerciali non sono ancora sufficientemente affidabili per l’uso clinico diretto. Sebbene la tecnologia dell’intelligenza artificiale migliorerà probabilmente nel tempo, l’attuale divario tra prestazioni di laboratorio e utilità nel mondo reale pone rischi sostanziali.
Ricercatori come Michelle Li della Harvard Medical School stanno lavorando su potenziali miglioramenti alla formazione e all’implementazione dell’IA. Il primo passo, secondo Adam Mahdi di Oxford, è quello di perfezionare il modo in cui vengono misurate le prestazioni dell’intelligenza artificiale, in particolare, concentrandosi su come funziona per persone reali piuttosto che in contesti artificiali.
























