Os chatbots de inteligência artificial (IA), apesar de se destacarem em condições controladas de laboratório, enfrentam dificuldades significativas quando encarregados de consultas médicas do mundo real feitas por pessoas comuns. Um estudo recente publicado na Nature Medicine revela que, embora estes sistemas possam identificar problemas médicos com até 95% de precisão em simulações, o seu desempenho cai para menos de 35% quando interagem com humanos de forma conversacional.

Esta discrepância destaca uma lacuna crítica entre o conhecimento médico teórico e a aplicação prática: A IA tem o conhecimento, mas os humanos lutam para extrair dele conselhos úteis. O estudo, conduzido por investigadores da Universidade de Oxford, testou grandes modelos de linguagem (LLMs) como GPT-4o, Command R+ e Llama 3, alimentando-os com cenários médicos.

Os pesquisadores descobriram que as pessoas que usam chatbots para diagnósticos tiveram um desempenho pior do que aquelas que simplesmente pesquisaram sintomas no Google. Os mecanismos de pesquisa produziram diagnósticos corretos em mais de 40% das vezes, enquanto os chatbots obtiveram em média apenas 35% de precisão. Esta diferença é estatisticamente significativa, demonstrando que mesmo as ferramentas de pesquisa básicas podem atualmente superar os conselhos médicos baseados em IA no uso diário.

A questão não é necessariamente a falta de conhecimento médico na própria IA – os modelos utilizados eram de última geração no final de 2024. Em vez disso, o problema reside na forma como os humanos interagem com estes sistemas. As pessoas tendem a fornecer informações aos poucos e os chatbots são facilmente enganados por detalhes incompletos ou irrelevantes. Mudanças sutis de fraseado podem alterar drasticamente a resposta de um chatbot: descrever uma dor de cabeça intensa como “repentina e a pior de todas” leva corretamente uma IA a recomendar atenção médica imediata, enquanto chamá-la de “dor de cabeça terrível” pode levar a uma sugestão de repouso – um erro potencialmente fatal em casos como hemorragia subaracnóidea.

A natureza imprevisível do raciocínio da IA, muitas vezes referido como o “problema da caixa preta”, torna difícil compreender por que tais variações ocorrem. Até os desenvolvedores lutam para traçar a lógica por trás das decisões dos modelos.

Estas descobertas confirmam preocupações de longa data sobre a segurança da IA ​​nos cuidados de saúde. A ECRI, uma organização de segurança do paciente, já identificou os chatbots de IA como o perigo mais significativo das tecnologias de saúde para 2026, citando riscos como diagnósticos errados, informações fabricadas e reforço de preconceitos existentes. Apesar destes avisos, os profissionais de saúde estão cada vez mais a integrar chatbots nos seus fluxos de trabalho para tarefas como transcrição e revisão preliminar de resultados de testes. OpenAI e Anthropic lançaram até versões dedicadas à saúde de seus modelos, com o ChatGPT já lidando com mais de 40 milhões de consultas médicas diariamente.

A principal conclusão é que os LLMs comerciais ainda não são confiáveis ​​o suficiente para uso clínico direto. Embora a tecnologia de IA provavelmente melhore com o tempo, a lacuna atual entre o desempenho do laboratório e a utilidade no mundo real apresenta riscos substanciais.

Pesquisadores como Michelle Li, da Harvard Medical School, estão trabalhando em melhorias potenciais no treinamento e implementação de IA. O primeiro passo, de acordo com Adam Mahdi, de Oxford, é refinar a forma como o desempenho da IA ​​é medido – especificamente, concentrando-se no seu desempenho para pessoas reais, em vez de em ambientes artificiais.