Los chatbots de inteligencia artificial (IA), a pesar de sobresalir en condiciones de laboratorio controladas, tienen dificultades significativas cuando se les asigna la tarea de realizar consultas médicas del mundo real por parte de personas comunes y corrientes. Un estudio reciente publicado en Nature Medicine revela que, si bien estos sistemas pueden identificar problemas médicos con hasta un 95% de precisión en simulaciones, su rendimiento cae a menos del 35% cuando interactúan con humanos en forma conversacional.

Esta discrepancia resalta una brecha crítica entre el conocimiento médico teórico y la aplicación práctica: La IA tiene el conocimiento, pero los humanos luchan por extraer consejos útiles de él. El estudio, realizado por investigadores de la Universidad de Oxford, probó grandes modelos de lenguaje (LLM) como GPT-4o, Command R+ y Llama 3 alimentándolos con escenarios médicos.

Los investigadores descubrieron que las personas que usaban chatbots para diagnósticos en realidad obtuvieron peores resultados que aquellos que simplemente buscaban síntomas en Google. Los motores de búsqueda arrojaron diagnósticos correctos más del 40% de las veces, mientras que los chatbots promediaron solo el 35% de precisión. Esta diferencia es estadísticamente significativa y demuestra que incluso las herramientas de búsqueda básicas pueden superar actualmente el asesoramiento médico basado en IA en el uso diario.

El problema no es necesariamente una falta de conocimiento médico sobre la propia IA: los modelos utilizados eran de última generación a finales de 2024. Más bien, el problema radica en cómo los humanos interactúan con estos sistemas. Las personas tienden a proporcionar información poco a poco y los chatbots se dejan engañar fácilmente por detalles incompletos o irrelevantes. Los cambios sutiles en la redacción pueden alterar drásticamente la respuesta de un chatbot: describir un dolor de cabeza intenso como “repentino y el peor de todos los tiempos” hace que una IA recomiende atención médica inmediata, mientras que llamarlo “dolor de cabeza terrible” puede llevar a sugerir reposo, un error potencialmente fatal en casos como la hemorragia subaracnoidea.

La naturaleza impredecible del razonamiento de la IA, a menudo denominada “problema de la caja negra”, hace difícil entender por qué ocurren tales variaciones. Incluso los desarrolladores luchan por rastrear la lógica detrás de las decisiones de los modelos.

Estos hallazgos confirman preocupaciones de larga data sobre la seguridad de la IA en la atención médica. ECRI, una organización de seguridad del paciente, ya ha identificado a los chatbots de IA como el peligro tecnológico sanitario más importante para 2026, citando riesgos como diagnósticos erróneos, información fabricada y refuerzo de sesgos existentes. A pesar de estas advertencias, los profesionales de la salud están integrando cada vez más chatbots en sus flujos de trabajo para tareas como la transcripción y la revisión preliminar de los resultados de las pruebas. OpenAI y Anthropic incluso han lanzado versiones dedicadas a la atención médica de sus modelos, y ChatGPT ya maneja más de 40 millones de consultas médicas diariamente.

La conclusión clave es que los LLM comerciales aún no son lo suficientemente confiables para su uso clínico directo. Si bien es probable que la tecnología de IA mejore con el tiempo, la brecha actual entre el rendimiento del laboratorio y la utilidad en el mundo real plantea riesgos sustanciales.

Investigadores como Michelle Li de la Facultad de Medicina de Harvard están trabajando en posibles mejoras en la capacitación e implementación de la IA. El primer paso, según Adam Mahdi de Oxford, es refinar la forma en que se mide el desempeño de la IA, específicamente, centrándose en cómo funciona para personas reales en lugar de en entornos artificiales.