Les chatbots d’intelligence artificielle (IA), bien qu’ils excellent dans des conditions de laboratoire contrôlées, rencontrent de grandes difficultés lorsqu’ils sont chargés de répondre à des demandes médicales réelles émanant de personnes ordinaires. Une étude récente publiée dans Nature Medicine révèle que même si ces systèmes peuvent identifier des problèmes médicaux avec une précision allant jusqu’à 95 % dans les simulations, leurs performances chutent en dessous de 35 % lors d’interactions conversationnelles avec des humains.

Cet écart met en évidence un écart critique entre les connaissances médicales théoriques et les applications pratiques : L’IA possède les connaissances, mais les humains ont du mal à en extraire des conseils utiles. L’étude, menée par des chercheurs de l’Université d’Oxford, a testé de grands modèles de langage (LLM) comme GPT-4o, Command R+ et Llama 3 en leur alimentant des scénarios médicaux.

Les chercheurs ont découvert que les personnes utilisant des chatbots pour les diagnostics avaient en réalité des résultats moins bons que celles qui recherchaient simplement des symptômes sur Google. Les moteurs de recherche ont produit des diagnostics corrects dans plus de 40 % du temps, tandis que les chatbots n’ont obtenu en moyenne qu’une précision de 35 %. Cette différence est statistiquement significative, démontrant que même les outils de recherche les plus élémentaires peuvent actuellement surpasser les conseils médicaux basés sur l’IA dans une utilisation quotidienne.

Le problème ne vient pas nécessairement d’un manque de connaissances médicales dans l’IA elle-même : les modèles utilisés étaient à la pointe de la technologie fin 2024. Le problème réside plutôt dans la manière dont les humains interagissent avec ces systèmes. Les gens ont tendance à fournir des informations de manière fragmentaire, et les chatbots sont facilement induits en erreur par des détails incomplets ou non pertinents. Des changements subtils dans la formulation peuvent considérablement modifier la réponse d’un chatbot : décrire un mal de tête sévère comme « soudain et le pire qui ait jamais existé » incite correctement une IA à recommander des soins médicaux immédiats, tandis que le qualifier de « terrible mal de tête » peut conduire à une suggestion de repos – une erreur potentiellement mortelle dans des cas comme une hémorragie sous-arachnoïdienne.

La nature imprévisible du raisonnement de l’IA, souvent appelée « problème de la boîte noire », rend difficile la compréhension de la raison pour laquelle de telles variations se produisent. Même les développeurs ont du mal à retracer la logique derrière les décisions des modèles.

Ces résultats confirment les préoccupations de longue date concernant la sécurité de l’IA dans les soins de santé. L’ECRI, une organisation chargée de la sécurité des patients, a déjà identifié les chatbots IA comme le risque technologique de santé le plus important pour 2026, citant des risques tels que des diagnostics erronés, des informations fabriquées et le renforcement des préjugés existants. Malgré ces avertissements, les professionnels de santé intègrent de plus en plus de chatbots dans leurs flux de travail pour des tâches telles que la transcription et l’examen préliminaire des résultats de tests. OpenAI et Anthropic ont même lancé des versions dédiées aux soins de santé de leurs modèles, ChatGPT traitant déjà plus de 40 millions de requêtes médicales par jour.

Ce qu’il faut retenir, c’est que les LLM commerciaux ne sont pas encore suffisamment fiables pour une utilisation clinique directe. Même si la technologie de l’IA va probablement s’améliorer avec le temps, l’écart actuel entre les performances des laboratoires et l’utilité réelle présente des risques importants.

Des chercheurs comme Michelle Li de la Harvard Medical School travaillent sur des améliorations potentielles de la formation et de la mise en œuvre de l’IA. La première étape, selon Adam Mahdi d’Oxford, consiste à affiner la façon dont les performances de l’IA sont mesurées, en particulier en se concentrant sur la façon dont elle fonctionne pour des vraies personnes plutôt que dans des environnements artificiels.