Chatbots op basis van kunstmatige intelligentie (AI) hebben, ondanks dat ze uitblinken in gecontroleerde laboratoriumomstandigheden, het aanzienlijk moeilijk als ze worden belast met medische vragen uit de echte wereld van gewone mensen. Uit een recent onderzoek gepubliceerd in Nature Medicine blijkt dat deze systemen weliswaar medische problemen kunnen identificeren met een nauwkeurigheid tot 95% in simulaties, maar dat hun prestaties dalen tot onder de 35% bij conversatie met mensen.
Deze discrepantie benadrukt een cruciale kloof tussen theoretische medische kennis en praktische toepassing: AI heeft de kennis, maar mensen hebben moeite om er nuttig advies uit te halen. De studie, uitgevoerd door onderzoekers van de Universiteit van Oxford, testte grote taalmodellen (LLM’s) zoals GPT-4o, Command R+ en Llama 3 door ze medische scenario’s te geven.
De onderzoekers ontdekten dat mensen die chatbots voor diagnoses gebruikten feitelijk slechter presteerden dan degenen die eenvoudigweg naar symptomen op Google zochten. Zoekmachines leverden in 40% van de gevallen correcte diagnoses op, terwijl chatbots gemiddeld slechts 35% accuraat waren. Dit verschil is statistisch significant en toont aan dat zelfs elementaire zoekhulpmiddelen momenteel bij dagelijks gebruik beter kunnen presteren dan AI-gestuurd medisch advies.
Het probleem is niet noodzakelijkerwijs een gebrek aan medische kennis in de AI zelf; de gebruikte modellen waren eind 2024 state-of-the-art. In plaats daarvan ligt het probleem in de manier waarop mensen met deze systemen omgaan. Mensen hebben de neiging informatie stukje bij beetje te verstrekken, en chatbots worden gemakkelijk misleid door onvolledige of irrelevante details. Subtiele veranderingen in de formulering kunnen de reactie van een chatbot dramatisch veranderen: het beschrijven van een ernstige hoofdpijn als ‘plotseling en de ergste ooit’ zorgt er terecht voor dat een AI onmiddellijke medische hulp aanbeveelt, terwijl het noemen van een ‘vreselijke hoofdpijn’ kan leiden tot de suggestie van rust – een mogelijk fatale fout in gevallen als een subarachnoïdale bloeding.
De onvoorspelbare aard van AI-redeneringen, vaak het ‘black box-probleem’ genoemd, maakt het moeilijk te begrijpen waarom dergelijke variaties optreden. Zelfs de ontwikkelaars hebben moeite om de logica achter de beslissingen van de modellen te achterhalen.
Deze bevindingen bevestigen al lang bestaande zorgen over AI-veiligheid in de gezondheidszorg. ECRI, een patiëntveiligheidsorganisatie, heeft AI-chatbots al geïdentificeerd als het grootste gevaar voor de gezondheidszorgtechnologie voor 2026, daarbij verwijzend naar risico’s zoals foutieve diagnoses, verzonnen informatie en versterking van bestaande vooroordelen. Ondanks deze waarschuwingen integreren zorgprofessionals steeds vaker chatbots in hun workflows voor taken zoals transcriptie en voorlopige beoordeling van testresultaten. OpenAI en Anthropic hebben zelfs speciale gezondheidszorgversies van hun modellen gelanceerd, waarbij ChatGPT al dagelijks meer dan 40 miljoen medische vragen verwerkt.
De belangrijkste conclusie is dat commerciële LLM’s nog niet betrouwbaar genoeg zijn voor direct klinisch gebruik. Hoewel de AI-technologie in de loop van de tijd waarschijnlijk zal verbeteren, brengt de huidige kloof tussen laboratoriumprestaties en praktische bruikbaarheid aanzienlijke risico’s met zich mee.
Onderzoekers zoals Michelle Li van de Harvard Medical School werken aan mogelijke verbeteringen van AI-training en -implementatie. De eerste stap is volgens Adam Mahdi uit Oxford het verfijnen van de manier waarop AI-prestaties worden gemeten, met name door te focussen op hoe het presteert voor echte mensen in plaats van in kunstmatige omgevingen.
























