Obwohl Chatbots mit künstlicher Intelligenz (KI) unter kontrollierten Laborbedingungen hervorragende Leistungen erbringen, haben sie erhebliche Schwierigkeiten, wenn sie mit realen medizinischen Anfragen von normalen Menschen betraut werden. Eine kürzlich in Nature Medicine veröffentlichte Studie zeigt, dass diese Systeme zwar medizinische Probleme in Simulationen mit einer Genauigkeit von bis zu 95 % identifizieren können, ihre Leistung jedoch bei der Interaktion mit Menschen im Gespräch auf unter 35 % sinkt.
Diese Diskrepanz verdeutlicht eine kritische Lücke zwischen theoretischem medizinischem Wissen und praktischer Anwendung: KI verfügt über das Wissen, aber Menschen haben Schwierigkeiten, daraus nützliche Ratschläge zu ziehen. Die von Forschern der Universität Oxford durchgeführte Studie testete große Sprachmodelle (LLMs) wie GPT-4o, Command R+ und Llama 3, indem sie ihnen medizinische Szenarien fütterte.
Die Forscher fanden heraus, dass Menschen, die Chatbots für Diagnosen nutzten, tatsächlich schlechtere Ergebnisse erzielten als diejenigen, die lediglich auf Google nach Symptomen suchten. Suchmaschinen lieferten in über 40 % der Fälle korrekte Diagnosen, während Chatbots im Durchschnitt nur eine Genauigkeit von 35 % erreichten. Dieser Unterschied ist statistisch signifikant und zeigt, dass selbst einfache Suchtools derzeit die KI-gesteuerte medizinische Beratung im täglichen Gebrauch übertreffen können.
Das Problem ist nicht unbedingt ein Mangel an medizinischem Wissen in der KI selbst – die verwendeten Modelle waren Ende 2024 auf dem neuesten Stand. Vielmehr liegt das Problem darin, wie Menschen mit diesen Systemen interagieren. Menschen neigen dazu, Informationen bruchstückhaft bereitzustellen, und Chatbots lassen sich leicht durch unvollständige oder irrelevante Details in die Irre führen. Subtile Formulierungsänderungen können die Reaktion eines Chatbots dramatisch verändern: Die Beschreibung starker Kopfschmerzen als „plötzlich und die schlimmsten aller Zeiten“ veranlasst eine KI korrekterweise dazu, sofortige ärztliche Hilfe zu empfehlen, während die Bezeichnung „furchtbare Kopfschmerzen“ zu einer Ruhepause führen kann – ein möglicherweise tödlicher Fehler in Fällen wie einer Subarachnoidalblutung.
Die Unvorhersehbarkeit des KI-Denkens, die oft als „Black-Box-Problem“ bezeichnet wird, macht es schwierig zu verstehen, warum solche Variationen auftreten. Selbst den Entwicklern fällt es schwer, die Logik hinter den Entscheidungen der Modelle nachzuvollziehen.
Diese Ergebnisse bestätigen seit langem bestehende Bedenken hinsichtlich der KI-Sicherheit im Gesundheitswesen. ECRI, eine Organisation für Patientensicherheit, hat KI-Chatbots bereits als größte Gefahr für Gesundheitstechnologie im Jahr 2026 identifiziert und dabei Risiken wie fehlerhafte Diagnosen, gefälschte Informationen und die Verstärkung bestehender Vorurteile angeführt. Trotz dieser Warnungen integrieren medizinische Fachkräfte zunehmend Chatbots in ihre Arbeitsabläufe für Aufgaben wie die Transkription und die Überprüfung vorläufiger Testergebnisse. OpenAI und Anthropic haben sogar spezielle Gesundheitsversionen ihrer Modelle auf den Markt gebracht, wobei ChatGPT bereits täglich über 40 Millionen medizinische Anfragen bearbeitet.
Die wichtigste Erkenntnis ist, dass kommerzielle LLMs für den direkten klinischen Einsatz noch nicht zuverlässig genug sind. Während sich die KI-Technologie im Laufe der Zeit wahrscheinlich verbessern wird, birgt die derzeitige Lücke zwischen Laborleistung und realem Nutzen erhebliche Risiken.
Forscher wie Michelle Li von der Harvard Medical School arbeiten an möglichen Verbesserungen des KI-Trainings und der Implementierung. Laut Adam Mahdi von Oxford besteht der erste Schritt darin, die Art und Weise zu verfeinern, wie die KI-Leistung gemessen wird – insbesondere darauf, wie sie bei echten Menschen und nicht in künstlichen Umgebungen funktioniert.
























