Forschung

Studie: Zweifel an KI als Gesundheitsratgeber

DIATRA-Redaktion

11. Feb. 2026 · 4 Min. Lesezeit

Eine neue Studie der Universität Oxford wirft ein kritisches Licht auf den Einsatz von KI-Chatbots als medizinische Ratgeber für die Allgemeinbevölkerung. Die jetzt veröffentlichte Untersuchung kommt zu dem Ergebnis, dass große Sprachmodelle (LLMs, „Large Language Models“, also KI-Systeme, die Texte verstehen und erzeugen können) zwar in Testsituationen oft überzeugende medizinische Antworten liefern, Nutzer mit KI-Unterstützung jedoch nicht automatisch bessere Gesundheitsentscheidungen treffen. Damit stellt die Arbeit eine verbreitete Annahme infrage: dass bessere KI automatisch zu besseren Entscheidungen bei Patient:innen führt.

Große Erwartungen an medizinische KI, aber gemischte Ergebnisse

Die Forschenden vom Oxford Internet Institute und dem Nuffield Department of Primary Care Health Sciences untersuchten, wie Laien medizinische Informationen mithilfe von KI-Systemen interpretieren. Dabei zeigte sich eine deutliche Diskrepanz zwischen der theoretischen Leistungsfähigkeit der Modelle und ihrem praktischen Nutzen im Alltag. Obwohl die Systeme häufig korrekte medizinische Inhalte erzeugten, gelang es vielen Teilnehmenden nicht, diese Informationen richtig einzuordnen oder auf ihre persönliche Situation anzuwenden. Gerade bei komplexeren Symptombeschreibungen oder Unsicherheiten neigten Nutzer:innen dazu, KI-Antworten zu über- oder fehlzuinterpretieren.
In der begleitenden Oxford-Mitteilung warnen die Autor:innen, dass Chatbots mitunter „inaccurate, inconsistent, and potentially dangerous advice“ („ungenaue, inkonsistente und potenziell gefährliche Ratschläge“) liefern könnten. Dies gilt insbesondere dann, wenn Symptome unvollständig beschrieben werden oder wichtige Kontextinformationen fehlen. Das Problem liege dabei nicht ausschließlich in falschen Antworten, sondern auch im Tonfall: Selbst vorsichtig formulierte KI-Aussagen könnten als klare Handlungsempfehlung verstanden werden.

Mensch-KI-Kommunikation als Schwachstelle

Ein zentrales Problem sehen die Forschenden in der Kommunikation zwischen Mensch und Maschine. Nutzer:innen formulierten Symptome oft unpräzise, während die Modelle teils zu allgemein oder zu selbstsicher antworteten. Das könne dazu führen, dass riskante Fehlinterpretationen entstehen, selbst dann, wenn die eigentliche KI-Antwort nicht vollständig falsch sei. Die Studie macht damit deutlich, dass medizinische Qualität nicht nur eine Frage der Fakten ist, sondern auch davon abhängt, wie Informationen präsentiert und verstanden werden.
Die Studie hebt hervor, dass es eine deutliche Lücke zwischen der Leistung in Benchmarks und der realen Nutzung gebe: eine „gap between model performance and real-world use“ („Lücke zwischen Modellleistung und realer Anwendung“). Mit Benchmarks sind standardisierte Testumgebungen gemeint, in denen KI-Systeme anhand festgelegter Aufgaben bewertet werden – Bedingungen also, die sich deutlich von echten Gesundheitsfragen im Alltag unterscheiden können. Während Modelle in solchen Tests oft sehr hohe Genauigkeit erreichen, spiegeln sie nicht unbedingt die Unsicherheit, Emotion oder Mehrdeutigkeit wider, mit der Menschen reale Symptome beschreiben.

Mehr als ein Nutzerproblem: Kritik an Hype und Design

Auch wenn die Untersuchung stark auf die Interaktion der Nutzer:innen fokussiert, lässt sich die Kritik nicht allein auf „falsche Anwendung“ reduzieren. Die Ergebnisse werfen grundsätzliche Fragen zum aktuellen KI-Hype im Gesundheitsbereich auf. Wenn Systeme in kontrollierten Tests überzeugen, im Alltag jedoch kaum bessere Entscheidungen ermöglichen, deutet das laut den Forschenden auf strukturelle Schwächen im Design und in der Kommunikation solcher Tools hin. Insbesondere die Erwartung, KI könne medizinische Beratung skalieren und vereinfachen, wird durch die Ergebnisse relativiert.
Damit verschiebt sich der Blickwinkel: Nicht nur Anwender:innen müssen lernen, mit KI umzugehen, auch Entwickler:innen und Anbieter:innen stehen in der Verantwortung, Risiken verständlicher zu machen und Unsicherheiten klar zu kennzeichnen. Ohne solche Anpassungen könnten selbst leistungsfähige Modelle falsche Erwartungen wecken. Die Autor:innen plädieren daher indirekt für stärker nutzerzentrierte Entwicklung und eine kritischere öffentliche Debatte über den Einsatz generativer KI im Gesundheitskontext.

Kein Ersatz für ärztliche Beratung

Die Ergebnisse bedeuten nach Einschätzung der Forschenden nicht, dass KI im Gesundheitsbereich grundsätzlich ungeeignet ist. Vielmehr brauche es bessere Nutzerführung, transparentere Kommunikation über Unsicherheiten sowie klarere Sicherheitsmechanismen. Tools auf Basis großer Sprachmodelle sollten daher nicht als Ersatz für professionelle medizinische Beratung verstanden werden, sondern höchstens als ergänzende Informationsquelle. Gerade im sensiblen Bereich der Selbstdiagnose könne eine falsch verstandene KI-Empfehlung reale gesundheitliche Folgen haben.
Für Entwickler:innen, Regulierungsbehörden und Gesundheitsorganisationen ist das ein wichtiger Hinweis: Technische Fortschritte allein reichen nicht aus, denn entscheidend ist auch, wie Menschen mit den Systemen interagieren und wie verständlich Risiken kommuniziert werden. Die Oxford-Studie liefert damit weniger ein Urteil über einzelne KI-Modelle als vielmehr eine Warnung vor überhöhten Erwartungen an ihre Rolle im Gesundheitsalltag.

Publikationen