Large Language Models in der Medizin – Wie wird bewertet und getestet?

Foto: Antony Weerut/stock.adobe.com

Es gibt immer mehr Medizin-Anwendungen, die mit Large Language Models (LLMs) arbeiten. Ein Team der Stanford University hat mehr als 500 Studien analysiert, um herauszufinden, wie LLMs getestet und evaluiert werden. Fazit: zu selten mit Patientendaten.

Large Language Models (LLMs) wie ChatGPT sind längst auch in der Medizin im Einsatz. Die Bandbreite der Anwendungen im Gesundheitsbereich ist groß: Administrative Unterstützung, Auswertung und Beurteilung medizinischer Bilddaten, Unterstützung in der Diagnostik oder Anwendungen für Patienten sind nur einige Einsatzgebiete.

Eine stetig steigende Zahl an Studien quer durch alle medizinischen Fachgebietet hat KI-Anwendungen und LLMs zum Gegenstand: Allein für das Jahr 2025 sind 7724 Studien mit dem Stichwort „LLM“ in der PubMed-Datenbank zu finden (Stand: 18. Dezember 2025). Im Jahr 2024 waren es noch 4051 Veröffentlichungen – damit hat sich die Zahl fast verdoppelt.

Wie werden LLMs aus dem Gesundheitsbereich evaluiert?

Aber woran machen Studienautoren die Qualität ihrer KI-Anwendungen für den Medizinbereich fest? Ein umfassende Übersichtsarbeit – veröffentlicht in „JAMA“ – hat sich dieser Frage gewidmet. Zentrale Botschaft: Es braucht mehr echte Patientendaten zur Bewertung von LLMs aus dem Medizinbereich. Denn nur ein Bruchteil der analysierten Studien arbeitete mit solchen Daten, so ein Ergebnis der Studie.

Die Autoren um Suhana Bedi von der Stanford University in Stanford, Kalifornien (USA) haben für ihr systematisches Review 519 Studien unter die Lupe genommen aus dem Zeitraum zwischen dem 1. Januar 2022 und dem 19. Februar 2024. Dabei berücksichtigten sie Studien, die ein oder mehrere LLMs aus dem Medizinbereich bewertet haben. Drei unabhängige Gutachter kategorisierten die Studien anhand von Stichwortsuchen. Grundlage waren die verwendeten Daten, die Aufgaben der LLMs basierenden Gesundheitsanwendungen, die Aufgaben aus dem Bereich Natural Language Processing (NLP) und Natural Language Understanding (NLU9, die Bewertungsdimensionen und das medizinischen Fachgebiets.

Nur fünf Prozent der Studien stützen Bewertung auf echte Patientendaten

Es stellte sich heraus, dass in nur fünf Prozent der Studien echte Patientenversorgungsdaten für die LLM-Bewertung verwendet wurden. Die häufigsten medizinischen Anwendungen für LLMs waren die Bewertung von medizinischem Wissen – etwa die Beantwortung von Fragen zur ärztlichen Zulassungsprüfung (44,5 %) – und die Diagnose-Stellung (19,5 %). Administrative Aufgaben wie die Zuweisung von Abrechnungscodes (0,2 %) und das Ausstellen von Rezepten (0,2 %) wurden eher selten untersucht.

Bei NLP- und NLU-Aufgaben konzentrierten sich die meisten Studien auf die Beantwortung von Fragen (84,2 %). Aufgaben wie Zusammenfassungen (8,9 %) und Konversationsdialoge (3,3 %) kamen hingegen selten vor. Fast alle Studien (95,4 %) verwendeten Genauigkeit als primäre Bewertungsdimension. Andere Dimensionen wie beispielsweise Fairness, Voreingenommenheit und Toxizität (15,8 %), Überlegungen zum Einsatz (4,6 %) sowie Kalibrierung und Unsicherheit (1,2 %) wurden selten gemessen.

Genauigkeit als Hauptzielkriterium bei der Bewertung von LLMs

Was schließlich die medizinischen Fachgebiete betrifft, so befassten sich die meisten Studien mit allgemeinen Gesundheitsanwendungen (25,6 %). Danach folgten Innere Medizin (16,4 %), Chirurgie (11,4 %) und Augenheilkunde (6,9 %). Dagegen waren Nuklearmedizin (0,6 %), Physikalische Medizin (0,4 %) und Medizinische Genetik (0,2 %) am seltensten vertreten.

Insgesamt stand bei der Evaluation von LLMs aus dem Gesundheitsbereich meist die Genauigkeit der Beantwortung von Fragen für medizinische Untersuchungen im Vordergrund. Reale Patientendaten wurden dabei allerdings nicht berücksichtigt. Aspekte wie Fairness, Voreingenommenheit und Toxizität sowie Überlegungen zum Einsatz fanden weit seltener Beachtung.

„Fragmentiert und unzureichend“ sei die derzeitige Bewertung von LLMs aus dem Gesundheitsbereich, so das Fazit von Bedi et al. „Die Ergebnisse dieses systematischen Reviews unterstreichen die Notwendigkeit, echte Daten aus der Patientenversorgung zur Evaluation von LLMs zu verwenden, um eine Ausrichtung an klinischen Gegebenheiten sicherzustellen“, betonten die Autoren abschließend. Zukünftige Bewertungen sollten standardisierte Anwendungen und Messgrößen verwenden, klinische Daten heranziehen und den Fokus auf ein breiteres Spektrum von Aufgaben und Fachgebieten ausweiten. (ja/BIERMANN)