Nierenschädigung: KI und Sprachmodelle untersucht

Forschende der Universität Marburg und des Universitätsklinikums Gießen und Marburg untersuchten, wie gut 13 der bekanntesten öffentlich verfügbaren KI-Sprachmodelle klinisches Wissen zur akuten Nierenschädigung in einer standardisierten Testsituation abrufen und anwenden können.

Dafür verglich das Team um Dr. Philipp Russ diese Modelle mit 123 freiwilligen Teilnehmenden, darunter Medizinstudierende sowie Ärzte aus dem Bereich der Inneren Medizin. Die ärztlichen Probanden waren Teilnehmende des 131. Jahreskongress der Deutschen Gesellschaft für Innere Medizin (DGIM). Über die Ergebnisse berichten die Wissenschaftler um Russ und Prof. Ivica Grgic im Fachblatt „Scientific Reports“.

Mensch und Maschine im Vergleich

Beide Gruppen bearbeiteten denselben deutschsprachigen Wissenstest zu Nierenschädigungen mit zwei realistischen Patientenfällen und 15 Multiple-Choice-Fragen. Das Ergebnis fiel deutlich aus: Die getesteten Sprachmodelle beantworteten im Mittel 90 Prozent der Fragen korrekt, die Fachkongressteilnehmenden im Vergleich dazu lediglich 49 Prozent. Mehrere Modelle beantworteten sämtliche Fragen korrekt und benötigten dafür nur einen Bruchteil der Zeit, die die Teilnehmenden brauchten.

Die Studie zeigt laut den Autoren damit, dass große Sprachmodelle leitlinienkonformes medizinisches Fachwissen in standardisierten Fragesituationen inzwischen sehr zuverlässig wiedergeben können.

Zugleich betonen die Forscher, dass ein gutes Abschneiden im Wissenstest nicht bedeutet, dass diese Systeme eigenständig klinische Entscheidungen treffen können oder gar sollten. „Menschliches Urteilsvermögen und klinische Erfahrung bleiben entscheidend. Die Letztverantwortung für die Versorgung von Patientinnen und Patienten liegt weiterhin klar bei den behandelnden Ärztinnen und Ärzten“, unterstreicht Grgic.

Chance für den klinischen Alltag

„Große Sprachmodelle können medizinisches Faktenwissen sehr schnell bereitstellen. Das ist eine Chance für den klinischen Alltag. Gleichzeitig haben sie klare Grenzen: Sie können unter anderem fehlerhafte Inhalte erzeugen, den Menschen nicht in seiner ganzen Komplexität erfassen und keine Empathie empfinden. Ein Sprachmodell sieht nicht, hört nicht und spürt nicht, worum es einem Menschen wirklich geht. Genau deshalb kann es ärztliches Handeln und klinisches Urteil nicht ersetzen. Richtig eingesetzt könnte es uns aber mehr Zeit für das geben, was Patientinnen und Patienten besonders brauchen: Aufmerksamkeit, Zuwendung und menschliche Nähe“, kommentiert Russ die Ergebnisse.

Vor diesem Hintergrund erscheint KI im klinischen Kontext aus heutiger Perspektive in erster Linie als unterstützendes Werkzeug, heißt es in der Pressemitteilung. Gleichzeitig entziehe sich ihre weitere Entwicklung angesichts der hohen Innovationsdynamik einer verlässlichen Prognose. Für viele Einsatzbereiche sei die empirische Grundlage bislang noch begrenzt. Offen bleibe, ob und in welchem Umfang zukünftige Systeme autonomere Funktionen übernehmen werden und inwieweit eine solche Entwicklung gesellschaftlich gewünscht und akzeptiert ist. Die Integration in die klinische Praxis sei daher als schrittweiser Prozess zu verstehen, der einer kontinuierlichen fachlichen, regulatorischen und ethischen Reflexion bedarf.

Das könnte Sie auch interessieren: