KI-Agent MIRA stellt in Modellsimulation genauere Diagnosen als Ärzte

Der KI-Agent MIRA wertet Patientenakten aus, fordert Untersuchungen an und bereitet Diagnose- und Therapieentscheidungen vor – bislang in einem simulierten Krankenhausinformationssystem. Erkenntnisse aus einer aktuellen Studie.

Von Dr. Judith Amann

In den retrospektiven Simulationen mit realen Patientenfällen erzielte das System eine höhere diagnostische Genauigkeit als die ärztlichen Vergleichsgruppen und traf zugleich leitliniengerechte und sichere Behandlungsentscheidungen. Das Team um Korrespondenzautor Prof. Jakob N. Kather, Else Kröner Fresenius Zentrum (EKFZ) für Digitale Gesundheit an der Technischen Universität Dresden (TUD) hat seine Ergebnisse in „Nature“ veröffentlicht.

KI-Agent MIRA: Wie das System funktioniert

Bislang sind KI-Anwendungen nur auf einzelne Aufgaben zugeschnitten und oft nicht in klinische Abläufe integriert. Kathers Team hat MIRA (Medical Intelligence for Reasoning and Action) entwickelt und getestet. Dabei arbeitete der autonome medizinische KI-Agent in einer geschützten Testumgebung innerhalb elektronischer Patientenakten. In den untersuchten Fällen erreichte MIRA Leistungen auf ärztlichem Niveau. Teilweise übertraf der KI-Agent die ärztliche Vergleichsgruppe bei der diagnostischen Genauigkeit.

Das Forschungsteam hat KI-Agent MIRA genau vorgegeben, welche Aufgaben zu erledigen sind und welche Werkzeuge und Informationen dafür zur Verfügung stehen. Für die retrospektive Studie nutzten die Forschenden mehr als 500 reale Patientenfälle. Diese wurden in einer simulierten Notaufnahme nachgebildet.

Zusätzlich interagierte KI-Agent MIRA – eine Kombination aus agentischer KI und einem Chatbot – mit virtuellen Patienten, deren Antworten auf der dokumentierten Krankengeschichte aus den realen US-amerikanischen Patientenakten beruhten. So war MIRA in der Lage, die Anamnese zu erheben, konnte gezielt Fragen stellen, fehlende Informationen einholen und diese anschließend in die klinische Entscheidungsfindung einbeziehen.

Mehr als 85.000 mögliche Handlungsoptionen

MIRA und die ärztliche Vergleichsgruppe bearbeiteten dieselben Fälle unter Verwendung eines kontrollierten klinischen Toolkits mit elf Instrumenten und mehr als 85.000 möglichen Handlungsoptionen, darunter Labor-, mikrobiologische und bildgebende Untersuchungen, Medikamentenverschreibungen, Eingriffe und Einweisungsentscheidungen.

Ein Teil der klinischen Evaluation von MIRA fand durch Ärztinnen und Ärzte am Universitätsklinikum Heidelberg (UKHD) statt, unter anderem in der Klinik für Medizinische Onkologie und der Klinik für Allgemein-, Viszeral- und Transplantationschirurgie sowie am Nationalen Centrum für Tumorerkrankungen (NCT) Heidelberg.

Hohe diagnostische Genauigkeit in der Simulation

In der Simulation erreicht KI-Agent MIRA im Schnitt eine diagnostische Genauigkeit von 88,9 Prozent. Das Team verglich die Leistung des KI-Systems auch direkt mit Fachärzten beziehungsweise Ärzten mit unterschiedlichen Erfahrungslevel und erwies sich in beiden Fällen als überlegen. Allerdings variierte die Genauigkeit: Während MIRA bei manchen Diagnosen – etwa Blinddarmentzündung (98,6 %) und Pankreatitis (92,3 %) – sehr genau war, erwies sich das System bei Lungenentzündungen (72,4 %) und Harnwegsinfektionen (77,6 %) als weniger exakt. Allerdings merken die Autoren an, dass die Diagnosen der Mitglieder der ärztlichen Vergleichsgruppe mit Blick auf diese beiden Erkrankungen ebenfalls weniger genau waren.

„Unser KI-Agent konnte innerhalb der Testumgebung selbständig klinische Arbeitsschritte ausführen. MIRA erkannte fehlende Informationen, forderte Untersuchungen an, interpretierte leitliniengerecht Befunde und bereitete Therapieentscheidungen vor. KI-Tools sollen medizinisches Fachpersonal unterstützen und mehr Zeit für die Patientenversorgung schaffen, gleichzeitig müssen sie höchsten Anforderungen an Sicherheit, Transparenz und Verlässlichkeit genügen. Mit MIRA konnten wir zeigen, dass dies möglich ist“, sagt Dyke Ferber, Mediziner und Erstautor der veröffentlichten Studie.

Simulation statt Realität: Grenzen der Studie

Die Autoren selbst weisen auch auf die Grenzen ihrer Studie hin. Zum einen war die Patienteninteraktion simuliert und basierte auf Informationen zu Krankheitsgeschichte aus Entlassbriefen. Damit war die Sprache strukturierter als es ein reales Patientengespräch wäre. Eine zweite Grenze betrifft den MIMIC-IV-Datensatz selbst, mit dem gearbeitet wurde. Er stammt aus einem US-amerikanischen Krankenhaus und ist öffentlich zugänglich. Somit könnten diese Daten bereits zum Training medizinischer KI-Anwendungen verwendet worden sein.

Auch nach Einschätzung von Prof. Kerstin Denecke, Co-Leiterin des Instituts für Patient-centered Digital Health an der Berner Fachhochschule (Schweiz) ist dieser Datensatz nicht unbedingt repräsentativ für die Allgemeinbevölkerung, da ein erheblicher Teil der Daten von kritisch erkrankten Patienten auf Intensivstationen stamme. Außerdem merkt sie an: „Der Patientensimulator hat ganz klare Anweisungen, wie er zu kommunizieren hat. Das hat mit Realität wenig zu tun.“

KI-Agenten wie MIRA als Unterstützung – nicht als Ersatz für Ärzte

Dass KI-Agenten wie MIRA Ärzte in absehbarer Zukunft vollständig ersetzen, sieht Denecke noch nicht: „Für klinische Entscheidungen braucht es mehr als Folgsamkeit gegenüber Guidelines. Es braucht ein Verständnis für die individuelle Situation von Patient:innen.“ Beim Vergleich zwischen MIRA und Mensch hatte sich auch gezeigt, dass sich das KI-System stärker an Leitlinien orientiert, als die Ärztinnen und Ärzte in der Studie.

Auch dem Autorenteam der MIRA-Studie selbst ist bewusst, dass ihre Ergebnisse aus einer „Sandbox“ – also einer gut kontrollierten Simulationsumgebung – stammen. Das Team um Erstautor Ferber betont, dass es zwingend prospektive Real-World-Studien braucht, um Sicherheit, Genauigkeit und Nutzen für den Klinikalltag zu bewerten.

Für Prof. Robert Ranisch, Professor für Medizinische Ethik mit Schwerpunkt auf Digitalisierung von der Fakultät für Gesundheitswissenschaften, Universität Potsdam, schmälern die Grenzen der Studie nicht grundsätzlich. Aber sie machten deutlich, wie schwierig die Evaluation moderner KI-Systeme sei.

„Vorgeschmack darauf, wie KI die Medizin verändern könnte“

„Hinzu kommt ein weiteres Problem: Die KI entwickelt sich mittlerweile schneller, als die wissenschaftlichen Prüfsysteme arbeiten“, so Ranisch. Er ergänzte: „Einerseits sehen wir hier also die beachtliche Leistung eines Systems, das inzwischen als veraltet gelten kann. Andererseits erlaubt die Studie damit einen Blick darauf, was mit den neuesten Modellen künftig möglich sein könnte.“

Das Fazit von Letztautor Kather fällt ähnlich aus: „Wir sehen hier einen Vorgeschmack darauf, wie KI die Medizin verändern könnte. Ich sehe KI-Agenten wie Autopiloten im Flugzeug. Solche Systeme können medizinisches Fachpersonal unterstützen und entlasten, indem sie Routineaufgaben übernehmen, aber die Verantwortung bleibt letztendlich immer beim ärztlichen Personal.“

Mehr zum Thema KI-Agenten in der Medizin: Potenzial agentischer KI für das Gesundheitssystem