KI-Sprachmodelle scheitern an der einfachen Analyse von Krankenhausdaten

In Kliniken fallen viele Daten an, die oft zeitaufwendig analysiert werden müssen. (Foto: © InfiniteFlow – stock.adobe.com)

Große Sprachmodelle (Large Language Models, LLMs) zeigen deutliche Schwächen bei grundlegenden administrativen Aufgaben im Krankenhausalltag. Zu diesem Ergebnis kommt eine aktuelle Studie eines Forschungsteams von der Icahn School of Medicine at Mount Sinai (New York), die in „PLOS Digital Health veröffentlicht wurde.

Krankenhäuser nutzen strukturierte Daten aus elektronischen Patientenakten, um Patientenzahlen zu überwachen, Ressourcen zu planen oder administrative Berichte zu erstellen. Diese Auswertungen werden bislang meist von Datenanalysten mithilfe von Programmiersprachen durchgeführt – ein Prozess, der zeitaufwendig sein kann. LLMs wie GPT-4o oder Llama gelten als mögliche Lösung, um solche Analysen schneller durchzuführen.

In der Studie testeten die Forschenden neun führende KI-Modelle anhand realer Daten von rund 50.000 Besuchen in den Notaufnahmen des Mount Sinai Health System. Die Modelle mussten zwei typische Verwaltungsaufgaben lösen: das Zählen von Patientengruppen nach bestimmten Kriterien sowie das Filtern von Datensätzen anhand mehrerer Parameter.

Für eigenständige administrative Aufgaben noch ungeeignet

Das Ergebnis fiel ernüchternd aus: Bei einfachen textbasierten Anfragen („Wie viele Patienten wurden aufgenommen?“) lieferten alle getesteten Modelle unzuverlässige Resultate. Auch sogenannte Chain-of-Thought-Prompts, bei denen die KI ihre Rechenschritte offenlegen soll, verbesserten die Genauigkeit nur begrenzt und verloren deutlich an Leistungsfähigkeit, sobald größere Datentabellen analysiert wurden. Selbst das bestplatzierte Modell GPT-4o fiel von etwa 95 Prozent Genauigkeit bei kleinen Datensätzen auf unter 60 Prozent bei größeren Tabellen.

Deutlich bessere Ergebnisse erzielten die Systeme erst dann, wenn sie nicht direkt antworteten, sondern zuerst Programmcodes generierten, die anschließend ausgeführt wurden. Mit diesem werkzeugbasierten Ansatz erreichten leistungsstarke Modelle nahezu perfekte Resultate. Schnell optimierte, kompaktere Modelle schnitten dagegen weiterhin schwach ab. Ein Modell musste aufgrund fehlender verwertbarer Ergebnisse sogar aus der Analyse ausgeschlossen werden.

Die Autoren schließen daraus, dass aktuelle Sprachmodelle ohne zusätzliche Tools für eigenständige administrative Aufgaben im klinischen Alltag noch ungeeignet sind. Für zuverlässige Anwendungen seien sogenannte agentische Systeme erforderlich, die KI-Modelle mit automatisierter Codeausführung kombinieren, um Genauigkeit und Konsistenz sicherzustellen. (ej/BIERMANN)