KI-Sprachmodelle scheitern an der einfachen Analyse von Krankenhausdaten12. Mai 2026 In Kliniken fallen viele Daten an, die oft zeitaufwendig analysiert werden müssen. (Foto: © InfiniteFlow – stock.adobe.com) Große Sprachmodelle (Large Language Models, LLMs) zeigen deutliche Schwächen bei grundlegenden administrativen Aufgaben im Krankenhausalltag. Zu diesem Ergebnis kommt eine aktuelle Studie eines Forschungsteams von der Icahn School of Medicine at Mount Sinai (New York), die in „PLOS Digital Health“ veröffentlicht wurde. Krankenhäuser nutzen strukturierte Daten aus elektronischen Patientenakten, um Patientenzahlen zu überwachen, Ressourcen zu planen oder administrative Berichte zu erstellen. Diese Auswertungen werden bislang meist von Datenanalysten mithilfe von Programmiersprachen durchgeführt – ein Prozess, der zeitaufwendig sein kann. LLMs wie GPT-4o oder Llama gelten als mögliche Lösung, um solche Analysen schneller durchzuführen. In der Studie testeten die Forschenden neun führende KI-Modelle anhand realer Daten von rund 50.000 Besuchen in den Notaufnahmen des Mount Sinai Health System. Die Modelle mussten zwei typische Verwaltungsaufgaben lösen: das Zählen von Patientengruppen nach bestimmten Kriterien sowie das Filtern von Datensätzen anhand mehrerer Parameter. Für eigenständige administrative Aufgaben noch ungeeignet Das Ergebnis fiel ernüchternd aus: Bei einfachen textbasierten Anfragen („Wie viele Patienten wurden aufgenommen?“) lieferten alle getesteten Modelle unzuverlässige Resultate. Auch sogenannte Chain-of-Thought-Prompts, bei denen die KI ihre Rechenschritte offenlegen soll, verbesserten die Genauigkeit nur begrenzt und verloren deutlich an Leistungsfähigkeit, sobald größere Datentabellen analysiert wurden. Selbst das bestplatzierte Modell GPT-4o fiel von etwa 95 Prozent Genauigkeit bei kleinen Datensätzen auf unter 60 Prozent bei größeren Tabellen. Deutlich bessere Ergebnisse erzielten die Systeme erst dann, wenn sie nicht direkt antworteten, sondern zuerst Programmcodes generierten, die anschließend ausgeführt wurden. Mit diesem werkzeugbasierten Ansatz erreichten leistungsstarke Modelle nahezu perfekte Resultate. Schnell optimierte, kompaktere Modelle schnitten dagegen weiterhin schwach ab. Ein Modell musste aufgrund fehlender verwertbarer Ergebnisse sogar aus der Analyse ausgeschlossen werden. Die Autoren schließen daraus, dass aktuelle Sprachmodelle ohne zusätzliche Tools für eigenständige administrative Aufgaben im klinischen Alltag noch ungeeignet sind. Für zuverlässige Anwendungen seien sogenannte agentische Systeme erforderlich, die KI-Modelle mit automatisierter Codeausführung kombinieren, um Genauigkeit und Konsistenz sicherzustellen. (ej/BIERMANN)
Mehr erfahren zu: "Kinder mit Typ-1-Diabetes: Anspruch auf Pflegegrad 2 für alle" Kinder mit Typ-1-Diabetes: Anspruch auf Pflegegrad 2 für alle Anlässlich des „Internationalen Tages der Pflegenden“, zu denen bei Kindern mit Diabetes Typ 1 auch die Eltern zählen, machen die Deutsche Diabetes-Hilfe und die Deutsche Diabetes Gesellschaft (DDG) auf anhaltende […]
Mehr erfahren zu: "Einigung: Mehr wichtige Medikamente sollen in Europa hergestellt werden" Einigung: Mehr wichtige Medikamente sollen in Europa hergestellt werden Im Kampf gegen Engpässe bei lebenswichtigen Medikamenten in der EU haben sich Unterhändler in Brüssel auf Regeln geeinigt, um die Produktion von Arzneimitteln leichter mit öffentlichen Geldern unterstützen zu können. […]
Mehr erfahren zu: "Profitieren Kinder mit Autismus von Transkranieller Magnetstimulation?" Profitieren Kinder mit Autismus von Transkranieller Magnetstimulation? Kinder mit Autismus-Spektrum-Störung (ASS) zeigen meist Einschränkungen ihrer sozialen Kommunikation. Eine Forschungsgruppe aus China berichtet nun im „British Medical Journal“ von deutlichen Verbesserungen dieses Defizits durch die nicht invasive Stimulation […]