Best Paper Award: Hirntumore mit Künstlicher Intelligenz bewerten

Die Beurteilung von Tumoren in MRT-Bildern ist ein wichtiger diagnostischer Schritt, der durch KI unterstützt werden kann. (Quelle: TU Darmstadt)

Ein Einsatzgebiet von Künstlicher Intelligenz (KI) ist maschinelle Auswertung bildgebender Daten. Ein internationales und interdisziplinäres Team unter Leitung der TU Darmstadt hat kürzlich untersucht, ob sich Aufnahmen von Hirntumoren durch KI besser beurteilen lassen. Für diese Veröffentlichung hat das Team bei der weltweit größten Wirtschaftsinformatik Konferenz ICIS den Best Paper Award gewonnen.

Ein internationales Team von Forschenden der TU Darmstadt, der University of Cambridge, des Wissenschafts- und Technologieunternehmens Merck sowie des Klinikums rechts der Isar der TU München hat in einer internationalen und interdisziplinären Kooperation untersucht, wie Softwaresysteme aufgabenspezifisch relevante Informationen sammeln, aufbereiten und auswerten und so die Arbeit von Menschen, in diesem Fall Radiologen, unterstützen.

Die Studie, die nun mit dem Best Paper Award ausgezeichnet wurde, liefert empirische Daten zum Einfluss von maschinell lernenden Systemen (ML-Systemen) auf menschliches Lernen. Zudem zeigt sie, wie wichtig es für Endnutzer ist, ob die Resultate maschineller Lernverfahren nachvollziehbar und verständlich sind. Diese Erkenntnisse sind nicht nur für medizinische Diagnosen in der Radiologie relevant, sondern für alle, die durch die tägliche Nutzung von KI-Tools, wie beispielsweise ChatGPT, selbst zu Reviewern, also Bewertenden von ML-Output werden.

Sara Ellenrieder und Prof. Peter Buxmann. (Foto: © TU Darmstadt)

Das Forschungsprojekt unter Leitung der TU-Forschenden Sara Ellenrieder und Prof. Peter Buxmann untersuchte die Nutzung von ML-basierten Entscheidungsunterstützungssystemen in der Radiologie, speziell bei der manuellen Segmentierung von Hirntumoren in MRT-Bildern. Im Fokus stand die Frage, wie Radiologen von diesen Systemen lernen können, um ihre Leistungen und Entscheidungssicherheit zu verbessern. Die Autoren verglichen dabei unterschiedlich leistungsfähige ML-Systeme und analysierten, wie die Erklärung des ML-Outputs die Nachvollziehbarkeit der Ergebnisse für die Radiologen verbesserte. Das Forschungsziel ist es, herauszufinden, wie Radiologen langfristig von diesen Systemen profitieren und diese sicher einsetzen können.

Dazu führte das Projektteam ein Experiment mit Radiologen verschiedener Kliniken durch. Die Mediziner wurden gebeten, Tumore in MRT-Bildern zu segmentieren, bevor und nachdem sie ML-basierte Entscheidungsunterstützung erhalten hatten. Dabei wurden verschiedenen Gruppen unterschiedlich leistungsfähige oder transparente ML-Systeme an die Seite gestellt. Neben der Erfassung quantitativer Leistungsdaten während des Experiments sammelten die Forschenden auch qualitative Daten mittels „Think-Aloud“-Protokollen und anschließenden Interviews.

Im Rahmen des Experiments wurden 690 manuelle Segmentierungen von Hirntumoren durch die Radiologen vorgenommen. Die Ergebnisse zeigen, dass Radiologen von den Informationen lernen können, die leistungsstarke ML-Systeme bereitstellen. Durch die Interkation verbesserten sie ihre Leistung. Allerdings zeigt die Studie auch, dass fehlende Erklärbarkeit von ML-Output bei leistungsschwachen Systemen durchaus zu einem Leistungseinbruch bei den Ärzten führen kann. Besonders interessant ist, dass die Bereitstellung von Erklärungen des ML-Outputs nicht nur die Lernerfolge der Radiologen verbesserte, sondern auch das Lernen fehlerhafter Informationen verhinderte. Tatsächlich konnten einige Mediziner sogar aus Fehlern lernen, die leistungsschwache, aber ihren Output gut erklärende Systeme machten.

„Die Zukunft der Mensch-KI-Kollaboration liegt in der Entwicklung von erklärbaren und transparenten KI-Systemen, die es insbesondere dem Endnutzer ermöglichen, von den Systemen zu lernen und langfristig bessere Entscheidungen zu treffen“, fasst Buxmann von der TU Darmstadt zusammen.