Dunklere Haut auf Bildern erschwert Diagnose

Foto: © rocketclips – stock.adobe.com

Bei der Diagnose von Hautkrankheiten, die ausschließlich auf Bildern der Haut eines Patienten beruht, schneiden Ärzte schlechter ab, wenn der Patient eine dunklere Haut hat. Richtig eingesetzt, könnte Künstliche Intelligenz (KI) helfen.

Die Studie, an der mehr als 1.000 Dermatologen und Allgemeinmediziner teilnahmen, ergab, dass Dermatologen etwa 38 Prozent der Bilder, die sie sahen, richtig charakterisierten, aber nur 34 Prozent der Bilder, die eine dunklere Haut zeigten. Allgemeinmediziner, die insgesamt weniger genau waren, zeigten eine ähnliche Abnahme der Genauigkeit bei dunklerer Haut. Das Forschungsteam fand auch heraus, dass die Unterstützung durch einen Algorithmus mit KI die Genauigkeit der Ärzte verbessern konnte, obwohl diese Verbesserungen bei der Diagnose von Patienten mit heller Haut größer waren.

Dies ist zwar die erste Studie, die Unterschiede bei der Diagnose von Ärzten je nach Hautfarbe nachweist, doch haben andere Studien ergeben, dass die in dermatologischen Lehrbüchern und Schulungsmaterialien verwendeten Bilder überwiegend hellere Hauttöne zeigen. Dies könnte ein Faktor sein, der zu der Diskrepanz beiträgt, so die Forschenden, ebenso wie die Möglichkeit, dass einige Ärzte weniger Erfahrung in der Behandlung von Patienten mit dunklerer Haut haben.

„Wahrscheinlich hat kein Arzt die Absicht, bei irgendeiner Art von Person schlechter abzuschneiden, aber es könnte sein, dass man nicht über das gesamte Wissen und die Erfahrung verfügt und deshalb bei bestimmten Personengruppen schlechter abschneidet“, sagt Matt Groh, Assistenzprofessor an der Kellogg School of Management der Northwestern University. „Dies ist eine der Situationen, in denen man empirische Beweise braucht, um herauszufinden, wie man die Politik im Bereich der Dermatologieausbildung ändern könnte.“ Groh ist der Hauptautor der Studie, die heute in Nature Medicine erscheint. Rosalind Picard, eine MIT-Professorin für Medienkunst und -wissenschaften, ist die Hauptautorin der Studie.

Diagnostische Diskrepanzen

Vor einigen Jahren stellte eine Studie unter der Leitung von Joy Buolamwini  fest, dass Gesichtsanalyseprogramme bei der Vorhersage des Geschlechts von dunkelhäutigen Menschen eine viel höhere Fehlerquote aufweisen. Diese Erkenntnis inspirierte Groh, der sich mit der Zusammenarbeit zwischen Mensch und KI beschäftigt, zu untersuchen, ob KI-Modelle und möglicherweise auch Ärzte selbst Schwierigkeiten haben könnten, Hautkrankheiten bei dunkleren Hauttönen zu diagnostizieren – und ob diese diagnostischen Fähigkeiten verbessert werden könnten.

„Das schien mir eine großartige Gelegenheit zu sein, um herauszufinden, ob es ein soziales Problem gibt und wie wir es beheben könnten, und um herauszufinden, wie wir die KI am besten in die medizinische Entscheidungsfindung einbauen können“, sagt Groh. „Ich bin sehr daran interessiert, wie wir maschinelles Lernen auf reale Probleme anwenden können, insbesondere wie wir Experten helfen können, ihre Arbeit besser zu machen. Die Medizin ist ein Bereich, in dem Menschen wirklich wichtige Entscheidungen treffen, und wenn wir ihre Entscheidungsfindung verbessern könnten, könnten wir auch die Ergebnisse für die Patienten verbessern.“

Um die Diagnosegenauigkeit der Ärzte zu bewerten, stellten die Forschenden eine Reihe von 364 Bildern aus Dermatologie-Lehrbüchern und anderen Quellen zusammen, die 46 Hautkrankheiten in vielen Schattierungen darstellen. Die meisten dieser Bilder zeigten eine von acht entzündlichen Hautkrankheiten, darunter Atopische Dermatitis, Borreliose und sekundäre Syphilis sowie das kutane T-Zell-Lymphom (CTCL), das ähnlich wie eine entzündliche Hauterkrankung aussehen kann. Viele dieser Krankheiten, einschließlich der Lyme-Krankheit, können sich auf dunkler und heller Haut unterschiedlich darstellen.

Das Forschungsteam rekrutierte die Probanden für die Studie über Sermo, eine soziale Netzwerkseite für Ärzte. Die gesamte Studiengruppe umfasste 389 zertifizierte Dermatologen, 116 Assistenzärzte für Dermatologie, 459 Allgemeinmediziner und 154 andere Ärzte. Jedem Studienteilnehmer wurden zehn Bilder gezeigt, und er wurde gebeten, seine drei besten Vorhersagen darüber zu machen, welche Krankheit jedes Bild darstellen könnte. Sie wurden auch gefragt, ob sie den Patienten zu einer Biopsie überweisen würden. Darüber hinaus wurden die Allgemeinmediziner gefragt, ob sie den Patienten an einen Dermatologen überweisen würden.

„Dies ist nicht so umfassend wie eine persönliche Triage, bei der der Arzt die Haut aus verschiedenen Blickwinkeln untersuchen und die Beleuchtung steuern kann“, sagt Picard. Hautbilder seien jedoch für die Online-Triage besser skalierbar und ließen sich leicht in einen Algorithmus für maschinelles Lernen eingeben, der schnell eine wahrscheinliche Diagnose stellen könne.

Die Forschenden fanden heraus, dass, wenig überraschend, Fachärzte für Dermatologie höhere Genauigkeitsraten aufwiesen: Sie klassifizierten 38 Prozent der Bilder richtig, verglichen mit 19 Prozent bei Allgemeinmedizinern. Beide Gruppen verloren etwa vier Prozentpunkte an Genauigkeit, wenn sie versuchten, Hautkrankheiten anhand von Bildern dunklerer Haut zu diagnostizieren – ein statistisch signifikanter Rückgang. Die Wahrscheinlichkeit, dass Dermatologen dunkle Hautbilder von CTCL zur Biopsie überweisen, war ebenfalls geringer, während sie sie bei nicht krebsartigen Hauterkrankungen eher zur Biopsie überweisen.

Ein Schub durch Künstliche Intelligenz

Nachdem die Forschenden bewertet hatten, wie die Ärzte allein vorgingen, gaben sie ihnen zusätzliche Bilder, die sie mithilfe eines von den Forschern entwickelten KI-Algorithmus analysieren sollten. Die Forschenden trainierten diesen Algorithmus auf etwa 30000 Bildern und baten ihn, die Bilder einer der acht Krankheiten zuzuordnen, die die meisten Bilder darstellten, sowie einer neunten Kategorie „Sonstige“.

Dieser Algorithmus hatte eine Trefferquote von etwa 47 Prozent. Die Forschenden erstellten auch eine andere Version des Algorithmus mit einer künstlich aufgeblähten Erfolgsquote von 84 Prozent, um zu bewerten, ob die Genauigkeit des Modells die Wahrscheinlichkeit beeinflussen würde, dass die Ärzte seine Empfehlungen annehmen. „Auf diese Weise können wir die KI-Unterstützung mit Modellen bewerten, die derzeit das Beste sind, was wir tun können, und mit KI-Unterstützung, die in fünf Jahren mit besseren Daten und Modellen vielleicht noch genauer sein könnte“, sagt Groh.

Beide Klassifikatoren sind bei heller und dunkler Haut gleich genau. Die Forschenden fanden heraus, dass die Verwendung eines dieser KI-Algorithmen die Genauigkeit sowohl bei Dermatologen (bis zu 60 Prozent) als auch bei Allgemeinmedizinern (bis zu 47 Prozent) verbesserte. Sie fanden auch heraus, dass die Ärzte eher die Vorschläge des Algorithmus mit der höheren Genauigkeit annahmen, nachdem dieser einige richtige Antworten geliefert hatte, aber nur selten KI-Vorschläge übernahmen, die falsch waren. Dies deutet darauf hin, dass die Ärzte sehr gut darin sind, Krankheiten auszuschließen und keine KI-Vorschläge für eine Krankheit annehmen, die sie bereits ausgeschlossen haben, sagt Groh. „Sie sind ziemlich gut darin, KI-Ratschläge nicht anzunehmen, wenn die KI falsch liegt und die Ärzte recht haben. Das ist etwas, das man wissen sollte“, sagt er.

Während Dermatologen, die die KI-Unterstützung nutzen, bei der Betrachtung von Bildern mit heller oder dunkler Haut eine ähnliche Verbesserung der Genauigkeit aufwiesen, zeigten Allgemeinmediziner eine größere Verbesserung bei Bildern mit heller Haut als bei dunkler Haut.

„Mit dieser Studie können wir nicht nur sehen, wie sich die KI-Unterstützung auswirkt, sondern auch, wie sie sich auf die verschiedenen Ebenen der Expertise auswirkt“, sagt Groh. „Es könnte sein, dass die Ärzte für Allgemeinmedizin nicht so viel Erfahrung haben und deshalb nicht wissen, ob sie eine Krankheit ausschließen sollten oder nicht, weil sie nicht so tief in die Details eindringen können, wie verschiedene Hautkrankheiten auf verschiedenen Hauttönen aussehen könnten.“

Die Forschenden hoffen, dass ihre Ergebnisse dazu beitragen werden, die medizinischen Fakultäten und Lehrbücher dazu anzuregen, Patienten mit dunklerer Hautfarbe stärker zu schulen. Die Ergebnisse könnten auch dazu beitragen, den Einsatz von KI-Hilfsprogrammen für die Dermatologie zu fördern, die derzeit von vielen Unternehmen entwickelt werden.