Klassifizierung pigmentierter Hautläsionen: Algorithmen übertreffen bereits die meisten Mediziner bei der Diagnose

Hochmoderne Analysesysteme, die auf maschinellem Lernen basieren, können Mediziner bei der Diagnose pigmentierter Hautläsionen zu übertreffen. Das zeigt eine unverblindete, webbasierte, internationale diagnostische Studie.

Mediziner wurden gebeten, eine Diagnose anhand dermatoskopischer Bilder zu stellen. Dabei handeltes es sich um Sätze aus 30 Bildern, die aus einem Testsatz von 1511 Bildern randomisiert ausgewählt wurden. Die Diagnosen der menschlichen Beurteiler wurden mit jenen von 139 Algorithmen verglichen, die von 77 Laboren stammten, die sich mit der Entwicklung maschinellen Lernens beschäftigen und an der „International Skin Imaging Collaboration 2018 Challenge“ teilnahmen. Sie hatten vorab einen Schulungssatz mit 10.015 Bildern erhalten. Jede Läsion konnte einer von 7 vordefinierten Krankheitskategorien zugeordnet werden: intraepitheliales Karzinom, inkl. aktinischer Keratose und Morbus Bowen; Basalzellkarzinom; gutartige keratinozytäre Läsionen, inkl. solarer Lentigo, seborrhoischer Keratose und lichenoider Keratose; Dermatofibrom; Melanom; melanozytärer Nävus und vaskuläre Läsionen.

Vom 04.08.–30.09.2018 haben insgesamt 511 Menschen aus 63 Ländern ≥1-mal an der Beurteilung teilgenommen. Von den 511 Teilnehmern waren 283 (55,4 %) Fachärzte der Dermatologie, 118 (23,1 %) Assistenzärzte der Dermatologie und 83 (16,2 %) Allgemeinmediziner. Beim Vergleich mit allen menschlichen Diagnosestellern erzielten die Algorithmen einen Mittelwert von 2,01 mehr korrekt gestellten Diagnosen (95 %-KI 1,97–2,04; p <0,0001; 17,91 [SD 3,42] vs. 19,92 [4,27]). Insgesamt 27 der Experten, die über >10 Jahre Erfahrung verfügten, erzielten im Mittel 18,78 (SD 3,15) korrekte Antworten, die 3 besten Algorithmen 25,43 (1,95) (durchschnittlicher Unterschied 6,65, 95 %-Kl 6,06–7,25; p <0,0001).

Der Unterschied zwischen menschlichen Experten und den 3 besten Algorithmen war allerdings signifikant niedriger, wenn die Bilder im Testsatz aus Quellen stammten, die nicht im Trainingssatz für die Algorithmen enthalten waren (unterdurchschnittliche Leistung der menschlichen Beurteiler von 11,4% [95 %-KI 9,9–12,9] vs. 3,6 % [0,8–6,3]; p<0,0001). (sh)

Autoren: Tschandl P et al.
Korrespondenz: Dr. Harald Kittler; [email protected]
Studie: Comparison of the accuracy of human readers versus machine-learning algorithms for pigmented skin lesion classification: an open, web-based, international, diagnostic study
Quelle: Lancet Oncol 2019;20(7):938–947.
Web: dx.doi.org/10.1016/S1470-2045(19)30333-X