Künstliche Intelligenz: Verzerrungen bei Diagnose von Hauterkrankungen

© MQ-Illustrations – stock.adobe.com (Symbolbild)

Große Sprachmodelle wie ChatGPT-4 und LLaVA bewerten Hauterkrankungen teils verzerrt – mit Unterschieden nach Alter und Geschlecht. Dies sollte vor einem klinischen Einsatz berücksichtigt werden.

Ein internationales Forschungsteam unter Leitung von Zhiyu Wan von der ShanghaiTech University in China hat im „Journal Health Data Science“ neue Ergebnisse veröffentlicht, die Verzerrungen in multimodalen großen Sprachmodellen (Large Language Models, LLMs) wie ChatGPT-4 und LLaVA bei der Analyse von Hauterkrankungen in medizinischen Bilddaten belegen. In der Studie untersuchten sie systematisch die Leistungsfähigkeit dieser Modelle hinsichtlich Geschlecht und Altersgruppen.

Unsicherheiten durch Verzerrungen

Unter Verwendung von etwa 10.000 dermatoskopischen Bildern konzentrierte sich die Untersuchung auf drei häufige Hauterkrankungen: Melanom, melanozytäre Nävi und benigne, keratoseähnliche Läsionen. Die Resultate belegen, dass ChatGPT-4 und LLaVA zwar insgesamt den Großteil herkömmlicher Deep-Learning-Modelle übertreffen, ChatGPT-4 jedoch eine größere Ausgewogenheit zwischen den demografischen Gruppen aufweist, während LLaVA deutliche geschlechtsspezifische Verzerrungen zeigt.

Wan betont: „Große Sprachmodelle wie ChatGPT-4 und LLaVA bieten großes Potenzial in der Dermatologie. Dennoch müssen die beobachteten Verzerrungen, insbesondere bezüglich Geschlecht und Alter, adressiert werden, um die Sicherheit und Effektivität dieser Technologien für sämtliche Patienten sicherzustellen.“

Weiterentwicklung medizinischer KI-Systeme

Das Forschungsteam plant weitere Untersuchungen, bei denen zusätzliche demografische Merkmale wie Hautfarbe einbezogen werden, um die Ausgewogenheit und Zuverlässigkeit von KI-Modellen in klinischen Szenarien umfassend zu bewerten. Die Studie liefert damit entscheidende Impulse für die Weiterentwicklung gerechter und vertrauenswürdiger medizinischer KI-Systeme.