Künstliche Intelligenz: Daten diversifizieren, um Verzerrungen zu vermeiden28. Februar 2024 Foto: © MQ-Illustrations – stock.adobe.com Die Künstliche Intelligenz (KI) hat das Potenzial, das Gesundheitswesen zu revolutionieren, aber sie bringt auch eine große Herausforderung mit sich: Verzerrungen. Ein Dermatologe könnte zum Beispiel ein KI-gesteuertes System verwenden, um verdächtige Muttermale zu erkennen. Was aber, wenn das maschinelle Lernmodell hauptsächlich auf Bilddaten von helleren Hauttypen trainiert wurde und eine häufige Form von Hautkrebs bei einem dunkelhäutigen Patienten übersieht? Im Jahr 2021 fanden Forschende heraus, dass kostenlose Bilddatenbanken, die zum Trainieren von KI-Systemen für die Diagnose von Hautkrebs verwendet werden können, nur sehr wenige Bilder von Menschen mit dunklerer Haut enthalten. KI ist nur so gut wie ihre Daten, und verzerrte Daten können zu schwerwiegenden Folgen führen. In einer neuen Arbeit, die auf der AAAI-Konferenz veröffentlicht wurde, schlagen Forschende einen neuen Ansatz vor, um Verzerrungen beim Training von maschinellen Lernmodellen, insbesondere bei der Bilderzeugung, zu verringern. Die Forschenden verwendeten eine Familie von Algorithmen, die als „quality-diversity algorithms“ oder QD-Algorithmen bezeichnet werden, um vielfältige synthetische Datensätze zu erstellen, die strategisch die Lücken in realen Trainingsdaten schließen können. Die Arbeit wurde federführend von Allen Chang, einem Studenten mit den Hauptfächern Informatik und Angewandte Mathematik, verfasst. Koautoren sind der Doktorand Matthew Fontaine und der USC-Informatiker Stefanos Nikolaidis, Fluor Early Career Chair in Engineering und Assistenzprofessor für Informatik, Maja Matarić, Chan Soon-Shiong Chair und Distinguished Professor of Computer Science, Neuroscience, and Pediatrics, und Serena Booth, Doktorandin am Massachusetts Institute of Technology. „Ich denke, es ist unsere Verantwortung als Informatiker, alle Gemeinschaften, einschließlich Minderheiten oder weniger häufig vorkommende Gruppen, in den Systemen, die wir entwerfen, besser zu schützen“, so Chang. „Wir hoffen, dass die Optimierung der Qualitätsdiversität dazu beitragen kann, faire synthetische Daten zu generieren, die in medizinischen Anwendungen und anderen Arten von KI-Systemen breite Anwendung finden.“ Während in der Vergangenheit generative KI-Modelle zur Erstellung synthetischer Daten verwendet wurden, bestehe die Gefahr, dass sie verzerrte Daten produzieren, die wiederum die nachgelagerten Modelle verzerren und so einen Teufelskreis schaffen könnten, so Chang. Algorithmen zur Qualitätsvielfalt hingegen werden in der Regel verwendet, um verschiedene Lösungen für ein Problem zu generieren, zum Beispiel um Robotern bei der Erkundung unbekannter Umgebungen zu helfen oder um Spielstufen in einem Videospiel zu erzeugen. In diesem Fall wurden die Algorithmen auf eine neue Weise eingesetzt: zur Lösung des Problems der Erstellung unterschiedlicher synthetischer Datensätze. Mit dieser Methode war das Team in der Lage, in 17 Stunden einen vielfältigen Datensatz von etwa 50.000 Bildern zu erzeugen, was etwa 20 Mal effizienter ist als herkömmliche Methoden des „rejection sampling“. Das Team testete den Datensatz anhand von bis zu vier Merkmalen der Vielfalt – Hautfarbe, Geschlecht, Alter und Haarlänge. „Wir haben festgestellt, dass die mit unserer Methode erzeugten Trainingsdaten das Potenzial haben, die Fairness des maschinellen Lernmodells zu erhöhen und die Genauigkeit bei Gesichtern mit dunkleren Hauttönen zu steigern, während die Genauigkeit beim Training mit zusätzlichen Daten erhalten bleibt“, so Chang. „Dies ist eine vielversprechende Richtung für die Erweiterung von Modellen mit vorurteilsbewusstem Sampling, von dem wir hoffen, dass es KI-Systemen helfen kann, für alle Nutzer präzise Ergebnisse zu erzielen.“ Insbesondere erhöht die Methode die Repräsentation von intersektionellen Gruppen – ein Begriff für Gruppen mit mehreren Identitäten – in den Daten. „Während es bereits frühere Arbeiten zur Nutzung von QD-Algorithmen zur Generierung vielfältiger Inhalte gab, zeigen wir zum ersten Mal, dass generative Modelle QD nutzen können, um voreingenommene Klassifizierer zu reparieren“, so Nikolaidis. „Sie tun dies, indem sie iterativ Inhalte über benutzerspezifische Merkmale generieren und neu ausbalancieren und die neu ausbalancierten Inhalte verwenden, um die Fairness der Klassifikatoren zu verbessern. Diese Arbeit ist ein erster Schritt in die Richtung, dass sich verzerrte Modelle durch iterative Generierung und Neutraining auf synthetischen Daten selbst reparieren können.“
Mehr erfahren zu: "Interviewstudie zu Forschungsprioritäten von Patienten mit Melanom" Weiterlesen nach Anmeldung Interviewstudie zu Forschungsprioritäten von Patienten mit Melanom Patienten mit Melanom möchten die Forschung aktiv mitgestalten. Eine britische Untersuchung zeigt, welche Themen sie besonders priorisieren – von Prävention über Diagnostik bis hin zu Therapie und Nachsorge.
Mehr erfahren zu: "Möglicher Grund entdeckt, weshalb Melanomzellen aggressiver werden" Möglicher Grund entdeckt, weshalb Melanomzellen aggressiver werden Das „Durchpressen“ durch feinste Venen könnte Melanomzellen aggressiver machen und die Metastasierung begünstigen, so die Vermutung einer Arbeitsgruppe aus Australien.
Mehr erfahren zu: "Pollen-Sonnenschutzmittel blockiert UV-Strahlen und schädigt keine Korallen " Pollen-Sonnenschutzmittel blockiert UV-Strahlen und schädigt keine Korallen Materialwissenschaftler der Nanyang Technological University, Singapur, haben ein Pollen-basiertes Sonnenschutzmittel entwickelt, das aus Kamelien-Blüten gewonnen wird.