Künstliche Intelligenz zur Diagnose und Gleason-Klassifikation von Prostatakrebs

Künstliche Intelligenz gewinnt zunehmend an Bedeutung in der Krebsdiagnostik. Grafik: gopixa – stock.adobe.com

Ein internationales Konsortium hat eine Vielzahl von Algorithmen Künstlicher Intelligenz (KI) validiert, die bei unabhängigen Kohorten über Kontinente hinweg eine Leistung auf Pathologenniveau erreichten.

Künstliche Intelligenz (KI) hat sich für die Diagnose von Prostatakrebs in Biopsien als vielversprechend erwiesen. Die Ergebnisse waren jedoch auf einzelne Studien beschränkt, da es ihnen an Validierung in multinationalen Settings mangelte. Inzwischen haben sich Wettbewerbe als Beschleuniger für Innovationen in der medizinischen Bildgebung erwiesen, ihre Wirkung wird aber durch Mangel an Reproduzierbarkeit und unabhängiger Validierung behindert.

Vor diesem Hintergrund hat das PANDA-Challenge-Konsortium (PANDA: Prostate cANcer graDe Assessment using the Gleason grading system) um Wouter Bulten vom Radboud Universitair Medisch Centrum in Nijmegen, Niederlande, die PANDA Challenge organisiert, den bisher größten Histopathologie-Wettbewerb, an dem sich 1290 Entwickler beteiligten. Damit wollten die Wissenschaftler die Entwicklung reproduzierbarer KI-Algorithmen für die Gleason-Klassifikation unter Verwendung von 10.616 digitalisierten Prostatabiopsien katalysieren.

Nach Ende des Wettbewerbs wählten die Autoren 15 Teams dafür aus, dass ihre Algorithmen umfassend und unabhängig anhand neuer Daten validiert wurden. Die Auswahl basierte auf der Punktzahl auf der endgültigen Bestenliste und der Methodenbeschreibung sowie dem wissenschaftlichen Beitrag.

Das Team um Bulten reproduzierte diese 15 Algorithmen ohne die ursprünglichen Entwickler vollständig in separaten Cloud-Systemen. Dadurch wurde sichergestellt, dass die Algorithmen unverändert und ohne zusätzliches Tuning evaluiert wurden. Anschließend wendeten die Wissenschaftler die Algorithmen auf neue Daten aus der EU und den USA an. Die Challenge, kombiniert mit diesen zusätzlichen Auswertungen, führte zu insgesamt 32.137.756 Biopsien, die von den Algorithmen verarbeitet wurden.

Eine Vielzahl eingereichter Algorithmen erreichte bei unabhängigen Kohorten über Kontinente hinweg eine Leistung auf Pathologenniveau. Bei externen Validierungssätzen aus den USA und Europa erreichten die Algorithmen Übereinstimmungen von 0,862 (quadratisch gewichtetes κ; 95%-KI 0,840–0,884) und 0,868 (95%-KI, 0,835–0,900) mit erfahrenen Uropathologen. Die erfolgreiche Verallgemeinerung über verschiedene Patientenpopulationen, Labore und Referenzstandards hinweg, die durch eine Vielzahl von algorithmischen Ansätzen erreicht wurde, rechtfertige die Bewertung der KI-basierten Gleason-Einstufung in prospektiven klinischen Studien, bilanziert das Team.

(sf/ms)