Helmholtz-Förderung für KI: Wie sind genetische Netzwerke “verkabelt”?

Junker mit Zebrafischen, die als Modellorganismus im Forschungsprojekt dienen. Foto: Pablo Castagnola/MDC

MDC-Forscher Jan Philipp Junker und seine Kollegin Maria Colomé-Tatché am Helmholtz Zentrum München haben eine Förderung in Höhe von 200.000 Euro erhalten, um die Verarbeitung großer Datenberge voranzubringen. Sie wollen besser verstehen, wie genetische Netzwerke im Laufe von Entwicklung und Erkrankung miteinander „verkabelt” sind – das heißt, welche Gene während der Entwicklung von undifferenzierten Zellen zu spezifischen Zelltypen (etwa Gehirnzellen) in einzelnen Zellen aktiv sind.

Ein allgemeines Verständnis, wie aus Stammzellen spezialisierte Zellen werden, hat die Wissenschaft längst. Nun möchten die Forschenden es noch genauer wissen. Sie wollen die Anweisungen, die Zukunft und Funktion einer Zelle bestimmen, in jedem Teilschritt ergründen. Denn wer weiß, wie Gene während des normalen Zelldifferenzierungsprozesses nacheinander an- und abgeschaltet werden – also den exakten Fluss des „Genregulationsnetzwerks“ kennt – der gewinnt gleichzeitig Einsichten, was bei Erkrankungen „schiefläuft“.

Die Forschenden am Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft (MDC) und am Helmholtz Zentrum München werden mithilfe ihrer Helmholtz-Förderung für Künstliche Intelligenz (KI) versuchen, diese komplexen Netzwerke zu entschlüsseln. Dabei kombinieren sie hochspezialisierte Werkzeuge für Experimente, Sequenzierung und maschinelles Lernen. „Angesichts neuester technologischer Entwicklungen ist das bisher fast unerreichbar scheinende Ziel plötzlich greifbar nah“, sagt Dr. Jan Philipp Junker, der die Arbeitsgruppe Quantitative Entwicklungsbiologie am Berliner Institut für Medizinische Systembiologie des MDC leitet.

Anspruchsvolle Zusammenarbeit
Die Helmholtz-Förderprogramm für KI (Helmholtz AI Grant program) unterstützt risikoreiche und zugleich höchst lohnende Forschung für den relativ kurzen Zeitraum von drei Jahren. Es ermutigt Forschende, neue Ideen auszuprobieren und, falls notwendig, „schnell zu scheitern“, um mit ihren Innovationen voranzukommen. „Das bedeutet nicht, dass es sich um vollkommen leichtsinnige Forschung handelt und wir bereit sind, das Geld zu verbrennen“, sagt Junker. „Es ist ein kalkuliertes Risiko.“
Die Förderung in Höhe von 200.000 Euro teilen sich Junker und seine Kollegin, Dr. Maria Colomé-Tatché, Arbeitsgruppenleiterin am Institute of Computational Biology am Helmholtz Zentrum München, zu gleichen Teilen, um einen Post-Doc und eine Doktorandin zu finanzieren, die Experimente durchführen, computerbasierte Werkzeuge entwickeln und Daten analysieren. Beide Zentren steuern gleichzeitig jeweils die gleiche Summe bei.

Wirklich große Datenmengen
Dank der Einzelzell-Sequenzierung können Wissenschaftler nun sehen, welche Gene während der Entwicklung von undifferenzierten Zellen zu spezifischen Zelltypen (etwa Gehirnzellen) in einzelnen Zellen aktiv sind. Bisher haben computerbasierte Werkzeuge jedoch nicht erfolgreich zusammenfügen können, wie genau sich die Gene gegenseitig beeinflussen.
„Grundsätzlich können wir sehen, was geschieht – welche Gene eingeschaltet und welche ausgeschaltet werden, wenn eine Zelle sich ausdifferenziert. Aber zu verstehen, welches Gen welches einschaltet und wie die Aktivierungsnetzwerke in unterschiedlichen Zelltypen funktionieren, ist im Wesentlichen noch eine offene Frage“, erklärt Junker.

Die Beantwortung dieser Frage erfordert enorme Datenmengen – die Sequenzierung Zehntausender aktiver Gene in Zehntausenden einzelnen Zellen. Ein Datensatz umfasst wenigstens 20.000 Dimensionen. Hier können KI und maschinelles Lernen helfen, die gesamten Daten zu sichten und aussagekräftige Muster zu finden, die in diesem Fall die Genregulationsnetzwerke sind.
Dazu ist außerdem erforderlich, die zeitlichen Verläufe zahlreicher Datenströme so aufeinander abzustimmen, dass sie sinnvoll analysiert werden können und genaue Erkenntnisse liefern. Das Forschungsteam arbeitet daran, diese Abstimmung zu verbessern. Insbesondere haben sie dafür eine Methode namens SLAM-seq so verändert, dass frisch transkribierte RNA-Moleküle markiert. Diese deuten auf neu aktivierte Gene hin. Die Identifizierung alter RNA in einer Zelle im Gegensatz zu neuer RNA wird dabei helfen, die Reihenfolge von Gen-Aktivierungen zu klären. Die Kombination dieser Daten mit Daten zur Zugänglichkeit der DNA sollte helfen, die Netzwerk-Rekonstruktionen zu präzisieren.

Zukünftige Anwendungen
Zu Beginn wollen Junker und sein Team Gen-Netzwerke in der normalen embryonalen Entwicklung von Zebrafischen rekonstruieren, einem Modellorganismus für Wirbeltiere inklusive des Menschen. Sobald sie die computergestützten Herangehensweisen überprüft haben, wollen sie diese nutzen, um die Entwicklung von Krankheiten beim Menschen zu untersuchen. Dies kann Türen zu neuen Therapien öffnen. „Wenn uns in fernerer Zukunft das komplette Zelldifferenzierungs-netzwerk eines Organs vorliegt“, sagt Junker, „könnten wir am Reißbrett entscheiden, welchen Pfeil oder Knoten wir mit einer Therapie angreifen wollen.“