Google für DNA: Neues Tool ermöglicht schnelles Durchsuchen von DNA-Sequenzierungen16. Oktober 2025 Symbolbild: ©Grispb/stock.adobe.com Das von der Eidgenössischen Technischen Hochschule Zürich (ETH Zürich) entwickelte und frei zugängliche Tool MetaGraph ermöglicht ein schnelles Durchsuchen von DNA-Sequenzierungen – effizient, präzise und günstig. In Patienten lassen sich seltene Erbkrankheiten, in Tumorzellen besondere Mutationen erkennen – die Sequenzierung von DNA hat die biomedizinische Forschung bereits vor Jahrzehnten revolutioniert. Vor allem neue Sequenzierungsmethoden (Next-Generation-Sequencing) führten in den letzten Jahren zu zahlreichen wissenschaftlichen Durchbrüchen. Sie ermöglichten beispielsweise 2020/2021 die rasche Entschlüsselung und weltweite Überwachung des SARS-CoV-2-Genoms. Immer mehr Forschende stellen die Ergebnisse sequenzierter DNA öffentlich zur Verfügung. So sind unterdessen riesige Mengen an Daten entstanden, die in zentralen Datenbanken wie dem amerikanischen SRA (Sequence Read Archive) oder dem europäischen ENA (European Nucleotide Archive) abgespeichert sind. Circa 100 Petabyte an Daten sind dort aufbewahrt – ungefähr gleich viel wie der gesamte Text im Internet. Ein Petabyte entspricht einer Million Gigabyte. Um diese Menge an DNA-Sequenzen zu durchsuchen und mit eigenen Sequenzen abzugleichen, benötigen Biomediziner bislang viel Rechenleistung und andere Ressourcen. So wird die effiziente Suche im Datenberg zu einer schieren Unmöglichkeit. Diesem Problem haben sich Computerwissenschaftler der ETH Zürich gewidmet – und eine Lösung gefunden. Volltextsuche statt Download ganzer Datensätze Die Forscher haben ein Verfahren entwickelt, welches die Suche stark verkürzt und erleichtert. Das digitale Tool MetaGraph durchsucht die Rohdaten aller in den Datenbanken gespeicherten DNA- oder RNA-Sequenzen – ganz wie eine herkömmliche Internet-Suchmaschine. Forschende können eine Sequenz, die sie interessiert, als Volltext in eine Suchmaske eingeben, worauf sie je nach Anfrage innerhalb von Sekunden oder Minuten erfahren, wo diese bereits aufgetaucht ist. „Es handelt sich um eine Art Google für DNA“, fasst Prof. Gunnar Rätsch, Datenwissenschaftler am Institut für Informatik an der ETH, zusammen. Bislang mussten Forschende die Datenbanken nach beschreibenden Metadaten durchsuchen. Um an die Rohdaten zu gelangen, mussten sie die jeweiligen Datensätze herunterladen. Die Suche war lückenhaft, aufwendig und teuer. MetaGraph sei vergleichsweise günstig, wie die Forscher in ihrer kürzlich in „Nature“ publizierten Studie schreiben. Die Darstellung aller öffentlichen biologischen Sequenzen würde auf wenige Computer-Festplatten passen. Größere Abfragen dürften nicht mehr als 0,74 Dollar pro Megabase kosten. Die von den ETH-Forschern entwickelte DNA-Suchmaschine ist zudem sowohl präzise als auch effizient und kann so helfen, die Genforschung zu beschleunigen – dies etwa bei wenig erforschten Erregern oder neuen Pandemien. So könnte das Tool zum Katalysator in der Forschung zu Antibiotika-Resistenzen werden: Etwa indem in den Datenbanken Resistenzgene oder Bakteriophagen identifiziert werden. Komprimierung um das Dreihundertfache In ihrer Studie zeigen die ETH-Forscher auf, wie MetaGraph funktioniert: Das Tool indiziert die Daten und stellt sie komprimiert dar. Das gelingt dank komplexen mathematischen Graphen, die für eine bessere Struktur der Daten sorgen – ähnlich einem Tabellenprogramm wie Excel. „Mathematisch gesehen handelt es sich um eine riesige Matrix mit Millionen von Spalten und Billionen von Zeilen“, sagt Rätsch. Die Idee, große Datenmengen mit Hilfe von Indizes durchsuchbar zu machen, ist in der Computer Science-Forschung Standard. Neu an der Arbeit der ETH-Forscher ist aber die komplexe Verknüpfung von Roh- und Metadaten sowie die Komprimierung um etwa das 300-Fache, ähnlich wie bei einer Zusammenfassung eines Buches: Sie enthält nicht mehr jedes Wort, aber alle wichtigen Handlungsstränge und Zusammenhänge bleiben erhalten – kompakter, aber ohne relevanten Informationsverlust. „Wir bewegen uns damit am Limit dessen, was möglich ist, um die Datensätze so klein wie möglich zu halten, ohne notwendige Informationen zu verlieren“, sagt Dr. André Kahles, der wie Rätsch der Biomedical Informatics Group der ETH angehört. Im Unterschied zu anderen DNA-Suchmasken, die derzeit erforscht werden, ist der Ansatz der ETH-Forscher skalierbar. Das heißt: Je größer die abgefragte Datenmenge, desto weniger zusätzlichen Rechenaufwand benötigt das Tool. Hälfte der Daten schon verfügbar Die ETH-Forscher haben MetaGraph erstmals im Jahr 2020 vorgestellt und seither laufend verbessert. Das Tool steht bereits heute für Abfragen zur Verfügung. Es bietet eine Volltext-Suchmaske für Millionen von Sequenzsätzen aus DNA und RNA sowie Proteinen von Viren, Bakterien, Pilzen, Pflanzen, Tieren und Menschen. Zurzeit ist knapp die Hälfte der weltweit verfügbaren Sequenz-Datensätze indexiert. Der Rest soll gemäß Rätsch bis Ende des Jahres folgen. MetaGraph steht Open Source zur Verfügung und könnte darum etwa auch für Pharmafirmen interessant sein, die über große Mengen an internen Forschungsdaten verfügen. Kahles hält es sogar für möglich, dass die DNA-Suchmaschine dereinst auch von Privatpersonen angewendet wird: „In den Anfängen wusste man auch bei Google noch nicht genau, wofür eine Suchmaschine gut sein soll. Wenn die rasante Entwicklung, in der in der DNA-Sequenzierung so weitergeht, wird es vielleicht üblich, seine Balkonpflanzen genauer zu bestimmen.“
Mehr erfahren zu: "Landeslabor: Rund jede achte Lebensmittelprobe mit Mängeln" Landeslabor: Rund jede achte Lebensmittelprobe mit Mängeln In einigen Produkten steckt manchmal mehr (oder weniger) als draufsteht – vor allem bei Nahrungsergänzungsmittel ist das ein Problem, wie ein neuer Bericht zeigt. Auch die Tierseuchendiagnostik machte 2024 einen […]
Mehr erfahren zu: "Frauengesundheit und geschlechtersensible Medizin: DGIM begrüßt neue BMFTR-Themensetzung" Frauengesundheit und geschlechtersensible Medizin: DGIM begrüßt neue BMFTR-Themensetzung Die Deutsche Gesellschaft für Innere Medizin (DGIM) begrüßt die Entscheidung des Bundesministeriums für Forschung, Technologie und Raumfahrt (BMFTR), ein Referat für Frauengesundheit einzurichten.
Mehr erfahren zu: "DFG fördert neue Mikrobiomplattform in Kiel" DFG fördert neue Mikrobiomplattform in Kiel Interdisziplinäre und noch umfassendere Analysen von Mikrobiomen – von der Datengenerierung bis zur Funktionscharakterisierung – soll die neue Mikrobiomplattform der Christian-Albrechts-Universität zu Kiel bieten.