Roadmap für fairen Umgang mit Sequenzdaten

Über einen Data Reuse Identifier sollen genetische Informationen in öffentlichen Datenbanken ihren Urhebern zugeordnet und von anderen Forschenden fair weiterverwendet werden. (Abbildung: ©Universität Duisburg-Essen)

Die Erhebung von Sequenzdaten ist viel Arbeit, die bei der Bereitstellung für die internationale Forschungsgemeinschaft gewürdigt werden sollte. Jüngst publizierte Empfehlungen legen dar, wie das gelingen kann.

DNA- und RNA-Datensätze in öffentlichen Datenbanken wachsen rasant und bilden einen globalen Atlas mikrobieller Vielfalt. Der offene Zugang treibt die Forschung voran, stellt Forschende jedoch vor ein Dilemma: Häufig werden mühsam erhobene Daten weltweit nutzbar, noch bevor eigene Ergebnisse veröffentlicht sind. Ein internationales Konsortium von mehr als 200 Wissenschaftlerinnen und Wissenschaftlern unter Leitung von Prof. Alexander Probst, Universität Duisburg-Essen, hat deshalb in „Nature Microbiology“ eine Roadmap für den fairen Umgang mit Sequenzdaten vorgelegt.

Bereitstellung von Sequenzierungsdaten sollte gewürdigt werden

„Offene Daten sind der Treibstoff moderner Wissenschaft – gerade in Zeiten von Big Data und Data Mining“, sagt Probst, Professor für Umweltmetagenomik an der Universität Duisburg-Essen und am Research Center One Health Ruhr. „Doch die Erhebung, Aufbereitung und Analyse von Proben bedeutet oft monatelange Arbeit. Diese Leistung darf nicht unsichtbar bleiben.“

Bereits das Fort Lauderdale Agreement von 2003 legte fest, dass Daten aus DNA- und RNA-Sequenzierungen innerhalb von 24 Stunden nach ihrer Erzeugung öffentlich zugänglich sein sollen. Damals war das Datenvolumen noch überschaubar und der offene Zugang erwies sich rasch als Motor wissenschaftlichen Fortschritts.

Heute jedoch erzeugt moderne Hochdurchsatz-Sequenzierung Datenmengen, die ganze Serverparks füllen. So entstehen in der Mikrobiologie digitale Atlanten der Vielfalt – gespeist aus Proben, die oft durch aufwendige Expeditionen und akribische Laborarbeit junger Forschender gewonnen werden. Kaum hochgeladen, stehen die Daten weltweit zur Verfügung – häufig, bevor die ursprünglichen Erhebenden ihre eigenen Ergebnisse publizieren können.

Klare Regelung zur Wiederverwendung von Daten

Um diesen Spannungsbogen aufzulösen, entwickelte das internationale Autorenteam eine Roadmap, die Offenheit und Fairness in den datenintensiven Biowissenschaften miteinander verbindet. Offener Zugang bleibt Grundprinzip, soll aber durch einen Ehrenkodex ergänzt werden, der die Wiederverwendung klarer regelt.

Kernstück der Empfehlungen ist die Einführung eines Data-Reuse-Information(DRI)-Labels für Datensätze über die ORCID – einem digitalen Forschungsausweis, der Beiträge eindeutig einer oder mehreren Personen zuordnet. Forschende, die ihre Kennung hinterlegen, signalisieren: Bitte vor Nutzung Kontakt aufnehmen. Fehlt sie, gelten Daten als frei nutzbar. Bei Material ohne begleitende Fachpublikation sollen die Datensammler aktiv einbezogen werden.

„Open Access ist und bleibt unverzichtbar“, betont Probst. „Das hat nicht nur die Pandemie gezeigt: Ohne frei verfügbare Sequenzdaten wäre die schnelle Entwicklung von Impfstoffen gegen SARS-CoV-2 weltweit kaum möglich gewesen. Doch auch jenseits akuter Krisen brauchen wir gerechtere Strukturen im Forschungsalltag – damit diejenigen, die Daten erheben, die verdiente Anerkennung erhalten und in neue Projekte eingebunden werden.“

Internationale Zusammenarbeit und erste Testphase

Die Roadmap ist das Ergebnis eines breit angelegten Austauschs mit mehreren Hundert Forschenden weltweit. Grundlage war u. a. eine internationale Umfrage, unterstützt von Prof. Anke Heyder, Ruhr-Universität Bochum. Koordiniert wurde die Studie von Probst gemeinsam mit Dr. Christina Moraru und Dr. André Soares, beide Universität Duisburg-Essen, Prof. Folker Meyer, Institut für Künstliche Intelligenz in der Medizin/Universitätsklinikum Essen, Prof. Laura A. Hug, University of Waterloo (Kanada), und Prof. Roland Hatzenpichler, Montana State University (USA).

Im Sonderforschungsbereich RESIST (SFB 1439), der die Initiative förderte, setzen die Wasserexperten der Universität Duisburg-Essen die Roadmap in Zukunft erstmals praktisch um. „Hier untersuchen wir, wie Fließgewässer auf Stressfaktoren wie Schadstoffe oder invasive Arten reagieren. Bereits jetzt haben wir mehr als 34 Terabyte an Sequenzdaten gesammelt – nicht nur für einzelne Organismen, sondern für ganze Lebensgemeinschaften. Mit dieser Datendichte ist RESIST das perfekte Testfeld, um die neue Routine im Umgang mit Forschungsdaten einzuspielen“, so Probst.