Mehr für's Geld – durch eine bessere Archivierung genetischer Daten

Forschende laden jedes Jahr unvorstellbare Mengen genetischer Daten auf öffentlich zugängliche Datenbanken hoch. Ein internationales Team von Forschenden unter Leitung der Eidg. Forschungsanstalt für Wald, Schnee und Landschaft WSL ruft nun in der Fachzeitschrift «Nature Ecology & Evolution» dazu auf, das in einer standardisierten Form zu tun – um eine möglichst umfassende Wiederverwendung dieser Daten zu ermöglichen.

Deborah Leigh, es existieren verschiedene grosse Datenbanken, in denen genetische Daten öffentlich zugänglich sind – vom kompletten, entschlüsselten Erbgut verschiedenster Organismen bis hin zu einzelnen Gensequenzen. Sie und ihre Kolleginnen und Kollegen wollen ändern, wie diese Daten archiviert werden. Warum?

Nehmen wir als Beispiel die International Nucleotide Sequence Database Collaboration, die INSDC, die die europäische, die amerikanische und die japanische Gendatenbank umfasst. Sie ist sehr gut etabliert, existiert seit 1987, verfügt über ein riesiges Datenvolumen und ist eine hervorragende Ressource, etwa um neue Arten zu identifizieren oder neue Methoden zu entwickeln. Bis 2023 fehlten jedoch verbindliche Mindeststandards für Metadaten, das heisst Zusatzdaten wie zum Beispiel das Datum und der Ort der Probenahme. Diese Informationen nicht zu haben, machte es sehr schwierig, die entsprechenden genetischen Daten vollständig wiederzuverwenden. Aber um unserer Verpflichtung gegenüber der Öffentlichkeit nachzukommen, alle unsere Forschungsmittel so weitgehend wie möglich zu nutzen, müssen wir das.

Und das ist zurzeit nicht möglich?

Doch, aber es ist sehr schwierig. Erstens findet man in den Datenbanken nur einen sehr kleinen Teil der Daten, die in Fachartikeln veröffentlicht werden, tatsächlich in Form von Rohdaten. Das ist problematisch, denn ohne diese Rohdaten kann man die archivierten Informationen nicht umfassend nutzen. Zweitens gibt es in jeder Datenbank viele verschiedene Dateitypen und die Daten sind jeweils unterschiedlich stark bearbeitet. Die verschiedenen Arten hochgeladener Daten sind nicht standardisiert, und das erschwert ihre Wiederverwendung. Drittens fehlen Standards für Metadaten. Das bedeutet, dass man beispielsweise nicht einfach nach allen Daten aus einem bestimmten Gebiet oder nach einer bestimmten Methode suchen kann. Noch komplizierter wird es, wenn man über verschiedene Datenbanken hinweg sucht.

 

Was bräuchte es, um die Situation zu ändern, was schlagen Sie konkret vor?

Wir schlagen standardisierte Formate für verschiedene Arten genetischer und genomischer Daten vor. Das mag nach wenig tönen, da diese Formate bereits weit verbreitet sind. Aber eine Standardisierung würde den Zugang zu genetischen Daten erleichtern. Es würde zum Beispiel nicht spezialisierten Forschenden und Fachpersonen aus der Praxis ermöglichen, Daten mit einer eindeutigen Verarbeitungsgeschichte einfacher mit neuen Partnern teilen. Eine Standardisierung würde auch technologische Hindernisse für die Wiederverwendung beseitigen, wie zum Beispiel die Notwendigkeit, Zugriff auf einen Computercluster zu haben, um die Daten verarbeiten zu können. Das würde dabei helfen, für mehr Gerechtigkeit auf globaler Ebene zu sorgen.

Und was ist mit den von Ihnen erwähnten Metadaten?

Wir fordern, dass zwingend so viele Metadaten hinterlegt werden müssen wie möglich und für die entsprechende Art unbedenklich sind. Bei manchen geschützten Arten könnte es zu Beispiel sicherer sein, keine Orte anzugeben. Das ist aus verschiedenen Gründen wichtig. Viele Reanalysen, die Methoden der Populations- und Landschaftsgenetik verwenden, sind ohne Standortinformationen oder das Jahr der Probenahme nicht möglich. Es geht auch darum, die Daten für künftige Innovationen verfügbar zu halten. Es kann sein, dass wir jetzt noch nicht an Verwendungszwecke denken, die sich andere Forschende in der Zukunft ausdenken. Um diese zu ermöglichen, müssen wir ihnen so viele zusätzliche Informationen wie möglich zur Verfügung stellen. Wir fordern Wissenschafterinnen und Wissenschafter in unserer Publikation auch ausdrücklich auf, ältere Daten rückwirkend zu archivieren oder sie zu ergänzen, um diese neuen Standards einzuhalten und Fehler zu korrigieren. Unser Ziel ist, dass jeder Datensatz, der in der Vergangenheit produziert wurde oder in Zukunft produziert wird, zugänglich ist und auf jede mögliche Weise genutzt werden kann, um den maximalen Nutzen aus der Forschungsfinanzierung zu erzielen. Im Wesentlichen, damit die Öffentlichkeit das Maximum für ihr Geld bekommt.

Warum ist es so wichtig, gerade alte Daten entsprechend aufzubereiten und mit Zusatzdaten anzureichern?

Insbesondere Daten aus den 1990er oder frühen 2000er Jahren sind oft in einem nicht sehr zugänglichen Format archiviert. Sie sind jedoch sehr wertvoll, da sie eine bislang fehlende Basislinie der genetischen Vielfalt darstellen. Ältere Daten sind auch wichtig, um jüngste Rückgänge oder Veränderungen in der genetischen Vielfalt zu erkennen, was uns helfen könnte, diese Verluste aufzuhalten, bevor sie Schaden anrichten. Auch im Zuge des fortschreitenden Klimawandels dürfte diese Basis wichtig werden, um die Auswirkungen extremer klimatischer Veränderungen auf die genetische Vielfalt und die Fähigkeit der Arten, sich in unserer sich schnell verändernden Welt zu erholen, zu bewerten.

Ist die Diskussion um Datenarchivierung in der Genetik neu?

Nein, die Genetik kann auf eine lange Geschichte offener Daten zurückblicken, auf die das Feld stolz ist. Wir tragen zu einer laufenden Debatte bei, indem wir standardisierte Formate und Mindestanforderung an Metadaten für die Archivierung vorschlagen. Die INSDC hat die Anforderungen an die Metadaten bereits erhöht, sie müssen seit dem letzten Jahr auch den Zeitpunkt und den Ort der Probenahme umfassen. Das vom BAFU unterstützte WSL-Projekt GenDiB arbeitet am Aufbau einer nationalen Datenbank mit Daten zur genetischen Vielfalt der Schweizer Wildpopulationen. Auch weitere Datenbanken nehmen an der Diskussion teil.

Kontakt

Publikation

Projekte

Copyright

WSL und SLF stellen Bild- und Tonmaterial zur Verwendung im Rahmen von Pressebeiträgen im Zusammenhang mit dieser Medienmitteilung kostenfrei zur Verfügung. Eine Übernahme dieses Materials in Bild-, Ton- und/oder Videodatenbanken und ein Verkauf des Materials durch Dritte sind nicht gestattet.