En avoir plus pour son argent grâce à un meilleur archivage des données génétiques

Chaque année, les scientifiques déposent des quantités astronomiques de données génétiques dans des banques de données accessibles au public. Une équipe internationale menée par l'Institut fédéral de recherches sur la forêt, la neige et le paysage WSL, appelle désormais, dans la revue spécialisée Nature Ecology & Evolution, à définir un format standardisé pour ces données afin que celles-ci puissent être réutilisées le plus largement possible.

Deborah Leigh, il existe plusieurs grandes banques de données dans lesquelles les données génétiques sont accessibles au public – du génome complet des organismes les plus divers jusqu'aux séquences génétiques individuelles. Vous souhaitez, avec vos collègues, changer leurs conditions d'archivage. Pour quelle raison?

Prenons l'exemple de l'International Nucleotide Sequence Database Collaboration, l'INSDC, qui regroupe les bases de données génétiques européenne, américaine et japonaise. Créée en 1987, cette organisation bien établie contient un énorme volume de données constituant une excellente ressource pour l'identification de nouvelles espèces et le développement de nouvelles méthodes. Cependant, jusqu'en 2023, des normes minimales obligatoires pour les métadonnées, telles que la date et le lieu de prélèvement des échantillons, faisaient défaut. L'absence de ces informations rendait la réutilisation complète des données génétiques difficile, ce qui va à l'encontre de notre engagement envers le public d'exploiter au maximum tous nos moyens de recherche.

Et ceci n'est actuellement pas possible?

Si, mais c'est très difficile. Premièrement, seule une très petite partie des données publiées dans des articles spécialisés se trouve effectivement sous forme de données brutes dans les bases de données. Cela pose problème, car sans ces données brutes, il est impossible d'exploiter pleinement les informations archivées. Deuxièmement, chaque base de données contient de nombreux types de fichiers différents, et les données sont traitées de manière variable. Les différentes sortes de données téléchargées ne sont pas standardisées, ce qui complique leur réutilisation. Troisièmement, il manque des normes pour les métadonnées. Cela signifie, par exemple, qu'il n'est pas possible de rechercher facilement toutes les données provenant d'une zone géographique spécifique ou utilisant une méthode particulière. La situation devient encore plus complexe lorsqu'on cherche à travers différentes bases de données.

Quelles solutions concrètes préconisez-vous pour changer la situation?

Nous proposons des formats standardisés pour différents types de données génétiques et génomiques. Cela peut paraître anodin, car ces formats sont déjà largement utilisés. Mais une standardisation faciliterait l'accès aux données génétiques. Elle permettrait par exemple aux scientifiques non spécialisés et aux professionnelles et professionnels de terrain de partager plus facilement avec de nouveaux partenaires des données accompagnées d'un historique de traitement sans équivoque. La standardisation permettrait également d'éliminer les obstacles technologiques à la réutilisation, comme la nécessité d'avoir accès à un cluster d'ordinateurs pour pouvoir traiter les données. Cela contribuerait à assurer une plus grande équité entre les pays.

Et qu'en est-il des métadonnées que vous avez mentionnées?

Nous demandons que la mention de métadonnées soit rendue obligatoire, dans la mesure du possible et sans nuire à l'espèce concernée. Par exemple, pour certaines espèces protégées, il pourrait être plus prudent de ne pas indiquer les lieux de prélèvement. Ces métadonnées sont cruciales pour plusieurs raisons. De nombreuses réanalyses utilisant des méthodes de génétique des populations et du paysage ne sont pas réalisables sans informations sur le lieu ou l'année d'échantillonnage. Il s'agit également de garantir la disponibilité des données pour les innovations futures. D'autres scientifiques imagineront peut-être à l'avenir des utilisations qui ne nous sont pas pas encore connues. Pour qu'ils puissent les réaliser, nous devons leur fournir autant d'informations supplémentaires que possible.

Dans notre publication, nous demandons également aux scientifiques d'archiver rétroactivement leurs anciennes données, de les compléter afin de respecter ces nouvelles normes, et de corriger les erreurs. Notre objectif est que chaque jeu de données, qu'il soit ancien ou futur, soit accessible et puisse être utilisé de toutes les manières possibles afin de tirer le meilleur parti du financement de la recherche. En somme, il s'agit que le public en ait «le plus pour son argent».

Pourquoi est-il si important de formater les données anciennes et de les enrichir de données supplémentaires?

Les données des années 1990 ou du début des années 2000, en particulier, sont souvent archivées dans un format peu accessible. Elles sont pourtant très précieuses, car elles représentent un état de référence de la diversité génétique qui manquait jusqu'à présent. Les données plus anciennes sont également importantes pour identifier les baisses ou les changements récents de la diversité génétique, ce qui pourrait nous aider à stopper ces pertes avant qu'elles ne soient dommageables. Avec l'avancée du changement climatique, ces données de référence devraient également prendre de l'importance pour évaluer l'impact des changements climatiques extrêmes sur la diversité génétique et la capacité des espèces à se rétablir dans notre monde en rapide mutation.

Le débat sur l'archivage des données est-il nouveau dans le domaine de la génétique?

Non, la génétique a une longue tradition de données ouvertes, qui fait d'ailleurs la fierté de cette discipline. Nous contribuons actuellement à un débat sur l'archivage en proposant des formats standardisés et des exigences minimales en matière de métadonnées. L'INSDC a déjà renforcé ses exigences en matière de métadonnées, celles-ci devant inclure depuis l'année dernière la date et le lieu de prélèvement des échantillons. Le projet du WSL GenDiB, qui bénéficie du soutien de l'OFEV, travaille à la création d'une base nationale de données sur la diversité génétique des populations suisses de faune sauvage. D'autres bases de données sont aussi concernées par ce débat.

Contact

Publication

Projet

Copyright

Le WSL et le SLF mettent gratuitement à disposition du matériel visuel et sonore pour une utilisation dans le cadre d'articles de presse en rapport avec ce communiqué de presse. La reprise de ce matériel dans des bases de données d'images, de sons et/ou de vidéos ainsi que la vente de ce matériel par des tiers ne sont pas autorisées.