Problématiques générales

Photo by National Cancer Institute on Unsplash

Que sont les données de la recherche ?

« Les données de la recherche sont définies comme des enregistrements factuels (chiffres, textes, images et sons), qui sont utilisés comme sources principales pour la recherche scientifique et sont généralement reconnus par la communauté scientifique comme nécessaires pour valider des résultats de recherche. Un ensemble de données de recherche constitue une représentation systématique et partielle du sujet faisant l’objet de la recherche ». (OCDE, Principes et lignes directrices de l’OCDE pour l’accès aux données de la recherche financée sur fonds publics, 2007)

Elles sont de natures diverses : textuelles (questionnaires, retranscription d’entretien, procédures, protocoles, journal de bord), numériques (réponses à des tests ou enquêtes, données médicales, mesures et relevés), multimédia (sons, vidéos, images), informatiques (codes sources, algorithmes, scripts).

Et de niveaux d’élaboration différents : brutes (donnée collectées, mais non organisées et non mises en forme), structurées (organisées, structurées pour être prêtes à être analysées) ou analysées (telles qu’elles apparaissent dans les publications).*


* Source : L. Bracco et al. Former les professionnels de l’information et de la documentation aux données de la recherche en 45 minutes, 2020 (CC-BY)

Les données de la recherche : une richesse en péril

Beaucoup trop de données de recherche sont encore stockés sur des supports vulnérables. Si elles ne sont pas envoyées vers des serveurs dédiés à leur archivage, elles risquent de se perdre sous le coup de l’obsolescence matérielle (un disque dur perdu ou détruit) ou logicielle (un format obsolète devenu illisible). Actuellement, on observe que 20 ans après leur publication, 80% des données sont perdues. Toutes les données ne sont pas bonnes à conserver, mais il est nécessaire de veiller à la pérennité d’accès de celles qui permettent de valider les résultats obtenus.

Pourquoi partager les données

Comme indiqué plus haut, l’ouverture des données contribue à fiabiliser les résultats de la science. Dans une approche cumulative du savoir, l’accès aux données permet leur réutilisation à des fins de reproductibilité et garantit donc plus de transparence et d’efficacité dans la recherche.

Lorsque les expériences ne sont pas probantes, le partage de leurs données permettent également aux chercheurs d’épargner du temps en évitant de refaire les mêmes expériences. Suffisamment documentées (notamment quant au mode de leur collecte), les données partagées peuvent être réutilisées dans le cadre d’expériences à venir.

Comment conserver et partager les données

Les choix à faire en matière de partage et conservation des données doivent être en cohérence avec les principes FAIR :

Rendre les données aussi ouvertes que possibles, aussi fermées que nécessaires.

La fermeture au moins provisoire des données peut être rendue nécessaire par exemple par des enjeux de vie privée ou de propriété indutrielle.

  • F(indability) : Les données doivent pouvoir être trouvées facilement sur le web.
  • A(ccessibility) : on doit pouvoir y accéder facilement
  • I(nteroperability) : les données doivent être disponibles en format ouvert
  • R(eusability) : les données doivent pouvoir être réutilisées dans le cadre d’autres travaux scientifiques.

A ce titre, il est important que la licence sous laquelle elles sont diffusées soit ouverte et explicite et que le contexte de ces données soit suffisamment documenté.

Comment choisir l’entrepôt où déposer ses données

Les entrepôts sont de tailles et de natures hétérogènes. Certains entrepôts sont rattachés à une institution, d’autres sont thématiques ; certains sont publics, d’autres appartiennent à des acteurs privés. Le portail HAL peut héberger des jeux de données et le lien entre le dataset ou le code source et la publication liée s’y fera aisément. Une plateforme nationale fédérée des données de la recherche est en cours de constitution et sera disponible à la fin du premier trimestre 2022. Cette plateforme moissonnera un certain nombre d’entrepôts de données déjà existants.

Sur quels critères choisir un entrepôt de données. Comme évoqué plus haut, les entrepôts doivent pouvoir être compatibles avec les principes FAIR :
 

Principe FAIR Question liée
Findability Une fois déposés, les jeux de données se voient attribuer un DOI afin de les rendre citables, l’entrepôt respecte les standards en matière de métadonnées associées aux jeux de données, le jeu de données peut éventuellement être moissonné par un entrepôt plus large
Accessibility Cette ouverture doit pouvoir être gérée pour évoluer dans le temps, possibilité de paramétrer des droits d’accès différents
Interoperability On doit pouvoir exporter les données de l’entrepôt dans leur format natif (format ouvert)
Reusability L’entrepôt doit être explicite sur la licence des jeux de données et respecter le choix des déposants en la matière. Par ailleurs, il doit prévoir un espace suffisant et une taxonomie pour décrire les jeux de données de manière adéquate