J-PAL soutient la publication des données désidentifiées issues d’évaluations aléatoires. Dans cette perspective, la présente ressource contient une check-list pour aider les chercheurs à préparer leurs données en vue de leur soumission. Elle inclut également un exemple de texte de recueil du consentement éclairé, aborde quelques considérations supplémentaires à prendre en compte lors de la planification du projet et avant la publication, et présente les entrepôts numériques dignes de confiance qui peuvent héberger les données. Ce guide est conçu pour se lire en parallèle avec la ressource connexe sur la désidentification des données.
Ces dix dernières années, le nombre d’organismes de financement, de revues scientifiques et d’organismes de recherche qui ont adopté des politiques de partage des données a considérablement augmenté. Lorsque l’American Economic Association a adopté sa première politique de ce type en 2005, elle était l’une des premières revues scientifiques de sciences sociales à exiger que les données soient publiées en même temps que l’article de recherche. Aujourd’hui, la plupart des revues scientifiques de premier plan en économie et en sciences sociales exigent la publication des données. De même, de nombreuses fondations et institutions gouvernementales, telles que la Fondation Bill et Melinda Gates, la National Science Foundation et les National Institutes of Health, ont mis en place des politiques de ce type. En sa qualité d’organisme de financement et de recherche, J-PAL a adopté en 2015 une politique de publication des données qui s’applique à tous les projets de recherche qu’il finance ou met en œuvre.
Ce guide et la ressource correspondante sur la désidentification ont pour but d’aider les équipes de recherche à réfléchir aux démarches nécessaires à la publication de leurs données de recherche. Ils s’appuient sur l’expérience de J-PAL en matière de publication des données scientifiques issues des évaluations aléatoires en sciences sociales depuis plus de dix ans.
La disponibilité accrue des données de recherche bénéficie non seulement aux chercheurs, mais aussi aux partenaires politiques qui ont soutenu les études, aux étudiants qui utilisent ces données à des fins d’apprentissage, et surtout aux personnes auprès desquelles les données ont été collectées. Le partage des données présente de nombreux avantages et opportunités pour la communauté scientifique, notamment :
La mise à disposition des données de la recherche en sciences sociales n’en est encore qu’à ses débuts. Gertler, Galiani et Romero (2018) ont constaté qu’en mai 2016, seule une petite minorité des articles empiriques publiés dans les neuf meilleures revues d’économie contenait tous les éléments nécessaires pour reproduire avec succès les résultats de l’étude d’origine (données brutes, données d’estimation, code de nettoyage et code d’analyse/d’estimation). L’objectif de J-PAL est de rendre largement disponibles et accessibles les données de recherche issues des évaluations aléatoires.
Avant de publier vos données, vous devez vous assurer que vous avez l’autorité légale, réglementaire et éthique de le faire. Voici quelques questions auxquelles il est important de répondre au début du processus de publication des données :
Répondre à ces questions vous aidera à déterminer quelles données publier, et à quel endroit
Toutes les études qui collectent des données d’enquête auprès de sujets individuels doivent inclure une procédure de recueil du consentement éclairé. Pour en savoir plus, consultez la ressource sur les IRB et celle sur la définition de la procédure d’admission et de recueil du consentement. La procédure de recueil du consentement éclairé doit inclure des dispositions autorisant la publication des données désidentifiées. Comme tous les éléments de la procédure de consentement, ce texte doit être concis et clair, et éviter le jargon ou les termes techniques que les participants de l’étude risquent de ne pas comprendre. Avant de collecter des données, les chercheurs doivent vérifier la section de leur procédure de recueil du consentement qui concerne le partage des données.
Exemple de formulaire de consentement pouvant être utilisé, sous réserve de l’approbation de l’IRB compétent
En dehors de l’équipe chargée de l’enquête, personne ne pourra établir un lien direct entre vos informations personnelles, comme votre nom, votre adresse et votre numéro de téléphone portable, et ce que vous aurez déclaré dans le cadre de l’enquête. Vos réponses et vos données personnelles seront stockées sur un support de stockage informatique international sécurisé. Vos données personnelles seront chiffrées et protégées par un mot de passe afin d’éviter tout accès non autorisé. Avant que les résultats de l’étude ne soient communiqués à des personnes extérieures à l’équipe de recherche, vos données personnelles seront séparées de vos réponses à l’enquête. Nous procédons de la sorte pour éviter que des personnes extérieures à l’équipe de recherche puissent vous identifier à partir de vos réponses
L’Inter-university Consortium for Political and Social Research (ICPSR) a formulé une série de recommandations que les chercheurs doivent prendre en considération lorsqu’ils rédigent les clauses de leur formulaire de consentement éclairé. N’oubliez pas que les obligations d’information en matière de consentement éclairé et de partage des données peuvent varier en fonction de l’établissement d’accueil et de la juridiction au sein de laquelle les données sont collectées. En cas de doute, consultez l’IRB compétent.
En plus des considérations énumérées ci-dessus, la publication et le partage de données administratives nécessitent l’autorisation du fournisseur de données, qui décidera en dernier ressort des données qui peuvent être publiées. Notez que les données fournies par des entités tierces relèvent souvent d’autorités réglementaires spécifiques.
Les usages que l’équipe de recherche peut faire des données administratives sont en grande partie contrôlés par l’accord d’utilisation des données (DUA) qui a été signé avec le fournisseur de données au début de l’étude. Il est donc essentiel d’aborder la question du partage des données avec le fournisseur dès le début de l’étude de façon à pouvoir intégrer directement le plan de publication des données au DUA. Si le DUA ne stipule pas clairement les modalités de publication des données, il est essentiel de consulter le fournisseur de données et les éventuels partenaires de recherche ou organismes de mise en œuvre pour déterminer quelles données peuvent être publiées.
Il est possible que les fournisseurs de données aient quelques réserves concernant le partage des données, car celles-ci sont souvent régies par des régimes de réglementation très stricts (c’est notamment le cas des données personnelles médicales et financières, ou des informations sur les activités criminelles). Ils peuvent notamment s’inquiéter du respect de la vie privée des participants et d’autres conséquences potentielles si certaines informations sont divulguées. Par exemple, une entreprise peut craindre que ses concurrents n’utilisent les données pour en tirer un avantage commercial, tandis qu’un organisme gouvernemental peut avoir des préoccupations concernant certaines questions politiques sensibles, comme la publication de données sur les pratiques de dépenses.
Il est important de mentionner aux fournisseurs de données que les données peuvent être mises à disposition sous différents formats. Il existe notamment des entrepôts de données à accès restreint, dont il est question plus en détail ci-dessous, où les données les plus sensibles et les plus réglementées peuvent être rendues accessibles.
Si un fournisseur de données a accepté de rendre les données de l’étude accessibles au public, d’autres considérations sont à prendre en compte :
Les données de recherche publiées doivent être stockées dans un entrepôt numérique digne de confiance afin de garantir l’accès aux fichiers et à la documentation sur le long terme. Un entrepôt numérique digne de confiance est un entrepôt de données « dont la mission est de fournir à sa communauté spécifique un accès fiable et durable à des ressources électroniques correctement gérées, aujourd’hui et dans le futur » (RLG 2002).
Un entrepôt numérique digne de confiance s’engage à assurer la gestion des données à perpétuité, à réduire au minimum la perte ou la dégradation des données, voire à l’éviter complètement, et permet le contrôle de versions. Par exemple, le Harvard Dataverse permet aux utilisateurs de voir précisément ce qui a été modifié par rapport à la version initiale dans toutes les versions publiées par la suite. Les utilisateurs ont également la possibilité d’accéder aux versions antérieures et de consulter les modifications apportées à l’ensemble de données concerné. Un entrepôt digne de confiance attribue également à chaque ensemble de données et au code associé un identifiant unique (par exemple un « identifiant d’objet numérique », ou DOI) afin de faciliter la citation, le référencement et la recherche. Cet identifiant est conçu pour perdurer même si les URL, ou le site web lui-même, viennent à changer. La plupart des entrepôts numériques contiennent des métadonnées sur les documents de recherche publiés. Cela permet aux autres chercheurs d’explorer et de comprendre rapidement les données sans avoir à les télécharger ni à exécuter le code.
Parmi les entrepôts numériques dignes de confiance les plus largement utilisés par les chercheurs en sciences sociales, on peut citer :
Si le fait de publier des données sur un site Internet personnel (même s’il est hébergé par l’université) les rend techniquement publiques, la durée de vie d’un tel site est beaucoup plus courte que celle d’un entrepôt numérique digne de confiance. De plus, cela rend les données plus difficiles à chercher, à citer et à explorer. En revanche, les chercheurs peuvent tout à fait citer leurs données publiées sur leur site Internet personnel en en indiquant l’identifiant permanent (DOI) pour renvoyer vers l’emplacement où les données sont stockées.
Certains entrepôts ont créé des archives spécifiques pour les données particulièrement sensibles. Ainsi, en plus de l’« open ICPSR », un entrepôt en libre accès, l’ICPSR a également développé des options de dépôt plus sécurisées qui vont des téléchargements sécurisés au stockage physique sur site. Vous trouverez de plus amples informations sur les entrepôts à accès restreint de l’ICPSR sur son site Internet
Cette section recense toutes les démarches et bonnes pratiques à mettre en œuvre pour publier des données de recherche. Elle s’inspire de la check-list établie par la Banque mondiale pour les soumissions à son catalogue de micro-données. De plus amples informations sont également disponibles dans le Guide to Social Science Data Preparation and Archiving de l’ICPSR.
Après vous être assuré que vous avez le droit de publier vos données, vous pouvez préparer ces dernières en vue de leur publication. Ce processus a deux objectifs : d’une part, s’assurer que l’ensemble de données est propre et compréhensible par de nouveaux utilisateurs et, d’autre part, vérifier que la vie privée des sujets de recherche est bien protégée.
La meilleure façon de publier un ensemble de fichiers liés à un projet de recherche consiste à les sauvegarder selon une structure bien définie, puis à compresser l’ensemble de ces dossiers dans une archive zip, par exemple. On peut par exemple envisager une structure de dossiers comme celle-ci :
Les étapes de préparation de chacun de ces fichiers sont décrites ci-dessous. Conscients que la préparation des données en vue de leur publication peut être un processus long et complexe, nous distinguons les étapes qui sont absolument essentielles, celles qui sont importantes (étapes que nous recommandons fortement, car elles facilitent la réutilisation des données) et celles qui sont simplement suggérées (mesures supplémentaires qui facilitent encore davantage la réutilisation des données, mais qui sont moins indispensables)
Important : S’assurer que les ensembles de données ne se recoupent pas (par exemple, si vous avez des données de panel sur la consommation quotidienne d’électricité et une enquête qui n’a été menée qu’une seule fois, ne publiez pas à la fois un ensemble de données fusionné (comprenant la consommation quotidienne d’électricité fusionnée avec les données de l’enquête) ET les deux ensembles de données individuels : publiez uniquement le fichier fusionné OU les deux jeux de données distincts. Si l’un des jeux de données est beaucoup plus volumineux que l'autre, il vaut mieux les garder séparés. Cela réduit le risque d’incohérences et permet d’économiser de l’espace de stockage et de la mémoire lors du traitement des données.
Vérifications supplémentaires des données :
Si vous joignez des fichiers de résultats à vos données publiées, nous vous suggérons de les nommer de manière explicite (par exemple, tableau 1, tableau 2, etc. ; ou tableaux principaux, tests de robustesse, tableaux en annexe, etc.), conformément à la publication correspondante
Il est essentiel de fournir un fichier readme. Ce fichier doit être dans un format ouvert, indépendant de toute plateforme, comme du texte ASCII, Markdown ou un PDF, et contenir au moins les éléments suivants :
Pour un exemple de fichier readme publié, voir Vilhuber et al. (2020).
Les entrepôts de données dignes de confiance permettent le contrôle de versions, ce qui est particulièrement utile pour la gestion des données de recherche à long terme, qui nécessite la mise à jour des métadonnées et des fichiers au fil du temps. Le contrôle de versions permet de suivre l’ensemble des modifications apportées aux métadonnées ou aux fichiers après la publication de votre ensemble de données (comme le dépôt d’un nouveau fichier, la modification des métadonnées d’un fichier, ou l’ajout ou la modification de métadonnées). Dans la plupart des entrepôts, un nouveau DOI est émis pour chaque version. Lorsque vous mettez à jour vos données publiées, il est important d’inclure une note documentant tous les changements effectués par rapport à la version précédente.
Les entrepôts dignes de confiance documentent automatiquement les modifications apportées aux métadonnées et l’ajout ou la suppression de fichiers, mais pas les changements spécifiques apportés aux fichiers. Il est donc utile de consigner toutes les modifications apportées à des données ou à des fichiers spécifiques dans le fichier readme. Par exemple :
La procédure qui consiste à retirer un jeu de données de l’entrepôt électronique où il était publié est connue sous le nom de « deaccessioning ». La plupart des entrepôts ont une procédure de ce type. Le retrait de l’accès aux données est une composante importante du contrôle de versions qui permet aux métadonnées et à la citation des données de rester disponibles même si l’accès aux données est révoqué. Il est possible de retirer l’accès à l’une des versions d’un jeu de données ou du jeu de données dans son intégralité. Le retrait de l’accès à un ensemble de données peut se produire pour diverses raisons. Par exemple, si une équipe de recherche publie par inadvertance le mauvais jeu de données, des données incomplètes ou un code erroné, elle peut souhaiter retirer l’accès à ce jeu de données pour charger le bon jeu de données associé à son étude. Lorsque l’accès à un jeu de données est retiré, cette version n’est plus accessible, mais la citation et les métadonnées correspondantes restent disponibles. Cela permet aux autres chercheurs de savoir que cette version de l’ensemble de données a existé, au cas où ils tomberaient dessus dans une autre étude.
Dernière modification : juillet 2020.
Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l’ajout de nouveaux contenus, veuillez remplir ce formulaire.
Nous remercions Shawn Cole, Mary-Alice Doyle, Laura Feeney, William Parienté et Karl Rubio pour leurs commentaires précieux. Ce document a été traduit de l’anglais par Marion Beaujard. Toute erreur est de notre fait.
Berkeley Initiative for Transparency in the Social Sciences, Replication
Center for Open Science, Transparency and Openness Promotion Guidelines
Dataverse, Big Data Support
ICPSR, Guide to Social Science Data Preparation and Archiving
Banque Mondiale, Checklist: Microdata Catalog Submission