Publication des données
Summary
J-PAL soutient la publication des données désidentifiées issues d’évaluations aléatoires. Dans cette perspective, la présente ressource contient une check-list pour aider les chercheurs à préparer leurs données en vue de leur soumission. Elle inclut également un exemple de texte de recueil du consentement éclairé, aborde quelques considérations supplémentaires à prendre en compte lors de la planification du projet et avant la publication, et présente les entrepôts numériques dignes de confiance qui peuvent héberger les données. Ce guide est conçu pour se lire en parallèle avec la ressource connexe sur la désidentification des données.
Panorama des questions relatives à la publication des données
Ces dix dernières années, le nombre d’organismes de financement, de revues scientifiques et d’organismes de recherche qui ont adopté des politiques de partage des données a considérablement augmenté. Lorsque l’American Economic Association a adopté sa première politique de ce type en 2005, elle était l’une des premières revues scientifiques de sciences sociales à exiger que les données soient publiées en même temps que l’article de recherche. Aujourd’hui, la plupart des revues scientifiques de premier plan en économie et en sciences sociales exigent la publication des données. De même, de nombreuses fondations et institutions gouvernementales, telles que la Fondation Bill et Melinda Gates, la National Science Foundation et les National Institutes of Health, ont mis en place des politiques de ce type. En sa qualité d’organisme de financement et de recherche, J-PAL a adopté en 2015 une politique de publication des données qui s’applique à tous les projets de recherche qu’il finance ou met en œuvre.
Ce guide et la ressource correspondante sur la désidentification ont pour but d’aider les équipes de recherche à réfléchir aux démarches nécessaires à la publication de leurs données de recherche. Ils s’appuient sur l’expérience de J-PAL en matière de publication des données scientifiques issues des évaluations aléatoires en sciences sociales depuis plus de dix ans.
Pourquoi publier les données issues de la recherche ?
La disponibilité accrue des données de recherche bénéficie non seulement aux chercheurs, mais aussi aux partenaires politiques qui ont soutenu les études, aux étudiants qui utilisent ces données à des fins d’apprentissage, et surtout aux personnes auprès desquelles les données ont été collectées. Le partage des données présente de nombreux avantages et opportunités pour la communauté scientifique, notamment :
- Permettre la réutilisation des données par les chercheurs, les décideurs politiques, les étudiants et les enseignants du monde entier
- Générer des connaissances à partir d’une multiplicité d’études en procédant à des méta-analyses, et répondre aux interrogations concernant la validité externe et la généralisabilité des résultats.1
- Permettre la reproduction et la confirmation des résultats publiés ainsi que la réalisation d’analyses de sensibilité ou d’analyses complémentaires.
La mise à disposition des données de la recherche en sciences sociales n’en est encore qu’à ses débuts. Gertler, Galiani et Romero (2018) ont constaté qu’en mai 2016, seule une petite minorité des articles empiriques publiés dans les neuf meilleures revues d’économie contenait tous les éléments nécessaires pour reproduire avec succès les résultats de l’étude d’origine (données brutes, données d’estimation, code de nettoyage et code d’analyse/d’estimation). L’objectif de J-PAL est de rendre largement disponibles et accessibles les données de recherche issues des évaluations aléatoires.
Éléments à prendre en compte avant la publication
Avant de publier vos données, vous devez vous assurer que vous avez l’autorité légale, réglementaire et éthique de le faire. Voici quelques questions auxquelles il est important de répondre au début du processus de publication des données :
- Qui est le propriétaire des données ? Ont-elles été collectées par l’équipe de recherche par le biais d’enquêtes ou font-elles partie d’un ensemble de données administratives fournies par un organisme tiers ? Voir ci-dessous les éléments supplémentaires à prendre en compte pour la publication de données administratives.
- Qu’avez-vous déclaré à votre Institutional Review Board (IRB) au début de l’étude ? Comment avez-vous décrit l’utilisation qui allait être faite des données ? Avez-vous mentionné le partage des données dans votre protocole initial ? Votre IRB a-t-il des directives spécifiques concernant la publication des données de recherche ?
- Quelles informations avez-vous fournies aux participants de l’étude concernant l’utilisation de leurs données ? Vous trouverez ci-dessous un exemple de formulaire de consentement autorisant la publication des données.
- Quel est le degré de sensibilité des données collectées ? Les données contiennent-elles des informations confidentielles sur la santé des individus et leurs marqueurs biologiques, des informations sur des activités criminelles, des informations financières confidentielles ou des données sur les rendements agricoles ?
- Quel type de données envisagez-vous de publier (informations démographiques, données géographiques) ? Dans quelle mesure les participants à l’étude sont-ils identifiables sur la base des données que vous envisagez de publier ? Tous les éléments d’identification seront-ils supprimés ou masqués en vue de la publication ? Si ce n’est pas le cas, avez-vous envisagé de publier vos données dans un entrepôt de données à accès restreint ? Pour plus d’informations, voir la ressource associée sur la désidentification.
- De quelle(s) juridiction(s) ou autorité(s) juridique(s) relèvent les données que vous avez collectées ? La juridiction en question a-t-elle mis en place un cadre juridique spécifique dont vous devez tenir compte ?
- Le donateur a-t-il des exigences spécifiques concernant la publication des données de recherche ? Quelles sont ces exigences ? Y a-t-il une échéance particulière pour la publication des données ? Y a-t-il des données particulières qui doivent obligatoirement être publiées ? Les données doivent-elles être publiées à un endroit spécifique ?
Répondre à ces questions vous aidera à déterminer quelles données publier, et à quel endroit
Autorisation de publication
Consentement éclairé pour les données d’enquête
Toutes les études qui collectent des données d’enquête auprès de sujets individuels doivent inclure une procédure de recueil du consentement éclairé. Pour en savoir plus, consultez la ressource sur les IRB et celle sur la définition de la procédure d’admission et de recueil du consentement. La procédure de recueil du consentement éclairé doit inclure des dispositions autorisant la publication des données désidentifiées. Comme tous les éléments de la procédure de consentement, ce texte doit être concis et clair, et éviter le jargon ou les termes techniques que les participants de l’étude risquent de ne pas comprendre. Avant de collecter des données, les chercheurs doivent vérifier la section de leur procédure de recueil du consentement qui concerne le partage des données.
- Évitez d’utiliser des termes compliqués ou qui prêtent à confusion, comme « confidentialité » ou « désidentification ».
- Évitez de faire des promesses qui risquent de limiter les possibilités de partage des données par la suite, du type « seuls les membres de l’équipe de recherche auront accès aux informations ou aux réponses que vous nous fournirez ».
- Évitez également d’utiliser des termes qui ne sont pas forcément réalistes, comme « anonyme » ou « anonymat », car il est très difficile d’obtenir des données véritablement anonymes.
Exemple de formulaire de consentement pouvant être utilisé, sous réserve de l’approbation de l’IRB compétent
EXEMPLE DE FORMULAIRE DE CONSENTEMENT AUTORISANT LA PUBLICATION ULTÉRIEURE DES DONNÉES
En dehors de l’équipe chargée de l’enquête, personne ne pourra établir un lien direct entre vos informations personnelles, comme votre nom, votre adresse et votre numéro de téléphone portable, et ce que vous aurez déclaré dans le cadre de l’enquête. Vos réponses et vos données personnelles seront stockées sur un support de stockage informatique international sécurisé. Vos données personnelles seront chiffrées et protégées par un mot de passe afin d’éviter tout accès non autorisé. Avant que les résultats de l’étude ne soient communiqués à des personnes extérieures à l’équipe de recherche, vos données personnelles seront séparées de vos réponses à l’enquête. Nous procédons de la sorte pour éviter que des personnes extérieures à l’équipe de recherche puissent vous identifier à partir de vos réponses
L’Inter-university Consortium for Political and Social Research (ICPSR) a formulé une série de recommandations que les chercheurs doivent prendre en considération lorsqu’ils rédigent les clauses de leur formulaire de consentement éclairé. N’oubliez pas que les obligations d’information en matière de consentement éclairé et de partage des données peuvent varier en fonction de l’établissement d’accueil et de la juridiction au sein de laquelle les données sont collectées. En cas de doute, consultez l’IRB compétent.
Accords d’utilisation des données pour les données administratives
En plus des considérations énumérées ci-dessus, la publication et le partage de données administratives nécessitent l’autorisation du fournisseur de données, qui décidera en dernier ressort des données qui peuvent être publiées. Notez que les données fournies par des entités tierces relèvent souvent d’autorités réglementaires spécifiques.
Les usages que l’équipe de recherche peut faire des données administratives sont en grande partie contrôlés par l’accord d’utilisation des données (DUA) qui a été signé avec le fournisseur de données au début de l’étude. Il est donc essentiel d’aborder la question du partage des données avec le fournisseur dès le début de l’étude de façon à pouvoir intégrer directement le plan de publication des données au DUA. Si le DUA ne stipule pas clairement les modalités de publication des données, il est essentiel de consulter le fournisseur de données et les éventuels partenaires de recherche ou organismes de mise en œuvre pour déterminer quelles données peuvent être publiées.
Il est possible que les fournisseurs de données aient quelques réserves concernant le partage des données, car celles-ci sont souvent régies par des régimes de réglementation très stricts (c’est notamment le cas des données personnelles médicales et financières, ou des informations sur les activités criminelles). Ils peuvent notamment s’inquiéter du respect de la vie privée des participants et d’autres conséquences potentielles si certaines informations sont divulguées. Par exemple, une entreprise peut craindre que ses concurrents n’utilisent les données pour en tirer un avantage commercial, tandis qu’un organisme gouvernemental peut avoir des préoccupations concernant certaines questions politiques sensibles, comme la publication de données sur les pratiques de dépenses.
Il est important de mentionner aux fournisseurs de données que les données peuvent être mises à disposition sous différents formats. Il existe notamment des entrepôts de données à accès restreint, dont il est question plus en détail ci-dessous, où les données les plus sensibles et les plus réglementées peuvent être rendues accessibles.
Si un fournisseur de données a accepté de rendre les données de l’étude accessibles au public, d’autres considérations sont à prendre en compte :
- Le fournisseur de données exige-t-il une période d’examen ? De nombreux DUA stipulent que les fournisseurs de données doivent avoir l’opportunité (souvent 30 jours) de passer en revue tout article, présentation ou autre utilisation de leur nom avant la publication ou la soumission pour publication.
- Le DUA et l’IRB autorisent-ils les chercheurs à publier les données en même temps que l’article ? Si oui, y a-t-il des conditions ?
- Le DUA ou l’IRB stipulent-ils que les données doivent être supprimées ou renvoyées au fournisseur ?
Où publier les données
Les entrepôts numériques dignes de confiance
Les données de recherche publiées doivent être stockées dans un entrepôt numérique digne de confiance afin de garantir l’accès aux fichiers et à la documentation sur le long terme. Un entrepôt numérique digne de confiance est un entrepôt de données « dont la mission est de fournir à sa communauté spécifique un accès fiable et durable à des ressources électroniques correctement gérées, aujourd’hui et dans le futur » (RLG 2002).
Un entrepôt numérique digne de confiance s’engage à assurer la gestion des données à perpétuité, à réduire au minimum la perte ou la dégradation des données, voire à l’éviter complètement, et permet le contrôle de versions. Par exemple, le Harvard Dataverse permet aux utilisateurs de voir précisément ce qui a été modifié par rapport à la version initiale dans toutes les versions publiées par la suite. Les utilisateurs ont également la possibilité d’accéder aux versions antérieures et de consulter les modifications apportées à l’ensemble de données concerné. Un entrepôt digne de confiance attribue également à chaque ensemble de données et au code associé un identifiant unique (par exemple un « identifiant d’objet numérique », ou DOI) afin de faciliter la citation, le référencement et la recherche. Cet identifiant est conçu pour perdurer même si les URL, ou le site web lui-même, viennent à changer. La plupart des entrepôts numériques contiennent des métadonnées sur les documents de recherche publiés. Cela permet aux autres chercheurs d’explorer et de comprendre rapidement les données sans avoir à les télécharger ni à exécuter le code.
Parmi les entrepôts numériques dignes de confiance les plus largement utilisés par les chercheurs en sciences sociales, on peut citer :
- Harvard Institute for Quantitative Social Sciences (IQSS) Dataverse
- ICPSR
- Mendeley (par Elsevier)
- UK Data Archive
- Yale Institution for Social and Policy Studies (ISPS) Data Archive
Si le fait de publier des données sur un site Internet personnel (même s’il est hébergé par l’université) les rend techniquement publiques, la durée de vie d’un tel site est beaucoup plus courte que celle d’un entrepôt numérique digne de confiance. De plus, cela rend les données plus difficiles à chercher, à citer et à explorer. En revanche, les chercheurs peuvent tout à fait citer leurs données publiées sur leur site Internet personnel en en indiquant l’identifiant permanent (DOI) pour renvoyer vers l’emplacement où les données sont stockées.
Les entrepôts de données à accès restreint
Certains entrepôts ont créé des archives spécifiques pour les données particulièrement sensibles. Ainsi, en plus de l’« open ICPSR », un entrepôt en libre accès, l’ICPSR a également développé des options de dépôt plus sécurisées qui vont des téléchargements sécurisés au stockage physique sur site. Vous trouverez de plus amples informations sur les entrepôts à accès restreint de l’ICPSR sur son site Internet
Check-list pour la publication des données
Cette section recense toutes les démarches et bonnes pratiques à mettre en œuvre pour publier des données de recherche. Elle s’inspire de la check-list établie par la Banque mondiale pour les soumissions à son catalogue de micro-données. De plus amples informations sont également disponibles dans le Guide to Social Science Data Preparation and Archiving de l’ICPSR.
Préparer les données en vue de leur soumission
Après vous être assuré que vous avez le droit de publier vos données, vous pouvez préparer ces dernières en vue de leur publication. Ce processus a deux objectifs : d’une part, s’assurer que l’ensemble de données est propre et compréhensible par de nouveaux utilisateurs et, d’autre part, vérifier que la vie privée des sujets de recherche est bien protégée.
La meilleure façon de publier un ensemble de fichiers liés à un projet de recherche consiste à les sauvegarder selon une structure bien définie, puis à compresser l’ensemble de ces dossiers dans une archive zip, par exemple. On peut par exemple envisager une structure de dossiers comme celle-ci :
- Dossier principal
- Données
- Code
- Résultats
- Documentation supplémentaire
- Readme
Les étapes de préparation de chacun de ces fichiers sont décrites ci-dessous. Conscients que la préparation des données en vue de leur publication peut être un processus long et complexe, nous distinguons les étapes qui sont absolument essentielles, celles qui sont importantes (étapes que nous recommandons fortement, car elles facilitent la réutilisation des données) et celles qui sont simplement suggérées (mesures supplémentaires qui facilitent encore davantage la réutilisation des données, mais qui sont moins indispensables)
DONNÉES
- Essentiel : Fournir les données dans un format de fichier utilisable quel que soit le logiciel statistique choisi, comme par exemple des fichiers csv.
- Essentiel : Veiller à désidentifier les données.
- Recherchez les informations d’identification personnelle.
- Suivez les instructions de notre ressource sur la désidentification :
- Supprimez les éléments d’identification directe
- Décidez comment traiter les éléments d’identification indirecte
- Essentiel : Inclure toutes les variables, tous les statuts de traitement et toutes les observations collectées à l’aide des instruments d’enquête utilisés (à l’exclusion des informations d’identification personnelle), si c’est faisable et autorisé par le fournisseur de données (pour les données administratives).
- Important : Conserver les identifiants des enquêteurs (afin de pouvoir prendre en compte les effets enquêteur lors de l’analyse). Ces identifiants doivent être générés de manière aléatoire de façon à ce qu’aucun lien ne puisse être établi avec l’identité des enquêteurs.
- Suggéré : Conserver la date de l’entretien (le jour, la semaine ou le mois de l’entretien peuvent être importants pour certaines analyses, par exemple si l’on interroge les répondants sur leur consommation au cours des sept derniers jours).
- Il est moins important d’inclure les variables utilisées à des fins de contrôle de la qualité pendant la collecte des données. Si vous utilisez SurveyCTO, il peut s’agir de vérifications du texte (text audits) et d’horodatages (heure de début et heure de fin). Les informations collectées automatiquement, comme l’identifiant de l’appareil, l’identifiant de l’abonné, le numéro de carte SIM et le numéro de téléphone de l’appareil utilisé, n’ont pas besoin d’être incluses, d’autant plus qu’elles peuvent contenir des informations d’identification.
- Suggéré : Conserver les variables « brutes » en plus des variables construites, corrigées ou imputées (sauf lorsque les variables brutes peuvent être utilisées pour identifier des individus, comme c’est parfois le cas des variables présentant des valeurs aberrantes).
- Si vous avez plusieurs jeux de données (par exemple, des données administratives sur tous les ménages et des données d’enquête seulement pour les ménages interrogés, ou bien un jeu de données au niveau du terrain et un jeu de données au niveau des ménages), procédez de la manière suivante :
- Essentiel : S’assurer que les différents jeux de données contiennent des variables d’identification communes qui vont permettre de les apparier (par exemple, assurez-vous que l’identifiant du ménage figure à la fois dans l’ensemble de données au niveau des ménages et dans l’ensemble de données au niveau du terrain).
Important : S’assurer que les ensembles de données ne se recoupent pas (par exemple, si vous avez des données de panel sur la consommation quotidienne d’électricité et une enquête qui n’a été menée qu’une seule fois, ne publiez pas à la fois un ensemble de données fusionné (comprenant la consommation quotidienne d’électricité fusionnée avec les données de l’enquête) ET les deux ensembles de données individuels : publiez uniquement le fichier fusionné OU les deux jeux de données distincts. Si l’un des jeux de données est beaucoup plus volumineux que l'autre, il vaut mieux les garder séparés. Cela réduit le risque d’incohérences et permet d’économiser de l’espace de stockage et de la mémoire lors du traitement des données.
Vérifications supplémentaires des données :
- Essentiel : La variable d’identification permet-elle d’identifier les observations de manière unique ?
- Essentiel : Toutes les valeurs manquantes sont-elles codées et étiquetées de manière correcte et cohérente ?
- Essentiel : Les variables peuvent-elles être appariées avec le questionnaire qui les accompagne ?
- Important : L’identifiant est-il la première variable de la liste ?
- Important : Toutes les variables ont-elles un libellé ? De nombreuses plateformes de collecte de données numériques, telles que SurveyCTO, peuvent attribuer automatiquement les libellés.
- Important : Toutes les variables catégorielles ont-elles des libellés de valeurs ? Cette opération peut également être effectuée automatiquement par SurveyCTO et d’autres logiciels similaires.
- Important : En dehors de la variable d’identification, les variables sont-elles classées de manière logique ? Par exemple, si l’ordre des questions de l’enquête est potentiellement pertinent pour la compréhension des données, les variables doivent être classées de la même manière. Il est souvent préférable de regrouper les différents modules de l’enquête. Les variables des données de panel (par exemple, de début et de fin d’étude) doivent être regroupées et incluses dans le même ordre pour chaque vague d’enquête (idéalement, le nom des variables doit être le même pour toutes les vagues, avec un suffixe précisant la vague d’enquête concernée).
CODE
- Essentiel : Inclure tous les programmes et scripts nécessaires à la reproduction immédiate de tous les résultats publiés :
- Assurez-vous que les fichiers de code ont des en-têtes (incluant le nom de la dernière personne qui a rédigé/modifié le code, la date, et le logiciel et la version utilisés).
- Assurez-vous que le code contient des commentaires ou qu’il est auto-documenté.
- Supprimez les extraits de code inutiles servant à créer des tableaux ou des figures qui n’ont pas été inclus dans les résultats principaux ni dans l’annexe de l’article.
- Supprimez les commentaires inutiles, notamment les commentaires et messages entre les membres de l’équipe de recherche.
- Important : Nettoyage des données et documentation relative à la construction des variables
- Codes de valeurs manquantes dans l’instrument d’enquête et l’ensemble de données.
- Nous recommandons d’utiliser les valeurs manquantes étendues de Stata (par exemple, ne sait pas = .a, refuse de répondre = .b, etc.). Bien que les chercheurs utilisent parfois des valeurs qui ressortent dans la distribution de la variable, comme « manquant = -999 », « refus de répondre = -888 », il est préférable d’utiliser les valeurs manquantes étendues de Stata dans la mesure où elles sont ensuite éliminées automatiquement, sans qu’il soit nécessaire d’examiner minutieusement la distribution de chaque variable.
- Journal des corrections effectuées
- Des variables ont-elles été regroupées, lissées ou imputées ? Certaines se sont-elles vu attribuer une limite supérieure ou inférieure ? Quelle méthode a-t-on utilisée ?
- Si certaines variables sont masquées à des fins de désidentification, indiquez la méthode utilisée (voir lien ci-dessous).
- Le cas échéant, décrivez comment apparier les observations des différents fichiers de données (par exemple, dans une enquête sur l’agriculture, on pourra expliquer comment obtenir les données démographiques d’un exploitant de parcelle qui est un membre de la famille en appariant la liste des parcelles et la liste des ménages à l’aide de l’identifiant des ménages, de l’identifiant des exploitants de parcelles et de l’identifiant des membres de la famille).
- Si certaines variables, comme la consommation ou le revenu total, ont été construites, comment avez-vous procédé ?
- Codes de valeurs manquantes dans l’instrument d’enquête et l’ensemble de données.
RÉSULTATS
Si vous joignez des fichiers de résultats à vos données publiées, nous vous suggérons de les nommer de manière explicite (par exemple, tableau 1, tableau 2, etc. ; ou tableaux principaux, tests de robustesse, tableaux en annexe, etc.), conformément à la publication correspondante
DOCUMENTATION SUPPLÉMENTAIRE
- Questionnaires
- Essentiel : Il est indispensable d’inclure au moins la version PDF du questionnaire en anglais, mais il est recommandé d’inclure également le questionnaire dans la langue d’origine si ce n’est pas l’anglais.
- Suggéré : L’inclusion d’un formulaire SurveyCTO préprogrammé peut être utile aux chercheurs qui souhaitent procéder à une réplication statistique de l’étude dans d’autres contextes.
- Essentiel : Veiller à ce que les informations d’identification personnelle (noms des villages, etc.) soient supprimées de tous les questionnaires et documents publiés.
- Essentiel : Il est indispensable d’inclure au moins la version PDF du questionnaire en anglais, mais il est recommandé d’inclure également le questionnaire dans la langue d’origine si ce n’est pas l’anglais.
- Important : Fournir tous les documents de recherche et décrire toutes les procédures nécessaires pour effectuer une réplication statistique indépendante de l’étude, y compris les éléments suivants :
- Dates des activités sur le terrain
- Nombre de ménages rencontrés
- Taux de refus
- Nombre de ménages et d’individus dans l’échantillon final
- Problèmes survenus lors de l’administration de l’enquête
- Manuels de l’enquêteur, de préférence en anglais
- Important : Fournir une copie ou un lien vers le manuscrit publié ou le document de travail rédigé sur la base des données et du code concernés, le cas échéant.
FICHIER README
Il est essentiel de fournir un fichier readme. Ce fichier doit être dans un format ouvert, indépendant de toute plateforme, comme du texte ASCII, Markdown ou un PDF, et contenir au moins les éléments suivants :
- Une description des données (par exemple, données de réplication pour l’article xyz)
- La date de la collecte de données
- Les exigences du système
- Comment exécuter les fichiers de code
- La liste des fichiers accompagnés de brèves descriptions
- Instructions pour la préparation et l'analyse des données de réplication
- Les autorisations de publication des données (incluant, idéalement, le numéro d’approbation de l’IRB et l’établissement concerné, ainsi qu’une référence à la section autorisant la publication des données désidentifiées; ou une citation de cette section). Le cas échéant, il convient également d’inclure les informations pertinentes sur l’accord d’utilisation des données (DUA) et de citer la clause par laquelle le fournisseur de données autorise la publication des données.
- Des remarques supplémentaires : vous pouvez par exemple décrire les droits de réutilisation, indiquer un format de citation recommandé, préciser dans quel entrepôt la dernière version des données est stockée, fournir les coordonnées des personnes à contacter, etc.
Pour un exemple de fichier readme publié, voir Vilhuber et al. (2020).
Soumettre des données dans un entrepôt
- Suggéré : Exécuter les versions finales du code. Une fois que l’ensemble du code a été modifié pour tenir compte des changements apportés aux données, exécutez-le pour vérifier qu’il fonctionne sans erreur et que les nouveaux résultats sont conformes à ceux qui sont présentés dans l’article publié ou le document de travail.
- Suggéré : Préserver la structure des fichiers pour les utilisateurs des données. Vérifiez d’abord la politique et les directives du dépôt en matière de chargement des données. Chaque entrepôt a une procédure différente. Nous vous recommandons de compresser tous les fichiers que vous aurez préparés dans un même dossier de façon à ce qu’ils puissent être téléchargés ensemble en conservant leur structure. (REMARQUE : Dataverse décompresse les fichiers d’archive lors du chargement des données, mais en conserve la structure pour les cas où le dossier est téléchargé dans son intégralité).
- Important : Lorsqu’on soumet un ensemble de données, le fait d’inclure des métadonnées détaillées peut en faciliter la réutilisation en fournissant aux chercheurs intéressés des informations clés sur les données sans qu’ils aient besoin de les télécharger. Si possible, ces métadonnées doivent être ajoutées aux champs de l’entrepôt de manière à les rendre lisibles par machine. Cependant, si aucun champ n’est proposé par l’entrepôt et qu’il n’est pas possible d’ajouter des champs supplémentaires, les métadonnées doivent être incluses dans la documentation readme. Il est fortement recommandé d’inclure les éléments suivants :
- Identification de l’étude : Titre du projet ; nom de tous les chercheurs principaux (y compris, le cas échéant, les numéros ORCID) ; mots-clés ; et conflits d’intérêt ou informations sur les bailleurs de fonds.
- Présentation de l’étude : Population cible ; type d’intervention ; méthodologie ; s’il s’agit d’une étude de panel ; vagues d’enquête prévues (s’il s’agit d’une étude de panel, indiquez le nombre d’enquêtes dans cette vague) ; description du projet ; période couverte par le projet ; publication ou document de travail associés.
- Métadonnées géospatiales : Pays, état, district et autres toponymes pertinents ; couverture géographique (par exemple, au niveau du pays, de l’état, de l’école).
- Mise en œuvre : Unité de randomisation, le cas échéant (en cas de formation de grappes, préciser le niveau de regroupement) ; unité de stratification, le cas échéant ; unité d’analyse (individus, ménages, entreprises, écoles, etc.) ; variables décrivant les unités de randomisation, de stratification et d’analyse ; méthode d’échantillonnage pour l’inclusion dans l’étude ; méthode d’échantillonnage pour chaque vague d’enquête ; partenaires du projet et nature du partenariat (par exemple, les écoles ont mis à disposition des salles pour rencontrer les parents, les hôpitaux ont fourni les dossiers de consultation médicale).
- Logiciels/programmes : Logiciel de programmation et numéro de version du programme.
- Conditions d’utilisation : Niveaux d’accès, conditions d’accès et coordonnées des personnes à contacter concernant les données.
- Remarque : Les entrepôts de données n’ont pas tous les mêmes limites en ce qui concerne la taille des fichiers. Les entrepôts mentionnés plus haut (ICPSR, Dataverse, et la ISPS Data Archive) n’imposent généralement aucune limite au nombre de fichiers qui peuvent être déposés, mais en limitent parfois la taille (par exemple, le Harvard Dataverse limite la taille des fichiers à 2,5 Go). La prise en charge de la publication et de l’utilisation des big data est en cours de développement dans certains entrepôts (voir les travaux les plus récents du Dataverse à cet effet). Si la taille de votre fichier dépasse la limite fixée par l’entrepôt que vous avez choisi, nous vous recommandons de compresser le fichier pour le ramener en dessous de la taille limite (si possible). En outre, il est parfois nécessaire de diviser un fichier de données trop lourd en deux fichiers ou plus, en n’incluant qu’un sous-ensemble de variables dans chaque fichier. Envisagez de créer des extraits aléatoires pour permettre aux utilisateurs intéressés d’ouvrir l’un des fichiers et de consulter un sous-échantillon représentatif. N’hésitez pas à contacter le service d’assistance de l’entrepôt pour demander conseil sur la procédure à suivre pour traiter les ensembles de données volumineux.
Actualiser des données publiées
Les entrepôts de données dignes de confiance permettent le contrôle de versions, ce qui est particulièrement utile pour la gestion des données de recherche à long terme, qui nécessite la mise à jour des métadonnées et des fichiers au fil du temps. Le contrôle de versions permet de suivre l’ensemble des modifications apportées aux métadonnées ou aux fichiers après la publication de votre ensemble de données (comme le dépôt d’un nouveau fichier, la modification des métadonnées d’un fichier, ou l’ajout ou la modification de métadonnées). Dans la plupart des entrepôts, un nouveau DOI est émis pour chaque version. Lorsque vous mettez à jour vos données publiées, il est important d’inclure une note documentant tous les changements effectués par rapport à la version précédente.
Les entrepôts dignes de confiance documentent automatiquement les modifications apportées aux métadonnées et l’ajout ou la suppression de fichiers, mais pas les changements spécifiques apportés aux fichiers. Il est donc utile de consigner toutes les modifications apportées à des données ou à des fichiers spécifiques dans le fichier readme. Par exemple :
- Version 1 : Enquête dans les cliniques ophtalmologiques de Nairobi - 1ère vague
- Version 1.1 : Correction d’une erreur de programmation
- Version 1.2 : Ajout d’une publication associée
- Version 2.0 : Ajout des données de la 2e vague
Retrait de l’accès aux données (deaccessionning)
La procédure qui consiste à retirer un jeu de données de l’entrepôt électronique où il était publié est connue sous le nom de « deaccessioning ». La plupart des entrepôts ont une procédure de ce type. Le retrait de l’accès aux données est une composante importante du contrôle de versions qui permet aux métadonnées et à la citation des données de rester disponibles même si l’accès aux données est révoqué. Il est possible de retirer l’accès à l’une des versions d’un jeu de données ou du jeu de données dans son intégralité. Le retrait de l’accès à un ensemble de données peut se produire pour diverses raisons. Par exemple, si une équipe de recherche publie par inadvertance le mauvais jeu de données, des données incomplètes ou un code erroné, elle peut souhaiter retirer l’accès à ce jeu de données pour charger le bon jeu de données associé à son étude. Lorsque l’accès à un jeu de données est retiré, cette version n’est plus accessible, mais la citation et les métadonnées correspondantes restent disponibles. Cela permet aux autres chercheurs de savoir que cette version de l’ensemble de données a existé, au cas où ils tomberaient dessus dans une autre étude.
Dernière modification : juillet 2020.
Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l’ajout de nouveaux contenus, veuillez remplir ce formulaire.
Nous remercions Shawn Cole, Mary-Alice Doyle, Laura Feeney, William Parienté et Karl Rubio pour leurs commentaires précieux. Ce document a été traduit de l’anglais par Marion Beaujard. Toute erreur est de notre fait.
Additional Resources
Berkeley Initiative for Transparency in the Social Sciences, Replication
Center for Open Science, Transparency and Openness Promotion Guidelines
Dataverse, Big Data Support
ICPSR, Guide to Social Science Data Preparation and Archiving
Banque Mondiale, Checklist: Microdata Catalog Submission
References
Bandiera, Oriana, Fischer, Greg, Prat, Andrea, and Erina Ytsma. 2016. “Do Women Respond Less to Performance Pay? Building Evidence from Multiple Experiments.” CEPR Discussion Paper No. 11724. [Gated version]
Cavanagh, Jack, Jasmin Clare Fliegner, Sarah Kopper, and Anja Sautmann. 2022. “A Metadata Schema for Data from Experiments in the Social Sciences.” World Bank Policy Research Working Paper WPS10296. http://documents.worldbank.org/curated/en/099945502062327217/IDU081c960a8049b504197099ff0d12be0b95375.
Data Bites: Finding a data repository. Copyright © 2022-07-13 MASSACHUSETTS INSTITUTE OF TECHNOLOGY is licensed under a Creative Commons Attribution 4.0 International License except where otherwise noted. Access at https://www.dropbox.com/s/maeyqhumra1yp7d/FindingRepos_Slides_MIT.pdf?dl=0.
Dillon, Moira R., Kannan, Harini, Dean, Joshua T., Spelke, Elizabeth S., and Esther Duflo. 2017. "Cognitive Science in the Field: A Preschool Intervention Durably Improves Non-Symbolic, but not Symbolic, Mathematics." Harvard Dataverse, V2. doi:10.7910/DVN/LCLKDT
Gertler, Paul, Galiani, Sebastian, and Mauricio Romero. 2018. “How to Make Replication the Norm.” Nature 554, 417–419. doi: 10.1038/d41586-018-02108-9
Meager, Rachael. 2019. “Understanding the Average Impact of Microcredit Expansions: A Bayesian Hierarchical Analysis of Seven Randomized Experiments.” AEJ: Applied 11, 57–91. DOI: 10.1257/app.20170299.
Research Libraries Group. 2002. "Trusted Digital Repositories: Attributes and Responsibilities." An RLG-OCLC Report. https://www.oclc.org/content/dam/research/activities/trustedrep/repositories.pdf
Vilhuber, Lars, Koren, Miklos, Llull, Joan, Connolly, Marie, and Peter Morrow. 2020. "A Template README for Social Science Replication Packages." Social Science Data Editors. https://social-science-data-editors.github.io/template_README/