Les plans de pré-analyse
Summary
Un plan de pré-analyse (PPA) décrit la manière dont les chercheurs prévoient d’analyser les données issues d’une évaluation aléatoire. Il est à distinguer de la notion de pré-enregistrement qui, en économie, désigne l’acte d’enregistrer un projet de recherche dans un registre comme celui de l’AEA avant le début de l’intervention. La présente ressource fournit des informations générales sur les plans de pré-analyse et les exigences des revues et des bailleurs de fonds en la matière. Elle donne également un aperçu des ressources utiles pour rédiger un plan de pré-analyse. Veuillez noter que ce panorama ne reflète pas le point de vue de J-PAL en matière d’exigences ou d’éléments à inclure dans un PPA.
Avant de lire cette ressource, nous vous recommandons de lire celle qui porte sur l’enregistrement d’une étude dans un registre d’essais
À propos des plans de pré-analyse
Un plan de pré-analyse (PPA) est un document accessible au public, généralement déposé avant le début de l’intervention, mais au plus tard avant le début de l’analyse des données, qui décrit comment les chercheurs prévoient de mener l’étude et d’analyser les données qui en découlent. Comme le PPA doit être horodaté, il est généralement déposé dans le cadre de l’enregistrement de l’essai. On peut le déposer au moment de l’enregistrement ou l’ajouter ultérieurement.
Les PPA renforcent la crédibilité des résultats et permettent de répondre aux inquiétudes liées aux biais de publication et aux pratiques de recherche de significativité statistique en fournissant une description ex ante de la méthode d’analyse envisagée. Comme le soulignent Banerjee et al. (2020) et d’autres chercheurs, cela peut se révéler particulièrement utile dans le cas des décisions qui laissent une grande marge de manœuvre au chercheur, par exemple lorsqu’il existe plusieurs manières de mesurer les variables principales, ou lorsqu’on analyse les effets du traitement sur des sous-groupes spécifiques de la population. Les PPA sont également utiles lorsque l’une des parties prenantes de l’évaluation a un intérêt direct dans les résultats de l’étude.
Lorsque les chercheurs enregistrent leur essai dans le registre des ECR de l’AEA, ils peuvent fournir des informations sur les variables principales, le protocole expérimental, la méthode de randomisation, l’unité de randomisation, les grappes et la taille de l’échantillon (nombre total d’unités, nombre de grappes et nombre d’unités par bras de traitement). S’ils souhaitent ajouter des informations supplémentaires, ils peuvent le faire en ajoutant un PPA, qu’ils peuvent choisir de masquer jusqu’à ce que l’essai soit terminé (voir ci-dessous). Lorsque les chercheurs publient un article à propos d’une étude ayant fait l’objet d’un PPA, ils précisent généralement quelles analyses de l’article étaient pré-spécifiées, et lesquelles ne l’étaient pas.
Dans le registre des ECR de l’AEA, de plus en plus d’essais enregistrés sont accompagnés d’un PPA (Turitto & Welch 2018). Notons toutefois que si l’ajout d’un PPA détaillé présente des avantages, cette démarche a également un coût (Olken 2015), notamment parce que la rédaction d’un tel document peut prendre deux à quatre semaines (Ofosu & Posner 2019). L’article de Banerjee et al. (2020) aborde la portée et l’utilisation des PPA et répond aux interrogations les plus fréquentes à ce sujet. D’après les auteurs, le simple fait de renseigner les champs requis pour enregistrer l’essai dans le registre de l’AEA permet généralement de retirer les mêmes avantages que si l’on avait déposé un PPA. L’article souligne également l’importance de bien faire la distinction entre les « résultats du PPA » et l’article de recherche final, et suggère que la création d’un bref « PPA complété » a posteriori peut être utile à cet égard (voir également ci-dessous).
Pour en savoir plus sur les différents points de vue concernant les avantages et inconvénients des PPA, nous vous invitons à consulter les ressources suivantes :
- Ben Olken (2015), « Promises and perils of pre-analysis plans »
- Kate Casey, Rachel Glennerster et Ted Miguel (2012) présentent un exemple d’utilisation efficace du PPA
- Lucas C. Coffman et Muriel Niederle (2015) examinent les avantages et les inconvénients des plans de pré-analyse, des répertoires de projets de recherche ou d’hypothèses de recherche et des réplications
- Dans « Pre-analysis plans: A stocktaking », George Ofosu et Daniel Posner (2019) analysent un échantillon représentatif de 195 PPA déposés sur les plateformes d’enregistrement de l’AEA et d’EGAP afin d’évaluer si ces documents sont suffisamment clairs, précis et complets pour remplir leurs objectifs, qui sont de prévenir les pratiques de fishing (ou triturage des données) et de limiter les possibilités de rectification a posteriori des hypothèses de recherche
- Garret Christensen et Ted Miguel (2018), « Transparency, reproducibility, and the credibility of economics research »
- Garrett Christensen, Jeremy Freese et Ted Miguel (2019), « Transparent and reproducible social science research: How to do open science »
- Kelly Bidwell, Katherine Casey et Rachel Glennerster (2020) abordent les défis de la pré-spécification itérative dans les essais multi-étapes et les études conjointes.
Exigences de J-PAL, des donateurs et des revues
Exigences de J-PAL : J-PAL n’impose pas systématiquement aux chercheurs de rédiger ou d’enregistrer un PPA, sauf lorsqu’il s’agit d’un exigence des bailleurs de fonds dans le cadre d’une initiative de recherche particulière. Par exemple, les initiatives de J-PAL Amérique du Nord exigent la soumission d’un PPA en raison des conditions imposées par les des bailleurs de fonds.
Exigences des donateurs et des revues : À l’heure actuelle, rares sont les revues d’économie qui exigent l’enregistrement d’un PPA. Cependant, il est possible que les exigences des donateurs et des revues évoluent à mesure que l’enregistrement des études gagnera en popularité. Nous décrivons ci-dessous la politique de deux bailleurs de fonds représentatifs, et le Center for Open Science a également une page wiki très utile qui recense les politiques des organismes de financement en matière de pré-enregistrement, de rapports, de partage des données, etc. Pensez à vérifier les lignes directrices de votre propre donateur en matière de transparence de la recherche et de libre accès pour vérifier que votre projet respecte bien ses exigences.
- Arnold Ventures (anciennement la Fondation Laura et John Arnold) exige la rédaction d’un PPA (qu’ils appellent pré-enregistrement) pour pouvoir prétendre à un financement, et impose également des obligations en matière d’ouverture des données, des documents et du code. Bon nombre de ses bénéficiaires qui financent des projets, comme J-PAL Amérique du Nord ou le programme SSMART Grants de BITSS, exigent un PPA pour les études empiriques qui reposent sur l’inférence statistique (qui sont généralement des études à grande échelle).
- Le Global Innovation Fund (GIF) impose des exigences minimales pour la recherche non clinique, qui correspondent aux informations requises par le registre de l’AEA. Un projet de recherche financé par le GIF doit être enregistré dans le registre horodaté où l’essai est pré-enregistré. Comme pour le pré-enregistrement, les PPA doivent être enregistrés avant le début de l’intervention.
Rédiger un plan de pré-analyse
Les avis divergent quant à la portée optimale d’un PPA et au niveau de détail qu’un tel document doit inclure. Les ressources mentionnées plus haut abordaient les compromis inhérents à la rédaction d’un PPA et le choix des informations à inclure. La présente section offre quant à elle un aperçu des ressources disponibles pour la rédaction d’un plan de pré-analyse, sans pour autant refléter le point de vue de J-PAL en matière d’exigences ou d’éléments à inclure dans un PPA.
L’entrée d’un essai dans un registre public contient un certain nombre d’informations clés sur l’étude concernée, notamment la taille de l’échantillon et les principales variables d’intérêt. Le pré-enregistrement permet donc aux chercheurs de conserver une trace de leurs intentions initiales en ce qui concerne le protocole et l’analyse de l’expérimentation aléatoire. Selon Banerjee et al. (2020), ces informations sont le plus souvent suffisantes pour un PPA. Les chercheurs peuvent néanmoins choisir de fournir des détails supplémentaires dans leur PPA, en particulier lorsqu’ils prévoient d’effectuer des analyses de sous-groupes ou lorsqu’il existe plusieurs façons de mesurer une même variable de résultat. Alejandro Ganimian a créé un modèle de PPA disponible sur Github et téléchargeable au format tex. Ce modèle contient une liste exhaustive des informations que les chercheurs peuvent inclure dans leur PPA, ainsi qu’une série de questions pour les aider à déterminer quels éléments inclure dans chaque section. David McKenzie (2012) propose également une check-list utile pour la création d’un plan de pré-analyse.
Considérations à prendre en compte lors de la rédaction d’un PPA :
Voici quelques bonnes pratiques recommandées par différents chercheurs pour la rédaction d’un PPA, largement inspirées de Banerjee et al. (2020) :
- Faites preuve de concision. Un PPA ne doit pas viser l’exhaustivité mais doit être concis et en venir directement au fait. Quelles sont les principales variables et analyses ? Quel modèle de régression ou quel test statistique prévoit-on d’appliquer à ces résultats ? Cette exigence de concision incite le chercheur à fournir des informations précises et spécifiques sur les analyses pré-spécifiées, ce qui permet au lecteur de gagner du temps. Les champs à remplir lors du pré-enregistrement peuvent servir de point de départ (Banerjee et al. 2020).
- Admettez vos incertitudes. Lorsque vous n’êtes pas sûr de quelque chose, signalez-le et expliquez pourquoi. Ne mettez pas en péril le lancement de l’étude parce que vous n’êtes pas en mesure d’effectuer une pré-spécification « complète ». À ce titre, Banerjee et al. (2020) préconisent de considérer le PPA davantage comme une archive documentant les réflexions et les intentions initiales des chercheurs que comme un engagement ferme vis-à-vis ce qui peut être accompli.
- Un PPA peut être modifié. Si vous devez modifier votre PPA ou si vous avez oublié d’y inclure quelque chose, pensez à documenter les raisons de cette modification, idéalement avant la collecte de données finale (Casey, Glennerster et Miguel 2012).
- Utilisez le suivi des modifications ou toute autre méthode de contrôle de versions. Lorsque vous modifiez votre PPA, veillez à préciser pourquoi vous effectuez ces révisions. Les modifications doivent être enregistrées dans le registre ; voir l’exemple fourni par Casey, Glennerster et Miguel (2012). Banerjee et al. (2020) recommandent de limiter autant que possible le nombre de révisions et de n’enregistrer de nouvelles versions du PPA qu’à deux ou trois occasions dédiées de façon à ce que le document reste lisible.
Il existe également d’autres ressources sur la rédaction des PPA :
- L’article de Banerjee et al. (2020), qui aborde la portée et l’utilisation des plans de pré-analyse pour les ECR en économie. Cet article inclut une FAQ qui explique comment utiliser un PPA et faire face aux situations les plus courantes dans ce domaine.
- La check-list pour les plans de pré-analyse de David McKenzie (2012)
- L’article de blog de 2017 de Leif Nelson, Joe Simmons et Simon Uri sur ce qu’il faut ou ne faut pas inclure dans un PPA
- L’article de Christensen et Miguel publié en 2018 dans le JEL, qui s’appuie sur les orientations fournies par la FDA en 1998
Plusieurs exemples de plans de pré-analyse sont également disponibles, notamment :
- Le PPA de Stefano Caria, Bruno Crépon, Noha Fadl, Caroline Krafft et AbdelRahman Nagy pour leur évaluation de l’accès subventionné à la crèche et des services d’aide à la recherche d’emploi en Égypte.
- L’étude menée par Amy Finkelstein, Annetta Zhou, Sarah Taubman et Joseph Doyle, qui évalue un programme de gestion des soins hospitaliers dans le New Jersey, avait fait l’objet en 2014 d’un plan de pré-analyse contenant des tableaux vierges qui indiquaient les analyses prévues. Les auteurs ont ensuite inclus ces tableaux en annexe de leur article publié, Finkelstein et al. (2020), accompagné d’une analyse de tous les points de divergence entre l’article et le PPA.
Bien que leur objectif et leur contenu puissent varier, vous trouverez d’autres exemples de PPA dans le registre des ECR de l’AEA et ses métadonnées.
Le « PPA complété »
Dans certains cas, l’article de recherche final suit fidèlement les analyses pré-spécifiées dans le PPA. Cependant, il arrive aussi que l’article final s’écarte du PPA, et ce pour plusieurs raisons. Banerjee et al. (2020) expliquent quelles peuvent être ces raisons et estiment que les chercheurs (et leurs lecteurs) doivent considérer l’article de recherche et les résultats du PPA comme deux documents bien distincts.
Les chercheurs peuvent donc envisager de créer un document distinct qui complète autant que possible le PPA d’origine et aborde les éventuelles divergences entre l’article et le PPA. Ce « PPA complété » pourra être ajouté à l’entrée de l’essai dans le registre une fois l’étude terminée, avec les éventuels articles de recherche, ou bien être inclus en annexe de l’article.
Un PPA renforce la crédibilité des résultats de toutes les analyses pré-spécifiées. En revanche, les résultats qui n’ont pas été pré-spécifiés doivent être considérés de la même manière que ceux d’une étude d’observation n’ayant pas fait l’objet d’un PPA. Le PPA complété permet aux lecteurs de comprendre pourquoi les analyses pré-spécifiées ont ou non été incluses dans l’article final et d’en connaître les résultats.
Évolutions récentes et alternatives aux PPA
Les dernières évolutions concernant les PPA et les alternatives à la pré-spécification constituent un champ de recherche et de débat scientifique particulièrement dynamique. Voici quelques propositions récentes émanant de différents chercheurs :
- Les Procédures opérationnelles normalisées (SOP en anglais) sont des « pratiques par défaut permettant de guider la prise de décision lorsque des problèmes surviennent qui n’ont pas été anticipés dans le PPA. » Lin et Green (2016) donnent un exemple de ce type de procédure, qui peut être adapté par les chercheurs en quête d’un filet de sécurité supplémentaire pour renforcer leur PPA.
- Les approches par partition de l’échantillon (« split-sample ») ne nécessitent aucune pré-spécification, mais consistent à diviser les données en deux échantillons : un échantillon d’exploration utilisé pour construire le modèle d’analyse et un échantillon de test sur lequel sont effectués l’analyse proprement dite et les tests statistiques (Anderson & Magruder 2017 ; Fafchamps & Labonne 2016). Comme le notent Anderson et Magruder, malgré la flexibilité que confère cette approche, elle a pour inconvénient de réduire la taille de l’échantillon de test et donc la puissance statistique. En psychologie, cette méthode empruntée à l’apprentissage automatique est appelée « Train-Preregister-Test » (voir Santos et Grossman 2018 pour un exemple d’application).
- Une analyse en aveugle consiste à masquer les données ou les résultats de l’analyse de façon à ce que l’analyste n’ait pas accès aux informations qui pourraient l’amener à privilégier certaines méthodes d’analyse plutôt que d’autres, en particulier l’assignation du traitement (Klein & Roodman 2005 ; Srivastava 2018). Il s’agit d’une approche particulièrement répandue en physique, même s’il a récemment été question de l’appliquer également aux études de psychologie.
- Power to the Plan de Clare Leaver, Owen Ozier, Pieter Serneels et Andrew Zeitlin (2018) montre comment utiliser les analyses en aveugle (qu’elles soient basées sur des données combinées ou sur des données partielles de fin d’étude) pour sélectionner de façon éclairée les modèles et les statistiques de test qui améliorent la puissance.
Voir Srivastava (2018) pour plus d’informations sur la pré-spécification et ses alternatives.
En outre, le Journal of Development Economics accepte désormais les « rapports enregistrés » (voir cet article de 2018 sur le blog de J-PAL pour une description de l’essai pilote effectué par la revue sur les rapports enregistrés, ainsi que le rapport de suivi de 2019 qui présente les résultats de ce pilote). Il s’agit d’articles qui sont soumis pour publication dans la revue avant que la collecte de données ne soit effectuée, et qui sont donc évalués sans les résultats. Les articles acceptés sont ensuite publiés quels que soient les résultats de l’étude. Le modèle de rapport enregistré reprend et complète les éléments qui figurent généralement dans les plans de pré-analyse en économie du développement, et inclut une check-list pour aider les chercheurs à documenter les différentes parties de leur protocole de recherche. De plus amples informations sont disponibles dans le guide à l’intention des auteurs.
Dernière modification : mars 2022.
Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l’ajout de nouveaux contenus, veuillez remplir ce formulaire.
Ce document a été traduit de l’anglais par Marion Beaujard.
Nous remercions Amy Finkelstein pour ses commentaires précieux, Jack Cavanagh pour la relecture et la correction de ce document et Marion Beaujard pour sa traduction en français. Toute erreur est de notre fait.
References
- Anderson, Michael L., and Jeremy Magruder. 2017. “Split-Sample Strategies for Avoiding False Discoveries.” NBER Working Paper No. 23544. Juin 2017. doi: 10.3386/w23544.
- Baicker, Kate, Amy Finkelstein and Sarah Taubman. 2019. "The Oregon Health Insurance Experiment." AEA RCT Registry. Avril 05. https://doi.org/10.1257/rct.28-12.0.
- Banerjee, Abhijit, Esther Duflo, Amy Finkelstein, Lawrence F. Katz, Benjamin A. Olken, and Anja Sautmann. 2020. "In Praise of Moderation: Suggestions for the Scope and Use of Pre-Analysis Plans for RCTs in Economics." NBER Working Paper No. 26993.
- Bidwell, Kelly, Katherine Casey, and Rachel Glennerster. 2020. “Debates: Voting and Expenditure Responses to Political Communication.” Journal of Political Economy, 128:8, 2880-2924. https://doi.org/10.1086/706862
- Bogdanoski, Aleksandar, Andrew Foster, Dean Karlan, Edward Miguel “Pre-results Review at the Journal of Development Economics: Lessons learned so far,” blog de la Banque Mondiale, 15 juillet 2019. Dernière consultation le 25 septembre 2019.
- Casey, Katherine, Rachel Glennerster, and Edward Miguel. 2012. “Reshaping Institutions: Evidence on Aid Impacts Using a Preanalysis Plan,” The Quarterly Journal of Economics, Oxford University Press, vol. 127(4), pages 1755-1812. doi: 10.3386/w17012.
- Christensen, Garret S., and Edward Miguel. 2018. “Transparency, Reproducibility, and the Credibility of Economics Research.” Journal of Economic Literature, 56(3): 920-980.
- Christensen, Garret S., Jeremy Freese, and Ted Miguel (2019). Transparent and Reproducible Social Science Research: How to Do Open Science, University of California Press, 23 juillet 2019.
- Coffman, Lucas C., and Muriel Niederle. 2015. “Pre-analysis Plans Have Limited Upside, Especially Where Replications Are Feasible.” Journal of Economic Perspectives, 29 (3): 81-98. doi: 10.1257/jep.29.3.81.
- Fafchamps, Marcel, and Julien Labonne. 2016. “Using Split Samples to Improve Inference about Causal Effects.” NBER Working Paper No. 21842. doi: 10.3386/w21842.
- Finkelstein, Amy, Annetta Zhou, Sarah Taubman, and Joseph Doyle. 2020 “Health Care Hotspotting — A Randomized, Controlled Trial.” New England Journal of Medicine, 9 janvier 2020; 382:152-162. DOI: 10.1056/NEJMsa1906848. Annexe en ligne DOI: 10.1056/NEJMsa1906848 et PPA de 2014
- Haushofer, Johannes, and Jeremy Shapiro. 2016. “The Short-Term Impact of Unconditional Cash Transfers to the Poor: Experimental Evidence from Kenya.” Quarterly Journal of Economics, 131(4), 1973–2042. Plan de pré-analyse
- Journal of Development Economics. Pre-Results Review (Registered Reports): Guidelines for Authors. Dernière consultation le 30 mars 2020.
- Klein, Joshua R., and Aaron Roodman. 2005. “Blind Analysis in Nuclear and Particle Physics.” Annual Review of Nuclear and Particle Science, 55:1, 141-163. 8 décembre. https://doi.org/10.1146/annurev.nucl.55.090704.151521
- Leaver, Clare, Owen Ozier, Pieter Serneels, and Andrew Zeitlin. “Power to the Plan.” Blog Development Impact de la Banque Mondiale, 17 décembre 2018.
- Lin, Winston, and Donald P. Green. “Standard Operating Procedures: A Safety Net for Pre-Analysis Plans.” PS: Political Science & Politics 49, no. 3 (2016): 495-500. doi:10.1017/S1049096516000810.
- McKenzie, David. “A pre-analysis plan checklist.” Blog de la Banque Mondiale, 28 octobre 2012. Dernière consultation le 25 septembre 2019.
- Ofosu, G., & Posner, D. (2021). “Pre-Analysis Plans: An Early Stocktaking.” Perspectives on Politics, 1-17. doi:10.1017/S1537592721000931
- Olken, Benjamin A., 2015. “Promises and Perils of Pre-Analysis Plans.” Journal of Economic Perspectives, 29 (3), 61–80. Dernière consultation le 25 septembre 2019.
- Santos, Henri C., and Igor Grossmann. 2018. “Relationship of Wisdom-related Attitudes and Subjective Well-being over Twenty Years: Application of the Train-preregister-test (TPT) Cross-validation Approach to Longitudinal Data.” PsyArXiv. 2 février. doi:10.31234/osf.io/f4thj.
- Srivastava, Sanjay. 2018. “Sound Inference in Complicated Research: A Multi-strategy Approach.” PsyArXiv. 21 novembre. doi:10.31234/osf.io/bwr48.
- Turitto, James, and Keesler Welch. “Addressing the challenges of publication bias with RCT registration.” Blog de J-PAL, février 2018. Dernière consultation le 25 septembre 2019.
Welch, Keesler and Aleksandar Bogdanoski. “Pre-results review at the Journal of Development Economics: Taking transparency in the discipline to the next level.” Blog de J-PAL, septembre 2018. Dernière consultation le 9 juin 2020.