View in English

Petit guide des calculs de puissance

Authors

Mary-Alice Doyle

Laura Feeney

Contributors

Sarah Kopper

John Tebes

Caroline Garau

Summary

Cette ressource est destinée aux chercheurs qui sont en train de concevoir une évaluation aléatoire et d’en évaluer la faisabilité en collaboration avec un partenaire de mise en œuvre. Elle présente les principes fondamentaux des calculs de puissance, donne des conseils pour identifier les données nécessaires à ces calculs et explique comment les intégrer au projet de l’étude. Nous partons du principe que le lecteur a des connaissances en statistiques et une compréhension de base de la finalité des calculs de puissance. À la fin du document, vous trouverez des liens vers des ressources supplémentaires et un exemple de code permettant d’effectuer des calculs de puissance.

Principes clés

1) Commencez à faire des calculs de puissance le plus tôt possible

Effectuer des calculs de puissance dès le début du projet, même s’ils sont approximatifs, peut s’avérer très bénéfique.

Si l’étude n’est pas réalisable, ces premiers calculs vous permettront, à vous et à votre partenaire, de vous en rendre compte rapidement et d’éviter ainsi de passer des semaines, voire des mois, à concevoir une étude qui ne pourra finalement pas être menée à bien.
Ne vous laissez pas décourager par l’absence de données pertinentes sur la population que vous voulez étudier : les premiers calculs de puissance peuvent être effectués sur la base de statistiques sommaires obtenues auprès de sources publiques et dans la littérature existante.
Préparez-vous à un processus itératif. Si les premiers calculs suggèrent que l’étude est réalisable, vous serez amenés à les tester de manière répétée et à les affiner dans le cadre du processus de conception de l’étude.

2) L’étape la plus difficile consiste à choisir un effet minimum détectable (EMD) qui soit raisonnable.

Il n’existe pas de règle universelle permettant d’identifier le « bon » effet minimum détectable (EMD). Tout dépend de ce qui est important pour les parties prenantes par rapport au coût d’opportunité de la recherche.

Pour les chercheurs, ce choix peut être guidé par la littérature existante : quels résultats ont obtenu les précédentes études portant sur des interventions comparables ? Quelle serait la taille d’effet minimum qu’il serait intéressant de pouvoir rejeter ?
Pour les partenaires, il peut s’agir de l’effet minimal qui justifierait de continuer à mettre en œuvre le programme (de leur propre point de vue ou de celui d’un bailleur de fonds ou d’un décideur politique), plutôt que de consacrer les ressources à d’autres activités. Il peut s’agir du plus petit effet compatible avec leur évaluation du rapport coût-bénéfice, du plus petit effet pertinent sur le plan clinique, ou d’un autre critère encore.

3) Les calculs de puissance sont des indications approximatives, pas une science exacte.

Les calculs de puissance sont surtout utiles pour évaluer des ordres de grandeur. Pour les affiner, il peut être intéressant de procéder à un certain nombre d’ajustements, par exemple en incluant des covariables pour absorber la variance résiduelle ou en utilisant un jeu de données plus complet pour refaire les calculs. Mais n’oubliez pas que la valeur exacte ex post des éléments entrant dans le calcul de la puissance sera nécessairement différente des estimations effectuées ex ante : si l’on continue d’affiner les calculs sur la base des estimations ex ante, on peut rapidement atteindre le point de rendement décroissant.

4) The first stage has an outsized effect on power.

On sous-estime souvent le poids de la première étape (qui prend en compte des facteurs comme les taux de participation et de conformité) dans le calcul de la puissance ou de la taille d’échantillon nécessaire. Si les hypothèses émises pour cette première étape sont trop optimistes, on risque d’avoir une puissance très insuffisante à la deuxième étape. Par exemple, pour être en mesure de détecter une taille d’effet donnée avec un taux de participation de 25 %, il faudrait proposer le traitement à 16 fois plus de personnes et le fournir à 8 fois plus de personnes (en supposant un nombre égal de sujets traités et de sujets témoins) que si le taux de participation était de 100 % (McKenzie 2011).¹

Processus de calcul de la puissance statistique

À la lumière de ces principes fondamentaux, nous allons maintenant détailler chaque étape du processus : la collecte des informations nécessaires, la présentation du concept de puissance statistique aux partenaires, la réalisation de premiers calculs approximatifs, la décision de poursuivre ou non les travaux préliminaires, l’affinement des calculs et, enfin, la décision d’entreprendre ou non l’étude.

Rassembler les informations nécessaires aux calculs de puissance

Le partenaire de mise en œuvre peut être une source d’informations précieuse pour les calculs de puissance. Certains paramètres, comme la taille maximale de l’échantillon, l’EMD le plus adapté à la politique ou au programme concerné et l’unité d’observation, ne peuvent être définis qu’en en discutant avec le partenaire. Pour d’autres paramètres, comme la moyenne et la variance des variables d’intérêt principales, le taux de participation et la corrélation intra-grappe, il est souvent possible de trouver des estimations approximatives dans des études antérieures ou dans des données accessibles au public. Si vous pouvez avoir facilement accès à des données ou à des statistiques sommaires issues des activités courantes du partenaire ou de la ou des source(s) de données qui seront utilisées dans l’analyse finale, il est préférable de les utiliser.

Calculs initiaux

Pour effectuer ces calculs, utilisez les meilleures données parmi celles auxquelles vous avez facilement accès. Dans un premier temps, évitez de vous perdre dans des démarches sans fin pour tenter d’accéder à des données non publiques. Une fois que le projet envisagé aura passé avec succès un test élémentaire de faisabilité, vous pourrez conclure des accords pour accéder aux données requises et actualiser vos calculs de puissance à l’aide des nouvelles données ainsi obtenues. En attendant, vous pouvez envisager d’utiliser :
- Des statistiques sommaires issues de la littérature existante : il peut être intéressant de consulter différentes études universitaires expérimentales et non-expérimentales ainsi que des rapports officiels publiés par des gouvernements ou des organismes à but non lucratif pour comparer différentes tailles d’effet et identifier celle qui semble la plus réaliste.
- Des données publiées, provenant par exemple de :
  - La base de données des évaluations de J-PAL, qui permet de filtrer les résultats de recherche pour ne voir que les études dont les données ont été publiées.
  - J-PAL DataVerse
  - Google Dataset Search
  - D’autres dépôts de données comme l’ICPSR.
Réalisez une analyse de sensibilité pour les paramètres clés : par exemple, que se passerait-il si la taille de l’échantillon augmentait ou diminuait d’un ordre de grandeur ? Si le taux de participation était inférieur de moitié à ce que vous aviez prévu ? Ou si la corrélation intra-grappe était bien plus élevée ou plus faible que prévu ? Cette analyse vous permet de tester la façon dont la puissance statistique varie lorsque la valeur des différents paramètres clés est modifiée. Attention toutefois aux rendements décroissants, les calculs de puissance étant surtout utiles pour évaluer un ordre de grandeur.
Pour effectuer des calculs de puissance, vous n’avez pas forcément besoin de trouver des données pour tous les paramètres. L’analyse de sensibilité vous permettra d’identifier les paramètres qui ont le plus d’impact sur la puissance, et l’équipe pourra alors concentrer ses efforts sur la recherche d’estimations fiables pour ces paramètres clés.
Pour faire vos calculs, envisagez aussi bien les méthodes d’analyse que les méthodes de simulation. Les méthodes de simulation sont particulièrement utiles pour les protocoles de recherche les plus complexes (McConnell et Vera-Hernandez 2015). Si l’on dispose de données de qualité sur la population étudiée, ces méthodes peuvent également être utilisées pour calculer des intervalles de confiance simulés pour l’hypothèse nulle, ou pour effectuer des calculs de puissance pour un échantillon de petite taille au sein duquel certaines des hypothèses paramétriques concernant les distributions de probabilités sont susceptibles de ne pas être satisfaites.
Utilisez des modèles de code existants. J-PAL a créé des modèles de code Stata et des exercices pratiques pour les méthodes d’analyse et de simulation, qui sont disponibles en téléchargement au format zip ici ; EGAP propose un modèle de code pour réaliser des simulations sous R (Coppock 2013) ; et le blog Stata contient également un article utile qui explique comment faire des calculs de puissance à l’aide d’une simulation de Monte Carlo (Huber 2019).
Envisagez d’utiliser un logiciel permettant de visualiser la relation entre la taille de l’échantillon et l’effet minimum détectable. Cela pourra se révéler utile lorsque vous devrez présenter les calculs à vos partenaires. Voir par exemple :

Prise de décision

Après avoir effectué les premiers calculs, prenez le temps d’organiser un appel ou une réunion avec votre partenaire de recherche afin de discuter des résultats de ces calculs et de décider ensemble s’il est judicieux de poursuivre l’étude.

Expliquez en détail les chiffres qui entrent dans le calcul de vos estimations. Précisez quels paramètres reposent sur des hypothèses de votre part et quels sont ceux qui sont basés sur les données du programme. Comme les partenaires de mise en œuvre ont une connaissance approfondie du programme et du contexte, ils seront peut-être à même de mobiliser ces informations pour trouver des solutions créatives permettant d’augmenter la puissance.
Assurez-vous que vous et votre partenaire avez bien conscience des coûts et des avantages que représente la poursuite de l’étude si la puissance est trop faible. Mettre en œuvre une évaluation trop peu puissante comporte des risques, qui ne se limitent pas au fait de mobiliser du temps et des ressources pour une étude qui risque de ne livrer aucune information utile. La mise en œuvre d’une telle évaluation présente également des risques importants pour les partenaires de mise en œuvre. En effet, si une étude à faible puissance ne détecte aucun effet significatif, on risque de penser à tort que le programme n’a aucun effet, ce qui peut pousser les organismes de mise en œuvre ou les bailleurs de fonds à conclure (peut-être à tort) que le programme est inefficace et doit être suspendu.²
Prenez une décision ensemble. À la fin de l’appel ou de la réunion, évoquez ensemble les prochaines étapes. Vous pouvez décider conjointement :
- De mettre un terme aux discussions : peut-être la taille de l’échantillon potentiel est-elle bien trop petite pour permettre de détecter un effet significatif, ou bien les modifications qu’il faudrait apporter au protocole de l’étude pour obtenir une puissance suffisante ne sont pas réalisables d’un point de vue opérationnel, ou sont trop onéreuses. C’est une décision difficile, mais il est préférable pour toutes les parties concernées d’avoir cette conversation le plus tôt possible, plutôt que d’investir du temps dans la conception d’une étude qui a très peu de chances d’être réalisée. Cela peut être l’occasion de se demander s’il y a d’autres questions potentielles que vous et votre partenaire pourriez explorer ensemble.
- De poursuivre les discussions : il arrive qu’une étude semble prometteuse, mais que les calculs initiaux ne permettent pas encore de déterminer si elle est susceptible d’avoir une puissance suffisante. On peut alors décider de procéder à des tests et à des ajustements supplémentaires sur le protocole expérimental et/ou les calculs de puissance avant de décider de réaliser ou non l’étude.
- De poursuivre l’étude : vous pouvez décider conjointement que, sur la base de vos hypothèses et de vos calculs, l’étude a des chances d’avoir une puissance suffisante. Si les hypothèses ou le protocole expérimental subissent des modifications importantes, vous pouvez malgré tout continuer d’affiner vos calculs de puissance.

Affiner les calculs

Si l’étude semble faisable, mais que les calculs initiaux ne permettent pas encore de déterminer si elle bénéficiera d’une puissance suffisante, l’équipe de recherche peut procéder à des tests itératifs sur les détails du protocole de l’étude avec le partenaire de recherche.³ À ce stade, affiner les calculs peut s’avérer particulièrement utile dans deux situations clés :

Pour évaluer les effets des modifications du protocole sur la puissance de l’étude. Si le protocole a subi des modifications importantes depuis la réalisation des calculs initiaux, par exemple si vous avez modifié le nombre de bras de traitement, la procédure d’admission (qui peut affecter la participation) ou l’unité de randomisation, ou encore si vous avez décidé de mesurer les effets sur des sous-groupes particuliers, ces modifications doivent être prises en compte dans les estimations de la puissance statistique.
Si vous trouvez de meilleures estimations des paramètres clés. Si l’étude a passé avec succès un test élémentaire de faisabilité, mais que vous n’aviez pas réussi à trouver des estimations satisfaisantes de certains paramètres fondamentaux pour vos calculs de puissance initiaux, il peut être utile de chercher des données supplémentaires pour affiner votre estimation de la puissance. Vous pouvez notamment demander à votre partenaire de vous fournir des données opérationnelles détaillées, ou demander à une entité tierce de vous fournir des données administratives ou des données d’enquête non publiques.

Notons qu’affiner les calculs de puissance présente un rendement marginal décroissant. Si les résultats des calculs initiaux étaient satisfaisants, ces calculs ne nécessitent peut-être que des ajustements mineurs, voire aucun ajustement. Cependant, si les points mentionnés ci-dessous n’ont pas été pris en compte dans les calculs initiaux, il convient de le faire avant de prendre une décision finale concernant le protocole de l’étude :

Identifiez les variables d’intérêt principales et secondaires que l’étude doit être en mesure de détecter, et effectuez des calculs pour chacune de ces variables.
Si le protocole expérimental comporte plusieurs bras, effectuez toutes les comparaisons par paire possibles entre les différents bras. Si, par exemple, l’étude envisage de comparer le groupe témoin avec deux groupes de traitement différents, assurez-vous d’avoir un groupe témoin suffisamment grand, et donc la puissance nécessaire, pour détecter l’EMD le plus petit des deux comparaisons et, le cas échéant, pour pouvoir détecter une différence significative entre les deux groupes de traitement.
En cas de randomisation en grappes, veillez à ce que vos calculs de puissance intègrent des estimations de la variance intra- et inter-grappes de la variable de résultat.

Après avoir affiné vos calculs de puissance, peut-être déciderez-vous ensemble que l’étude n’est pas réalisable et qu’il vaut mieux mettre un terme aux discussions. En revanche, si l’équipe de recherche juge que la puissance de l’étude est suffisante et si l’EMD choisi semble raisonnable au partenaire de recherche, vous pouvez décider ensemble de franchir le pas et de lancer l’étude.⁴

Éléments nécessaires pour effectuer des calculs de puissance : sources et conseils

Éléments reposant sur des décisions ou des hypothèses

Variables d’intérêt principales et secondaires : Il est tout à fait possible que plusieurs variables de résultat soient potentiellement intéressantes pour le projet. Dans ce cas, chacune d’entre elles doit faire l’objet de ses propres calculs. Pour faciliter les calculs initiaux, convenez d’un ensemble limité de variables de résultat essentielles sur lesquelles vous concentrer. Puis, lorsque vous affinerez vos calculs, faites des calculs de puissance pour l’ensemble des variables d’intérêt sélectionnées.
Taille de l’échantillon : Pour préciser la taille potentielle de l’échantillon, posez les questions suivantes :
- Combien de personnes bénéficient actuellement des services au cours d’une période donnée ?
- Si cela devait s’avérer nécessaire pour obtenir un échantillon de taille suffisante, le partenaire serait-il disposé à mener une étude sur une période plus longue ?
- A-t-on les moyens d’augmenter le nombre de bénéficiaires des services ? Y a-t-il une façon inventive d’augmenter la taille de l’échantillon tout en tenant compte des contraintes existantes en matière de services ?⁵
Effet minimum détectable :
- Sources :
  - Effets mesurés dans le cadre d’études existantes
  - Estimations fournies par le concepteur ou le responsable de la mise en œuvre du programme
- Réfléchissez aux questions suivantes :
  - Les effets observés dans les études existantes sont-ils susceptibles d’être biaisés de façon positive ou négative ?
  - Quelle taille d’effet serait scientifiquement pertinente ?
  - Pour quelle taille d’effet les avantages du programme l’emporteraient-ils sur ses coûts ? Pour quelle taille d’effet ce programme serait-il jugé préférable à d’autres options ?
  - Quelle taille d’effet inciterait les bailleurs de fonds ou les décideurs politiques à déployer le programme à plus grande échelle ?
  - La façon dont un partenaire perçoit l’impact de son propre programme ne correspond pas toujours à la taille d’effet qui est pertinente pour la prise de décision.[!6]
- Si votre estimation initiale de l’EMD est exprimée en écarts-types, veillez à évaluer également la pertinence concrète de l’EMD en termes absolus.[!7]
Allocation au groupe de traitement et au groupe témoin : Commencez par supposer une répartition égale des unités entre les différents bras de l’étude. Dans certains cas, le coût marginal que représente l’ajout d’unités supplémentaires au groupe témoin est très faible par rapport à l’ajout d’unités au groupe de traitement (notamment lorsqu’on utilise des données administratives pour mesurer les résultats). Dans ce cas, pour une limite budgétaire donnée, on peut maximiser la puissance en augmentant le nombre d’unités assignées au groupe témoin par rapport au groupe de traitement (McConnell et Vera-Hernandez 2015).⁸
Unité d’observation et niveau de randomisation :
- Pour un nombre d’individus donné, les études qui randomisent à un niveau plus granulaire (par exemple au niveau de la classe plutôt que de l’école) ont généralement une plus grande puissance statistique.
- L’unité d’observation et le niveau de randomisation ne sont pas obligatoirement les mêmes. En fonction de la corrélation intra-grappe (voir ci-dessous), les études qui randomisent à un niveau plus élevé peuvent gagner un peu de puissance en utilisant une unité d’observation plus granulaire pour mesurer les résultats (par exemple, en randomisant au niveau de la classe mais en observant les résultats au niveau de l’élève).

Éléments nécessitant des données :

Variance :
- Sources :
  - Estimations tirées d’études existantes, de la littérature d’observation ou de données accessibles au public
  - Estimations issues des documents opérationnels du partenaire
- Pour les variables binaires, la variance peut être calculée à partir de la moyenne. Si vous utilisez des variables de résultat binaires (comme l’admission à l’hôpital, le retour dans un centre d’hébergement pour sans-abri ou l’inscription à l’université), vous pourrez donc vous baser sur des rapports qui ne publient pas les écarts-types pour effectuer vos calculs initiaux. Il est également plus simple de demander des statistiques sommaires au partenaire pour effectuer les premiers calculs si cette demande ne porte que sur les moyennes et pas sur les écarts-types.

Si P (x=1) = p

var(x) = p * (1-p)

Taux de participation ou conformité/attrition :
- Sources :
  - Études existantes
  - Données existantes sur le programme ou étude pilote
- Conseils :
  - Les hypothèses concernant la participation et la conformité sont souvent trop optimistes. Or, les calculs de puissance y sont généralement très sensibles. Par exemple, pour être en mesure de détecter une taille d’effet donnée avec un taux de participation de 25 %, il faudrait proposer le traitement à 16 fois plus de personnes et le fournir à 8 fois plus de personnes (en supposant un nombre égal de sujets traités et de sujets témoins) que si le taux de participation était de 100 %.⁹
  - Si vous craignez que le taux de participation soit faible, envisagez de concevoir l’étude de manière à n’assigner les sujets au groupe de traitement ou au groupe témoin qu’une fois qu’ils auront accepté de participer à l’étude.¹⁰
Ajout de covariables :
- Sources :
  - La description du jeu de données utilisé pour l’analyse ou le dictionnaire de données correspondant peuvent contenir une liste de variables susceptibles d’être utilisées comme covariables
  - On peut également examiner la corrélation entre les variables de résultat et les covariables dans d’autres ensembles de données
- L’inclusion de covariables dans les calculs peut améliorer la puissance statistique. Lorsque vous effectuez vos calculs initiaux, ne prenez en compte aucune covariable. Par la suite, quand vous affinerez le protocole de l’étude, réfléchissez aux covariables disponibles dans votre ensemble de données qui sont susceptibles d’être fortement corrélées avec la variable de résultat (et qui pourraient donc absorber une grande partie de la variation résiduelle, améliorant ainsi la puissance).
Corrélation intra-grappe :
- Sources :
  - Informations fournies par le partenaire
  - Études existantes
  - Estimations issues de données publiques
- Effectuez une analyse de sensibilité en vous basant sur un éventail d’hypothèses raisonnables.

Avant d’aborder avec votre partenaire des sujets comme les déterminants de la puissance statistique, les implications des calculs de puissance ou les changements à apporter au programme pour atteindre un niveau de puissance donné, prenez le temps de lui expliquer le concept même de puissance statistique. Une fois que vous aurez établi une vision commune de la puissance et de son importance, vous pourrez évoquer plus en détail les différents paramètres qui l’influencent. Une liste des points à aborder, ainsi que des ressources permettant de présenter le concept de puissance statistique à un partenaire non spécialiste, figurent à la fin de ce guide. Voici quelques éléments qui reviennent souvent dans les conversations sur la conception de l’étude et qui méritent donc d’être clarifiés dès le départ :

Déterminez si la taille de l’échantillon est soumise à des contraintes. En règle générale, les études entrent dans l’une des deux catégories suivantes :
- La taille de l’échantillon potentiel est pré-déterminée : l’équipe de recherche effectue des calculs de puissance pour estimer l’EMD que l’étude serait en mesure de détecter, puis décide si cet EMD est raisonnable,
- La taille de l’échantillon potentiel est flexible (soit parce qu’il est possible d’ajouter des unités à l’échantillon, soit parce qu’il est possible de réduire le nombre de bras d’intervention). Dans ce cas, l’équipe de recherche peut commencer par définir un EMD jugé raisonnable, puis faire des calculs de puissance pour estimer la taille d’échantillon nécessaire pour que l’étude bénéficie d’une puissance suffisante.
Méfiez-vous des estimations exagérées, aussi bien dans la littérature que dans les suggestions d’EMD avancées par vos partenaires. Lorsque vous discutez de l’EMD avec vos partenaires, il peut être bénéfique d’explorer les raisons pour lesquelles la perception qu’ils ont de l’impact du programme peut être différente de l’impact effectivement mesuré.
- Par exemple, dans le cas d’un programme de services, il est possible que le partenaire calcule l’impact de son programme en se basant sur les participants avec lesquels il a travaillé de manière intensive, à l’exclusion de ceux qui se sont inscrits au programme mais ne sont jamais revenus pour bénéficier des services. Or, dans le cadre d’une évaluation aléatoire, l’estimation de l’effet du traitement inclurait les résultats de ces deux groupes.
- Lorsque vous examinez les tailles d’effet figurant dans la littérature publiée, tenez compte de la robustesse de la stratégie d’identification et du biais de publication.

Définissez la notion de « taille d’échantillon » avec votre partenaire. Pour les chercheurs, la taille de l’échantillon correspond au nombre total d’unités du (ou des) groupe(s) de traitement et du groupe témoin. Cependant, les partenaires doivent comprendre que la taille d’échantillon retenue aura une incidence sur l’échelle de leurs activités, c’est-à-dire sur le nombre d’individus ou d’unités qu’ils devront recruter pour participer à l’étude, ou sur le nombre d’unités qu’ils devront traiter. Il est possible qu’ils interprètent le concept de « taille d’échantillon » comme désignant le nombre de personnes affectées au groupe de traitement, ou le nombre de personnes qui reçoivent effectivement le traitement après prise en compte du taux de participation. Lorsque vous évoquez les estimations de la taille potentielle de l’échantillon, du taux de recrutement ou du taux d’attrition, assurez-vous que vous et votre partenaire partagez bien la même vision des choses.

Points à aborder pour expliquer la puissance statistique à un public non-initié

Les premières discussions sur la notion de puissance entre les chercheurs et le partenaire peuvent contribuer à poser les bases d’un partenariat productif. En effet, si le partenaire comprend les raisons qui motivent les décisions liées à la conception de l’étude, cela peut renforcer son investissement dans la réussite du projet. De plus, s’il maîtrise bien le concept de puissance, il sera plus à même de signaler les menaces potentielles qui pèsent sur le protocole de recherche lors de la mise en œuvre de l’étude.

Qu’est-ce que la puissance statistique ?

La puissance d’une évaluation correspond à sa capacité à détecter toute évolution significative d’une variable d’intérêt provoquée par le programme. À titre d’exemple, la plupart des études ont pour objectif d’avoir une puissance statistique de 80 % ou plus. Une puissance de 80 % signifie qu’on y a 20 % de risques de conclure que l’intervention n’a pas d’impact (pour une taille d’effet donnée) alors qu’elle en a un. La taille d’échantillon requise pour bénéficier d’une puissance suffisante varie d’une étude à l’autre.

Puisque je vous fais confiance pour faire les calculs, pourquoi ai-je besoin de comprendre cette notion ?

Imaginons, par exemple, que nous étudions ensemble l’impact d’un programme de formation professionnelle sur le revenu des participants. Nous avons fixé l’EMD à 10 %, ce qui signifie que l’étude est en mesure de détecter toute hausse de 10 % (ou plus) du revenu des participants attribuable au programme. Or, imaginons que l’effet réel du programme soit inférieur à l’EMD choisi, avec par exemple une augmentation des revenus de l’ordre de 7 %. Une telle hausse, bien qu’inférieure à 10 %, pourrait tout de même améliorer considérablement la qualité de vie des participants, compenser largement le coût de la formation et susciter l’intérêt des décideurs politiques et des bailleurs de fonds. Mais comme notre EMD est fixé à 10 %, notre étude risque de ne pas pouvoir la distinguer de zéro (en d’autres termes, on risque de ne trouver aucun résultat statistiquement significatif). Nous risquons donc de conclure que le programme n’a eu aucun effet détectable.

Toutes choses égales par ailleurs, avec un échantillon plus grand, nous aurions plus de chances de détecter des effets réels de moindre ampleur. Nous devons donc convenir avec vous d’une taille d’effet acceptable et nous assurer que vous comprenez bien quels enseignements nous pouvons espérer tirer, ou non, des résultats.

Pourquoi est-il important d’avoir une puissance statistique suffisante ?

Si des contraintes budgétaires, programmatiques ou de calendrier peuvent pousser les parties prenantes à mettre en œuvre une évaluation « à faible puissance », il y a cependant des risques à le faire. Une évaluation dont la puissance est insuffisante risque de mobiliser beaucoup de temps et de ressources financières pour ne fournir que très peu d’informations utiles, voire pire, ternir la réputation d’un programme potentiellement efficace. Lorsqu’une étude qui manque de puissance ne trouve pas de résultat statistiquement significatif, on dit que l’on n’a trouvé aucune preuve de l’existence d’un effet, ce qui ne veut pas dire que l’on a démontré l’absence de tout effet. Cependant, les bailleurs de fonds, les médias et le grand public peuvent facilement confondre le fait de ne trouver « aucune preuve de l’existence d’un effet » avec l’« absence de tout effet ». Des résultats non concluants peuvent donc nuire à la réputation d’un organisme ou d’un programme presque autant que des résultats concluants démontrant l’absence de tout effet

Dernière modification : mars 2021.

Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l'ajout de nouveaux contenus, veuillez remplir ce formulaire.

Ce document a été traduit de l’anglais par Marion Beaujard.

Acknowledgments

Nous remercions Maya Duru, Amy Finkelstein, Noreen Giga, Kenya Heard, Rohit Naimpally et Anja Sautmann pour leurs précieuses contributions. Ce document a été relu et corrigé par Caroline Garau, et traduit de l’anglais par Marion Beaujard. Le présent travail a pu être réalisé grâce au soutien de la Fondation Alfred P. Sloan et d'Arnold Ventures.

Pour une illustration plus complète de l'impact de la première étape sur la puissance statistique, consultez PPower Calculations 101: Dealing with Incomplete Take-up (McKenzie, 2011).

Pour plus de détails sur les implications d'une évaluation sous-dimensionnée, consultez "W hat is the Risk of an Underpowered Evaluation?”.

Pour plus de discussions sur l'itération des détails de conception d'une étude, consultez « Design and iterate implementation strategy ».

Pour plus de détails sur l'établissement d'accords avec les partenaires de mise en œuvre, consultez « Formalize research partnerships ».

Cela renvoie à la description d'une évaluation des emplois d'été à Philadelphie, dans laquelle le prestataire de services a continué à attribuer la majorité des postes comme d'habitude, mais a accepté de répartir un sous-ensemble de postes par tirage au sort afin de faciliter une évaluation randomisée.

L'article de blog What is success, anyhow? discute plus en détail des considérations liées aux tailles d'effet pertinentes pour la prise de décision (Goldstein 2011).

L'article de blog ‘Did you do your power calculations in standard deviations? Do them again…’ fournit des informations supplémentaires sur la MDE (Minimal Detectable Effect) en termes d'écarts-types et en termes absolus (Ozler, 2016).

À partir de la page 22, cet article fournit des détails sur le calcul du ratio d'allocation optimal (McConnell et Vera-Hernandez, 2015).

L'article de blog Dealing with Incomplete Take-up fournit des détails supplémentaires sur la participation incomplète et la puissance statistique (McKenzie, 2011).

10.

Consultez la ressource de J-PAL North America sur la conception des procédures d'inscription et de consentement pour plus de détails sur les approches possibles en matière de conception d'inscription et de consentement.

Additional Resources

Learning more about power calculations

La conférence de Rachel Glennerster intitulée « Sampling and Sample Size » [captation vidéo] offre une bonne introduction au concept de puissance statistique.
L’ouvrage Running Randomized Evaluations: A Practical Guide (Glennerster et Takavarasha 2013) inclut un chapitre détaillé sur la puissance statistique et ses déterminants. Le site Internet associé, runningres.com, contient des données et des exemples d’exercices sur la puissance.
La publication « 10 things you need to know about statistical power » d’EGAP est un guide accessible qui fournit à la fois des informations sur ce que sont les calculs de puissance et en quoi ils sont importants, et des conseils pratiques pour les mettre en œuvre (Coppock 2013).
La section « Power calculations : how big a sample size do I need ? » dans l’e-book de la Banque Mondiale intitulé Impact Evaluation in Practice (Gertler, Martinez, Premand, Rawlings et Vermeersch 2010) présente le concept et donne des exemples de calculs de puissance pour différents modèles d’étude.
Le chapitre « Sample Size and Power Calculations » de l’ouvrage Data Analysis Using Regression and Multilevel/Hierarchical Models offre un panorama technique approfondi des considérations liées à la puissance (Geldman et Hill 2006).
L’article de blog « Did you do your power calculations in standard deviations? Do them again… » fournit des informations supplémentaires sur l’EMD exprimé en termes d’écarts-types et en termes absolus (Ozler 2016).
L’article de blog « What is success, anyhow? » aborde plus en détail la question des tailles d’effet qui sont pertinentes pour la prise de décision (Goldstein 2011).
L’article de blog « Power Calculations 101: Dealing with Incomplete Take-up » fournit des informations sur les situations de participation imparfaite et la puissance, ainsi qu’une description détaillée de l’effet de la première étape sur la puissance. (McKenzie 2011).
Le blog Stata contient un article utile qui explique comment faire des calculs de puissance à l’aide d’une simulation de Monte Carlo (Huber 2019).

Explaining statistical power to a non-technical audience

La publication de J-PAL intitulée « Six Rules of Thumb for Determining Sample Size and Statistical Power » est un outil destiné aux décideurs politiques et aux praticiens qui décrit certains des déterminants de la puissance statistique et la taille de l'échantillon.
La publication de J-PAL intitulée « The Danger of Underpowered Evaluations » met en lumière les raisons pour lesquelles une évaluation trop peu puissante risque de mobiliser beaucoup de temps et de ressources financières pour ne fournir que très peu d’informations utiles, voire pire, de ternir la réputation d’un programme (potentiellement efficace).

Performing power calculations

Le code de J-PAL pour les calculs de puissance sous Stata et sous R
Le guide en ligne de l’Institute for Fiscal Studies intitulé « Going beyond simple sample size calculations: a practitioner’s guide » (McConnell et Vera-Hernandez, 2015) est un guide technique consacré aux protocoles expérimentaux plus complexes, accompagné de feuilles de calcul pour effectuer les calculs.
La publication d’EGAP intitulée « 10 things you need to know about statistical power » donne un exemple de code pour effectuer des simulations de puissance sous R (Coppock 2013).
Le package Declare Design offre un guide détaillé des simulations sous R.
La publication du MDRC intitulée « Statistical power in evaluations that investigate effects on multiple outcomes: a guide for researchers » (Porter, 2016) donne des conseils pour intégrer des procédures de correction des tests multiples dans les calculs de puissance.

References

Glennerster, Rachel, and Kudzai Takavarasha. 2013. Running Randomized Evaluations: A Practical Guide. Princeton: Princeton University Press.

Goldstein, Markus. 2011. “What is success, anyhow?” Texte. Development Impact (blog). 19 avril 2011. http://blogs.worldbank.org/impactevaluations/what-is-sucess-anyhow

McConnell, Brendon, and Marcos Vera-Hernandez. 2015. “Going beyond Simple Sample Size Calculations: A Practitioner’s Guide.” Document de travail de l’IFS, septembre 2015. https://www.ifs.org.uk/publications/7844

McKenzie, David. 2011. “Power Calculations 101: Dealing with Incomplete Take-Up.” Texte. Development Impact (blog). 23 mai 2011. http://blogs.worldbank.org/impactevaluations/power-calculations-101-dealing-with-incomplete-take-up

Research Resources