Randomisation
Summary
La randomisation à des fins d’inférence causale a une longue et riche histoire. Les expérimentations contrôlées randomisées ont été inventées par Charles Sanders Peirce et Joseph Jastrow en 1884. En 1934, Jerzy Neyman a introduit l’échantillonnage stratifié. Ronald A. Fisher a ensuite développé et popularisé l’idée des expérimentations aléatoires et a introduit les tests d’hypothèses avec pour finalité l’inférence basée sur la randomisation en 1935. Le modèle à résultats potentiels qui a servi de base au modèle causal de Rubin trouve son origine dans le mémoire de maîtrise de Neyman datant de 1923.
Dans cette section, nous esquissons brièvement le fondement conceptuel du recours à la randomisation et à l’échantillonnage stratifié avant de présenter les différentes méthodes de randomisation. Nous fournissons ensuite des exemples de code et des commandes permettant d’exécuter des procédures de randomisation plus complexes, telles que la randomisation stratifiée avec plusieurs bras de traitement.
Assigner les unités d’un échantillon à des groupes de traitement
Commençons par aborder l’assignation aléatoire du traitement, en supposant pour l’instant que l’unité de randomisation est donnée (appelons-la i). Il peut s’agir d’individus ou de groupes d’individus, de ménages, de zones ; nous y reviendrons plus loin dans la section consacrée au choix de l’unité de randomisation. Supposons également que nous nous trouvons dans le cas le plus simple, à savoir un groupe de traitement unique, et que l’objectif est d’estimer l’effet moyen du traitement (Average Treatment Effect, ou ATE) sur une variable de résultat Y.
Formellement, on peut noter la variable de résultat de chaque unité du groupe de traitement ou du groupe témoin de la manière suivante (en utilisant la notation de Deaton & Cartwright 2018) :
où
- βi est l’effet du traitement (qui peut être spécifique à l’unité)
- Ti est une variable indicatrice de traitement
- xij sont j=1,...,J des facteurs observables et inobservables, propres à l’unité, qui sont susceptibles d’affecter la variable de résultat Y.
- γj indique l’effet de xj sur Y et peut être positif ou négatif.
Pour un échantillon expérimental donné de taille N et une répartition donnée des unités entre groupes de traitement et groupe témoin, on peut estimer l’ATE à partir de la moyenne du groupe de traitement (T=1) et du groupe témoin (T=0) (voir également la section sur l’analyse des données).
𝛽1 is the average treatment effect; the subscript indicates that this estimate calculates the average of the treatment effects in the treatment group. The second term is the “error term” of the ATE estimate: the average difference between treatment and control group that is unrelated to treatment (from observable and unobservable differences).
Randomization: Randomized assignment of treatment and control ensures that the xj are uncorrelated with the treatment assignment, and so the ATE estimate is ex ante unbiased: the error term is zero and 𝛽1 is equal to the true ATE in expectation. If we were to repeat the experiment with many N-sized samples, the average error term would be zero and the average of 𝛽1 would be equal to the ATE.
Assignment shares: In any given sample, the error term will likely not be zero and 𝛽1 will not be equal to the ATE. However, as the sample size N grows, the variance of both around their true means decreases. As a result, a larger sample size increases the statistical power for tests about the ATE.
- Dans le cadre de l’approche la plus simple, on suppose que les effets du traitement sont homogènes, de sorte que 𝛽i=𝛽. On peut alors tester l’hypothèse nulle selon laquelle 𝛽=0, en supposant que l’effet moyen du traitement sur l’échantillon aura une distribution approximativement normale dans les échantillons de grande taille. Les formules classiques de calcul de la puissance s’appliquent.1
- En utilisant la méthode d’inférence basée sur la randomisation (randomization inference), on peut tester directement l’hypothèse nulle correcte selon laquelle 𝛽i=0 pour tous les i. Pour ce faire, on construit la distribution de l’ATE en énumérant toutes les assignations de traitement possibles au sein de l’échantillon et en calculant l’ATE théorique pour chaque configuration possible d’assignations du traitement en utilisant les variables de résultat observées avec le tirage réalisé. La valeur-p exacte est alors la probabilité d’observer au moins l’ATE du tirage effectué, c'est-à-dire la fraction des ATE théoriques qui sont au moins aussi importants que l’ATE du tirage effectué.
Dans les deux cas, c’est lorsque l’échantillon est affecté en proportions égales au groupe de traitement et au groupe témoin que l’on obtient la puissance statistique la plus élevée pour rejeter l’hypothèse nulle. De manière générale, un protocole de randomisation est typiquement optimal lorsque la part de l’échantillon assignée à chaque groupe est similaire et fixe (voir la ressource sur les calculs de puissance et la section 4.1 de Duflo et al. (2007) pour les calculs de puissance avec prise en compte des coûts).
Amélioration de l’équilibre entre les groupes : Toute modification du protocole de randomisation susceptible de réduire la variance du terme d’erreur,
améliore la précision et la puissance statistique. Si toutes les tailles d’effet 𝛾j étaient connues et toutes les variables xj observées, le chercheur pourrait affecter des unités au groupe de traitement et au groupe témoin de manière à ce que le terme d’erreur total soit aussi proche que possible de zéro (voir Kasy 2016). Notons que, concrètement, cela signifie qu’il n’y aurait pas de randomisation. Cependant, dans la plupart des cas, les éléments du terme d’erreur ne sont pas connus ou pas complètement observés. Le chercheur peut toutefois s’assurer que les unités du groupe de traitement et du groupe témoin sont équilibrées en ce qui concerne les covariables observables qui sont susceptibles d’être corrélées avec Y. La notion d’équilibre signifie que la distribution de ces variables xij dans le groupe de traitement est identique ou similaire à celle du groupe témoin. Les principales méthodes utilisées à cette fin sont la stratification, également appelée méthode des blocs, et la re-randomisation. Ces deux méthodes sont décrites plus bas.
Méthodes de randomisation
Sur le plan théorique, la randomisation signifie tout simplement que toutes les unités expérimentales ont la même probabilité d’être assignées à un groupe donné (en supposant une répartition des assignations à parts égales).
Randomisation simple / tirage au sort de base : La randomisation simple peut littéralement être mise en œuvre au moyen d’un tirage au sort. On pourrait par exemple utiliser une urne contenant autant de boules noires que de boules rouges, les rouges représentant le traitement, puis tirer au hasard une boule de l’urne pour déterminer l’assignation de chaque unité. Toutefois, avec cette méthode, la présence de fluctuations aléatoires signifie que, pour tout échantillon fini de taille N, la proportion d’unités affectées au groupe de traitement ne sera peut-être pas exactement de 50 %. Si la randomisation simple est parfois nécessaire pour sélectionner un échantillon (voir ci-dessous l’assignation « à l’arrivée »), ou souhaitable pour rendre le processus d’assignation plus transparent, on utilise le plus souvent une autre méthode, la randomisation à proportion fixée1.
Randomisation à proportion fixée : Si la taille N de l’échantillon cible est connue, il est possible d’améliorer la méthode de randomisation simple en assignant exactement la moitié des unités expérimentales à chaque groupe (en supposant que N soit pair ; voir la discussion ci-dessous sur les déséquilibres). Pour ce faire, on peut utiliser une urne contenant N boules, comme ci-dessus, à la différence que pour chaque unité, la boule rouge ou noire sera tirée « sans remise », c’est-à-dire qu’elle ne sera pas replacée dans l’urne (tandis que dans le cas d’une randomisation simple, la boule est tirée « avec remise », c’est-à-dire qu’elle est ensuite remise dans l’urne). On parle alors de randomisation à proportion fixée, ou randomisation par permutation, car toute assignation aléatoire n’est qu’une permutation de l’assignation des boules (c’est-à-dire du statut de traitement) aux unités expérimentales.
Randomisation stratifiée : Supposons que l’on observe une covariable xj, et que l’on sache (ou que l’on soupçonne) que la variable de résultat varie en fonction de xj, c’est-à-dire que 𝛾j ≠ 0. Dans ce cas, toute différence observée entre les groupes au niveau de cette covariable entraînera une différence au niveau du résultat moyen, sans lien avec l’effet réel du traitement (le terme d’erreur ci-dessus). Par exemple, si x désigne le sexe et Y le revenu, et que les hommes ont en moyenne des revenus plus élevés que les femmes (ce qui est malheureusement encore vrai dans de nombreux contextes), alors un groupe de traitement comprenant une plus grande proportion d’hommes que le groupe témoin présentera en moyenne des revenus plus élevés, et ce même si le traitement n’a eu aucun effet sur le revenu.
Avant l’intervention, on peut éviter ce problème en équilibrant les groupes sur ces covariables. Cette approche, appelée randomisation par blocs ou randomisation stratifiée, consiste tout simplement à diviser l’échantillon en sous-groupes (appelés strates ou blocs) correspondant à différentes valeurs de xj, puis à effectuer une randomisation à proportion fixée à l’intérieur de chaque strate. Dans l’exemple sur le sexe et le revenu ci-dessus, cela consisterait à effectuer la randomisation séparément au sein de l’échantillon d’hommes et de l’échantillon de femmes. S’il n’y avait qu’un seul groupe de traitement, on assignerait donc exactement la moitié des hommes et la moitié des femmes au groupe de traitement, de manière à ce que le groupe de traitement et le groupe témoin soient comparables en ce qui concerne la covariable, à savoir le sexe (par souci de simplicité, nous supposons ici que chaque bloc contient un nombre d’unités pair; nous y reviendrons plus loin dans la discussion sur les déséquilibres).
La variable de résultat Y peut également être affectée par des facteurs non observés. Dans ce cas, il est impossible de former des blocs sur la base de ces facteurs. Toutefois, si l’on dispose d’observations de la variable de résultat antérieures à l’essai et que la variable de résultat est raisonnablement stable, le protocole de recherche peut tout simplement être stratifié en fonction du niveau de la variable de résultat enregistré avant l’essai.
La stratification augmente généralement la précision de l’estimation de l’ATE, et donc la puissance, et c’est également le cas lorsqu’on stratifie en fonction du niveau des variables de résultat avant l’intervention. Notons toutefois que la stabilité du revenu dans l’exemple ci-dessus est importante ici : dans le cas extrême où le revenu serait au contraire indépendant et identiquement distribué (iid) et fluctuerait d’une période à l’autre, le fait de répartir les individus en fonction des revenus d’une période antérieure créerait des strates dont les niveaux de revenu seraient d’espérance identique. Étant donné que la stratification réduit la marge de liberté (dans l’analyse des données, on utilise généralement des effets fixes de strate), effectuer une stratification lorsque la valeur des variables de résultat varie peu entre les groupes peut même réduire la puissance statistique.
Assigner des unités d’une population à l’échantillon
La randomisation permet d’obtenir une estimation non biaisée de l’ATE au sein de l’échantillon et renforce ainsi la validité interne. En d’autres termes, l’effet estimé correspond à la relation causale entre le traitement et la variable de résultat. La validité externe indique dans quelle mesure l’effet estimé est généralisable, c’est-à-dire dans quelle mesure il reflète une relation causale plus générale « en dehors de l’échantillon ». Jusqu’à présent, nous avons considéré l’échantillon comme donné. Cependant, une évaluation aléatoire nécessite également de sélectionner un échantillon à partir de la population de référence. La validité externe varie selon que l’échantillon est plus ou moins représentatif de cette population de référence, et dépend donc en partie de la manière dont l’échantillon de l’étude a été sélectionné.
Il arrive parfois que l’on n’ait pas besoin de sélectionner un échantillon, car l’échantillon étudié correspond à l’ensemble de la population actuelle (par exemple, tous les ménages éligibles à un programme social particulier à un moment donné). Lorsque ce n’est pas le cas, le chercheur doit, dans la mesure du possible, s’efforcer de définir la population cible, puis sélectionner aléatoirement l’échantillon au sein de cette population de référence (vous trouverez plus bas quelques méthodes permettant de déterminer la base d’échantillonnage, c’est-à-dire la liste des unités éligibles à partir de laquelle l’échantillon est constitué). Abstraction faite de l’erreur aléatoire, l’échantillon ainsi obtenu est représentatif de la population de référence et l’estimation de l’ATE pour cette population n’est pas biaisée par des effets de sélection systématiques.
Une fois la base d’échantillonnage définie, d’un point de vue théorique, l’assignation des unités de cette base à l’échantillon de l’essai contrôlé randomisé fonctionne exactement de la même manière que l’assignation des unités au groupe de traitement ou au groupe témoin. S’il est possible de procéder à une randomisation simple, on a le plus souvent recours à un échantillonnage à taille fixée, c’est-à-dire qu’un échantillon de taille fixe (ou une part donnée de la base d’échantillonnage) est sélectionné de manière aléatoire.
Dans d’autres cas, il n’est pas pratique, voire impossible, de procéder à un échantillonnage aléatoire de la population étudiée. On choisit parfois de sélectionner un échantillon dit « de commodité », non pas parce qu’il est représentatif de la population de référence, mais pour des raisons logistiques, financières, ou pour d’autres raisons externes. Il peut s’agir, par exemple, de tous les ménages d’une ville ou d’une région donnée, de toutes les personnes qui se sont inscrites à l’expérimentation sur MTurk, ou d’un ensemble d’écoles déjà retenues pour la prochaine vague de déploiement d’un programme.
Il convient de noter que les échantillons « de commodité » sont de loin les plus courants en sciences sociales. Par exemple, la plupart des expériences d’économie menées en laboratoire, si ce n’est toutes, sont effectuées avec des échantillons de commodité (souvent des étudiants de l’université). Toutefois, le terme de « commodité » est parfois impropre, car ces modèles ne sont pas toujours choisis uniquement pour des raisons de commodité ou pour réduire les coûts. Si le chercheur ou l’organisme partenaire sont parfois confrontés à des contraintes importantes en matière de coûts et d’informations, dans le cas des expérimentations sur le terrain, ce sont aussi souvent d’importantes considérations éthiques ou juridiques qui conditionnent le choix de l’échantillon ou, du moins, qui restreignent la population au sein de laquelle l’échantillon peut être sélectionné.
Il peut par exemple y avoir des raisons éthiques de ne pas priver de traitement un groupe témoin qui devrait normalement y avoir accès (comme dans le cas des écoles déjà sélectionnées pour la prochaine vague de déploiement d’un programme dans l’exemple ci-dessus). Dans ce type de cas, on peut opter pour d’autres méthodes de randomisation. En effet, certains protocoles de recherche tiennent compte de ces contraintes en modifiant la base d’échantillonnage de manière à ce que l’échantillon soit constitué d’une population qui n’est pas (encore) éligible au traitement. On peut notamment citer les protocoles de « randomisation dans la bulle » ou de mise en place progressive. L’utilisation de l’un de ces protocoles est parfois la seule option pour pouvoir mener une expérimentation randomisée, et peut s’avérer utile pour connaître l’effet du traitement. Cependant, les chercheurs qui utilisent ce type d’échantillons doivent se montrer plus prudents avant de tirer des conclusions applicables à l’ensemble de la population de référence. Le même raisonnement s’applique lorsque des contraintes politiques ou les priorités de l’organisme de mise en œuvre (une orientation régionale, par exemple) restreignent la population à partir de laquelle l’échantillon peut être constitué. Vous trouverez ci-dessous quelques moyens d’améliorer la validité externe des études qui utilisent un échantillon de commodité. Voir également la présentation How to Randomize et les discussions à ce sujet dans Glennerster & Takavarasha (2013), Duflo et al. (2007) et Heard et al. (2017).
Hétérogénéité des effets du traitement et échantillonnage stratifié
La raison principale qui justifie de prélever un échantillon aléatoire d’unités dans l’ensemble de la population de référence tient au fait que l’effet du traitement peut être spécifique à chaque unité (hétérogénéité des effets du traitement) et varier d’un groupe à l’autre. Rappelons que, comme nous l’avons vu plus haut, l’estimation de l’ATE n’est que la moyenne des effets du traitement au sein du groupe de traitement. Par conséquent, on ne peut obtenir une estimation non biaisée de l’ATE pour la population de référence que si le groupe de traitement est sélectionné de manière aléatoire au sein de cette population. Pour améliorer le degré de précision de cette estimation, on peut prendre un certain nombre de mesures visant à réduire la variation d’échantillonnage. Par exemple, l’échantillonnage stratifié proportionnel consiste à sélectionner une part fixe de chaque strate de la population de référence pour l’inclure à l’échantillon de l’étude, la taille du sous-échantillon tiré de chaque strate étant proportionnelle à la taille de la strate par rapport à la population totale. Procéder à ce type d’échantillonnage en stratifiant en fonction des covariables observées qui sont soupçonnées d’avoir une incidence sur l’effet du traitement permet de réduire la variance de l’échantillon par rapport à la population de référence. Fondamentalement, la stratification, qu’elle soit effectuée au stade de l’échantillonnage ou à celui de l’assignation des unités aux groupes expérimentaux, permet de créer un groupe de traitement et un groupe témoin qui sont en moyenne plus semblables à la population de référence (si l’échantillonnage stratifié est proportionnel) et plus comparables l’un à l’autre.
En présence d’effets hétérogènes, l’échantillonnage stratifié présente un second intérêt, dans la mesure où il permet de détecter les différences d’effet du traitement entre les groupes. Comme nous l’avons expliqué plus haut, dans le cadre d’une randomisation stratifiée, on estime généralement l’effet du traitement à l’intérieur des strates. Cependant, il peut également être intéressant de comparer l’ATE dans différentes strates. Pour ce faire, il faut que chaque strate dispose d’un échantillon de taille suffisante. L’échantillonnage stratifié proportionnel permet de garantir qu’aucun individu ou groupe n’est involontairement sous-représenté dans l’échantillon du fait de l’échantillonnage aléatoire. Cependant, si la taille de la strate est trop petite, ce n’est pas forcément suffisant (voir également la ressource sur les calculs de puissance).
Si la taille totale de l’échantillon est soumise à des contraintes, ou si les individus/groupes qui présentent les caractéristiques ciblées sont relativement peu nombreux au sein de la population de référence, le chercheur peut décider d’avoir recours à un échantillonnage stratifié disproportionné (dans lequel, par construction, la fréquence à laquelle les caractéristiques ciblées apparaissent dans l’échantillon n’est pas proportionnelle à leur présence dans la population de référence), en se concentrant sur la puissance statistique nécessaire pour estimer les effets du traitement spécifiques à chaque strate. La puissance statistique permettant de distinguer deux effets du traitement différents est généralement maximisée lorsque toutes les strates comptent le même nombre d’unités.
Améliorer la validité externe des études basées sur un échantillon de commodité
Lorsqu’il n’est pas possible de procéder à un échantillonnage (complètement) aléatoire, le chercheur peut prendre un certain nombre de mesures pour remédier aux problèmes qui se posent, notamment au niveau de la validité externe de l’étude :
- Documenter autant que possible les critères utilisés pour sélectionner la population. Par exemple, si des contraintes financières obligent les enquêteurs à n’effectuer des visites que dans trois villages situés à une journée de route de la capitale, décrivez comment ces villages ont été choisis.
- Mesurer les principales caractéristiques de la population de l’échantillon, comme les niveaux de richesse et de revenu, les caractéristiques démographiques et toute autre covariable xj susceptible d’influencer le niveau des variables de résultat (voir ci-dessus).
- Au sein de la population d’échantillonnage restreinte, procéder à un échantillonnage aléatoire pour sélectionner les unités expérimentales. Par exemple, s’il est prévu d’interroger jusqu’à 600 mères dans les trois villages mentionnés ci-dessus, ces 600 mères doivent être sélectionnées aléatoirement parmi l’ensemble des mères résidant dans ces trois villages.
La combinaison de ces trois mesures est susceptible de favoriser la généralisabilité future des résultats, en permettant par exemple de combiner plus facilement des échantillons de commodité provenant de différentes études dans le cadre d’une méta-analyse pour construire des estimations de l’ATE à l’échelle de la population.
Randomisation en grappes et effets de diffusion
Jusqu’à présent, nous avons considéré l’unité de randomisation i comme donnée. L’unité de randomisation est souvent la même que l’unité d’observation. Il peut s’agir d’un individu, d’un ménage ou même d’un hôpital ou d’une école, à condition que des données soient collectées au niveau du ménage ou de l’hôpital/école. Il arrive cependant que l’unité de randomisation contienne plusieurs unités d’observation. C'est ce qu’on appelle la randomisation en grappes. Dans ce cas, les unités d’observation sont réparties dans des groupes (les grappes, ou clusters) et la randomisation s’effectue non pas au niveau de l’unité mais au niveau de ces grappes.
Le choix d’une unité de randomisation différente de l’unité d’observation peut être motivé par un certain nombre de considérations liées à la validité de l’expérimentation (voir la section « mise en œuvre » ci-dessous). Sur le plan théorique, la principale motivation du recours à la randomisation en grappes est le risque d’effets de diffusion. On parle d’effet de diffusion lorsque des unités non traitées sont indirectement affectées par le traitement administré à d’autres unités. Si ces effets sont souvent positifs, ils peuvent aussi être négatifs, par exemple si les bénéficiaires d’un programme d’aide à la recherche d’emploi occupent tous les postes disponibles, désavantageant ainsi les demandeurs d’emploi qui n’ont pas bénéficié du traitement.
Sur le plan formel, les effets de diffusion violent l’hypothèse SUTVA (stable unit treatment value assumption). Cette hypothèse suppose que le statut de traitement d’une unité donnée n’a aucune incidence sur les variables de résultat des autres unités. Un protocole de recherche qui ne prend pas correctement en compte les effets de diffusion risque d’invalider les estimations de l’ATE. Prenons l’exemple d’un programme d’allocations en espèces ayant eu des effets de diffusion positifs sur la consommation alimentaire parce que les unités traitées utilisaient une partie de l’argent qu’elles recevaient pour améliorer la consommation alimentaire d’autres personnes (par exemple, en les invitant à manger ou en leur offrant des cadeaux). Les effets de diffusion peuvent affecter les estimations de l’ATE de plusieurs manières :
- Des effets de diffusion involontaires sur le groupe témoin non traité : Si les individus du groupe témoin sont affectés par la présence du programme, ils cessent de constituer un bon point de comparaison. Par exemple, si une partie de l’argent distribué aux ménages traités augmente la consommation alimentaire au sein du groupe témoin, l’effet de l’allocation en espèces sera sous-estimé.
- Des effets de diffusion sur les unités traitées qui passent inaperçus : Supposons que l’expérimentation ait pour objectif d’estimer l’effet d’un programme dans le cadre duquel toutes les unités sont normalement traitées. Cela signifie que lorsque le programme complet est opérationnel et fonctionne normalement, chaque ménage reçoit normalement sa propre allocation en espèces (et la partage en partie avec d’autres), mais reçoit également des cadeaux de la part d’autres ménages. Dans le cadre d’une expérimentation, on risque de passer à côté de cet effet si les ménages qui seraient susceptibles de faire des cadeaux aux membres du groupe de traitement s’ils recevaient une allocation en espèces ne sont pas eux-mêmes traités.
S’il y a de fortes chances pour qu’il y ait des effets de diffusion au niveau d’une unité de randomisation donnée, la meilleure solution consiste souvent à randomiser l’assignation du traitement à un niveau plus élevé (en d’autres termes, à mettre en place une randomisation en grappes). Par exemple, il est possible que des effets de diffusion se produisent à l’intérieur d’une même ville, mais pas d’une ville à l’autre : le traitement peut alors être randomisé au niveau de la ville. Dans l’exemple des allocations en espèces, on pourrait envisager cette possibilité à condition que le réseau social de la plupart des ménages réside dans la même zone géographique qu’eux. Cependant, toutes choses égales par ailleurs, les modèles de randomisation en grappes nécessitent une taille d’échantillon plus importante pour atteindre un même niveau de puissance statistique (voir la ressource relative aux calculs de puissance).
Méthodes de randomisation en grappes
Toutes les méthodes utilisées pour la randomisation individuelle s’appliquent également à la randomisation en grappes : la randomisation à proportion fixée permet d’équilibrer le nombre de grappes dans chaque bras expérimental, tandis que la stratification peut permettre d'équilibrer d’autres caractéristiques au niveau des grappes. Notons que dans le cas où les grappes sont de tailles différentes, il peut être utile de stratifier également en fonction de la taille des grappes afin d’obtenir des groupes expérimentaux de taille similaire. Si la randomisation en grappes nécessite quelques ajustements lors de la phase d’analyse (à savoir le regroupement, ou clusterisation, des erreurs-types pour tenir compte de la corrélation intra-grappe), du point de vue de la randomisation, elle n’est pas plus compliquée que la randomisation individuelle.
Protocoles de randomisation permettant d’estimer les effets de diffusion
Sous certaines hypothèses, le protocole de randomisation peut également permettre de mesurer les effets de diffusion. Pour ce faire, on procède à une randomisation au niveau de la grappe en faisant varier l’« intensité » du traitement dans la grappe, c’est-à-dire la part des unités d’observation de la grappe qui reçoivent le traitement, puis on mesure les effets du traitement sur les unités traitées et non traitées au sein de la grappe. Pour plus d’informations, voir Baird et al. (2014) ou la discussion à ce sujet dans les sections 5.1 et 6.3 de Duflo et al. (2007).
Stratified randomization
Dans cette section, nous allons revenir sur toutes les questions évoquées ci-dessus dans le sens inverse : (1) le choix de l’unité de randomisation, (2) le choix de la base d’échantillonnage/la sélection de l’échantillon, et (3) la mise en œuvre de l’assignation aléatoire des unités au groupe de traitement et au groupe témoin dans la pratique, tout en gérant les problèmes de « déséquilibres » (misfits).
Le choix de l’unité de randomisation
Normalement, le choix le plus naturel d’unité de randomisation est l’unité d’observation, qui n’est pas toujours l’individu. Par exemple, il est possible qu’on ne puisse pas mesurer la consommation individuelle, mais seulement la consommation des ménages, ou encore qu’on ne dispose de données sur les complications post-opératoires qu’au niveau des hôpitaux, mais pas au niveau des patients, et ainsi de suite.
D’un point de vue théorique, les effets de diffusion sont l’exception à cette règle (voir ci-dessus). En présence de ce type d’effets, l’unité de randomisation doit être une grappe suffisamment grande pour contenir l’ensemble des effets de diffusion. Toutes les unités de la grappe doivent être traitées pour estimer correctement l’effet total du traitement (même si, par exemple, toutes les unités de la grappe ne sont pas soumises à un entretien).
D’autres raisons que les effets de diffusion peuvent également motiver le choix d’une unité de randomisation distincte de l’unité d'observation.
L’unité au niveau de laquelle le traitement va être administré : Il n'est pas toujours possible d'attribuer le traitement au niveau de l'unité d'observation. Par exemple, l'évaluation d'un nouveau programme d'études peut n'être possible qu'au niveau de la classe plutôt qu'au niveau individuel, ce qui nécessite une randomisation par grappes au niveau de la classe, même si l'unité d'observation est l'élève individuel.
Effets d’observation et effets expérimentateur : Le terme d’effet expérimentateur est utilisé pour décrire des « effets de diffusion de l’expérimentation » qui se produisent entre les unités participant à cette dernière. Par exemple, on parle d’effet John Henry lorsque les individus du groupe témoin réagissent d’une manière ou d’une autre au fait de participer à l’expérimentation, notamment en imitant le groupe de traitement. Cet effet se distingue des effets de diffusion classiques dans la mesure où il n’est pas propre au traitement lui-même, mais est dû au fait que les individus participent à l’expérimentation.
L’unité de randomisation choisie a une incidence sur la taille d’échantillon nécessaire pour détecter un effet donné. En général, plus le niveau de randomisation est élevé, plus la taille effective de l’échantillon d’étude diminue : il faut donc un plus grand nombre d’unités d’observation pour atteindre un niveau de puissance donné. Pour plus d’informations, voir la ressource sur les calculs de puissance et la présentation Choosing the Right Sample Size.
La base d’échantillonnage
Pour pouvoir créer un échantillon aléatoire, il faut disposer d’une liste d’unités éligibles à partir desquelles l’échantillon sera sélectionné au hasard : c’est ce que l’on appelle la « base d’échantillonnage ».
Listes préexistantes
Dans le scénario idéal, la base d’échantillonnage est constituée à partir d’une liste préexistante, provenant par exemple du gouvernement ou d’une ONG. Si c’est votre cas, pensez à vérifier comment la liste a été créée (pour vous assurer qu’elle est bien représentative de l’ensemble de la population cible) et à quelle date elle a été mise à jour pour la dernière fois. Gardez à l’esprit que la définition de l’unité d’observation ou de randomisation n’est pas forcément dépourvue d’ambiguïté, par exemple avec des termes comme « une entreprise » ou « un ménage ». Il est donc important de définir clairement le terme en question, puis de faire un test auprès de quelques ménages (ou entreprises, etc.) pour vérifier la fiabilité de la méthode.
Parmi les sources de listes préexistantes, on peut notamment citer :
- Les listes de répondants déjà créées par l’organisme partenaire
- Les données administratives (par exemple la liste des patients d’un hôpital, des élèves scolarisés dans les écoles de la région, etc.)
- Les autorités locales comme le bureau d’enregistrement des titres de propriété, les organes nationaux comme les ministères, les organisations professionnelles, ou encore les organismes et établissements tels que les hôpitaux
Créer une base d’échantillonnage
Il arrive qu’aucune liste ne soit disponible. Cela peut notamment être le cas pour des populations comme les immigrés en situation irrégulière ou les travailleurs migrants, mais aussi pour les entreprises du secteur informel, les clients d’une entreprise ou les utilisateurs d’un service spécifique. Pour créer une base d’échantillonnage en l’absence de liste préexistante, on peut avoir recours aux options suivantes :
- Suivre une procédure standardisée : on peut par exemple constituer une base d’échantillonnage à partir de tous les patients s’étant rendus aux urgences pendant une période donnée, par génération aléatoire de numéros ou en effectuant l’échantillonnage sur le terrain (shoe leather sampling) depuis des points choisis de manière aléatoire et en parcourant une distance elle aussi aléatoire.
- Organiser une réunion communautaire pour recenser tous les ménages ou entreprises de la région, par exemple. Notons toutefois qu’avec cette méthode, certaines unités risquent d’être omises. Elle n’est donc pas forcément adaptée à toutes les zones, et notamment aux grandes villes ou aux contextes où les populations sont mobiles.
- Procéder à un recensement porte-à-porte : Ce type de recensement est souvent coûteux et très chronophage, mais peut constituer la seule option possible. Le temps nécessaire à cette opération dépend de la dispersion des unités au sein du secteur de recensement, de la quantité d’informations à collecter sur chaque unité et de l’existence ou non de contraintes administratives, comme la nécessité d’obtenir l’autorisation des autorités locales pour travailler dans le secteur. Si vous effectuez un recensement porte-à-porte, gardez à l’esprit les points suivants :
- Utiliser la même équipe d’enquêteurs pour le recensement et la collecte de données proprement dite peut permettre à ces derniers de retrouver plus facilement les ménages par la suite. Veillez toutefois à budgétiser suffisamment de temps pour mener à bien la procédure de recensement afin de ne pas retarder le début de l’enquête.
- Recueillez toutes les coordonnées nécessaires pour pouvoir retrouver les répondants par la suite. Cela inclut notamment des numéros de téléphone fiables (l’équipe chargée du recensement pourra appeler le répondant sur place pour confirmer le numéro), du nom et éventuellement du surnom du chef de ménage et de son ou sa conjoint(e), etc.
- Collectez toutes les informations nécessaires pour vérifier que les répondants appartiennent bien à la population cible (par exemple, leur éligibilité au programme testé), ainsi que toutes les variables nécessaires à la stratification. Par exemple, une étude ciblant les femmes adultes devra collecter des informations sur le sexe et l’âge de tous les membres du ménage, et éventuellement des informations sur les revenus du ménage si l’on souhaite effectuer une stratification sur cette variable.
- Il peut être utile de dresser une carte de la région en incluant quelques points de repère géographiques, et de la diviser en plusieurs zones. Cette carte pourra aussi faciliter la répartition des ménages entre les enquêteurs au moment de la réalisation de l’enquête.
- Effectuer des relevés GPS lors du recensement des ménages peut aider les enquêteurs à retrouver les répondants par la suite. Cependant, cela peut également générer une charge de travail inutile si l’on effectue des relevés pour des ménages qui ne seront pas inclus dans l’échantillon final.
Échantillonnage à bases multiples
Il arrive que l’équipe de recherche ait accès à plusieurs sources de répondants éligibles (des listes de clients de différentes sociétés de téléphonie mobile, par exemple). Si aucune de ces listes n’est de taille suffisante à elle seule, une solution possible consiste à les regrouper pour former une seule base d’échantillonnage. Cette approche présente deux avantages majeurs : 1) elle permet d’augmenter la taille de l’échantillon (en particulier pour les groupes ciblés) et 2) elle réduit le coût de l’échantillonnage dans les cas où l’accès à certaines bases est trop coûteux (et peuvent être remplacées par des bases d’échantillonnage dont l’accès est moins cher) (Lohr & Rao, 2006).
Si l’on décide de regrouper plusieurs bases d’échantillonnage, il est important de vérifier au préalable si certains répondants apparaissent sur plusieurs listes. Pour ce faire, on intègre souvent à l’enquête des questions permettant d’identifier toutes les bases d’échantillonnage auxquelles le répondant est susceptible d’appartenir. Pour plus d’informations, voir les recommandations de la Banque mondiale dans la section « Guidelines on Sampling Design ». En outre, lorsqu’on combine plusieurs bases, le calcul des poids d’échantillonnage pour l’estimation et l’analyse peut s’avérer complexe et doit donc être effectué avec prudence (Wu, 2008). Pour une explication de la méthode de calcul des poids dans un modèle à bases multiples, voir Lohr & Rao (2006).
Mise en œuvre de l’assignation aléatoire du traitement
Il est plus facile de procéder à l’assignation aléatoire du traitement lorsque l’échantillon est connu, c’est-à-dire lorsqu’on dispose d’une liste préexistante d’unités expérimentales. Dans ce cas, les chercheurs effectuent généralement une randomisation (stratifiée) à proportion fixée sur la base de cette liste, en utilisant un logiciel comme Stata et un fichier de données contenant l’identifiant de l’unité, l’identifiant de la grappe et, le cas échéant, les variables de stratification. Cette approche présente l’avantage considérable d’être vérifiable et reproductible, à condition de prendre certaines mesures (décrites ci-dessous). Une autre option consiste à organiser un tirage au sort en public en utilisant une urne ou en tirant à pile ou face. Notons que la randomisation stratifiée reste possible dans ce cas : il suffit alors d’utiliser l’urne ou la pièce de monnaie pour procéder à l’assignation du traitement au sein de chaque strate. Ce procédé a l’avantage d’être extrêmement transparent ; on pourra donc le privilégier dans les cas où il est souhaitable ou nécessaire de montrer aux participants que leur traitement est véritablement attribué de manière aléatoire. Toutefois, son principal inconvénient est de ne pas être reproductible.
Il arrive que l’échantillon ne soit pas connu au moment de l’assignation aléatoire, auquel cas la seule option possible pour assigner le traitement consiste à recourir à un tirage au sort de base. Les unités peuvent notamment être assignées “à l’arrivée”, par exemple lorsque les enfants s’inscrivent à l’école ou que les patients arrivent à la clinique, et il arrive donc que l’on ignore le nombre précis d’unités qu’il va falloir inscrire au moment de l’assignation aléatoire. On peut également citer l’exemple de la génération aléatoire de numéros pour les expérimentations par téléphone, pour lesquelles on ignore initialement combien de numéros seront en service parmi ceux qui auront été composés. La randomisation peut être intégrée à la procédure de prise de contact, de recueil du consentement et de recensement à l’arrivée des participants, par exemple en procédant à un tirage au sort à l’aide d’une pièce de monnaie ou d’une urne, ou en utilisant le moteur de randomisation intégré à SurveyCTO. Notons que, dans les deux cas, il est difficile de procéder à une randomisation stratifiée, car le nombre final d’unités par strate n’est pas connu au moment de l’assignation aléatoire.
Procédure de base pour programmer la randomisation
Quelle que soit la méthode adoptée, la procédure de randomisation doit être vérifiable, reproductible et stable, et le résultat de la randomisation doit être sauvegardé dans un fichier ou un dossier sécurisé, séparément des autres fichiers du projet.
La procédure de base est toujours la même :
- Créer un fichier ne contenant qu’une seule entrée par unité de randomisation (par exemple, une ligne par ménage, une ligne par grappe, etc.). Cela nécessitera potentiellement de créer un nouveau fichier dans lequel toutes les unités d’observation seront temporairement supprimées à l’exception d’une unité par grappe.
- Trier ce fichier de façon stable et reproductible. (Sous Stata, utiliser le tri stable, c’est-à-dire la fonction sort varlist, stable)
- Définir la graine, ou valeur initiale, du générateur de nombres aléatoires (sous Stata, commande set seed). S’assurer que cette graine est bien :
- Préservée : Certaines opérations (telles que preserve/restore sous Stata) effacent la graine, de sorte que toute séquence de nombres aléatoires qui suit n’est plus déterminée par la graine et n’est donc pas reproductible.
- Utilisée une seule fois dans toutes les opérations menées en parallèle : À chaque fois que l’on définit la même valeur initiale, c’est exactement la même séquence de nombres aléatoires qui est générée ensuite. Si, par exemple, vous assignez chaque jour des lots d’unités de taille N aux bras expérimentaux et que vous utilisez la même graine pour chaque lot, ces unités seront assignées de la même manière chaque jour. Cette situation risque de créer des tendances et des déséquilibres non désirés.
- Assigner aléatoirement un groupe expérimental à chaque unité de randomisation, puis fusionner les assignations aléatoires avec le fichier d’origine afin d’obtenir une liste de toutes les unités d’observation avec leur assignation de traitement.
- Sauvegarder la liste des unités d’observation avec leur assignation de traitement dans un emplacement sécurisé et programmer vos opérations de routine de manière à ce que cette liste ne puisse pas être écrasée automatiquement.
- Pour toute procédure de randomisation ne serait-ce que légèrement plus complexe, tester l’équilibre entre les groupes de manière approfondie :
- L’équilibre en termes de taille d’échantillon entre les groupes expérimentaux, à l’intérieur de chaque strate et entre les strates3, afin de vérifier la bonne gestion des déséquilibres éventuels (voir ci-dessous)
- L’équilibre des covariables entre les groupes expérimentaux, pour évaluer la puissance et l’équilibre de l’échantillon et vérifier que la stratification a été effectuée correctement (voir également ci-dessous)
Déséquilibres (misfits)
Lorsque nous avons expliqué plus haut comment atteindre l’équilibre grâce à la randomisation à proportion fixée et à la stratification, nous avons passé sous silence certains aspects importants de la mise en œuvre de la randomisation, en particulier le problème des déséquilibres (misfits). On parle de déséquilibre lorsque le nombre d’unités au sein d’une strate donnée n’est pas un multiple du nombre de traitements à assigner (Bruhn & McKenzie 2011). Dans le cas le plus simple d’une expérimentation composée de deux groupes (un seul groupe de traitement et le groupe témoin) et dépourvue de strate, on parle de déséquilibre lorsque le nombre d’unités est impair. S’il n’y a que deux groupes, ce problème est facilement résolu (on détermine aléatoirement le statut de l’unité restante après que toutes les autres unités ont été assignées au groupe de traitement ou au groupe témoin). En revanche, maintenir l’équilibre à l’intérieur des strates et au niveau global devient de plus en plus difficile à mesure que le nombre de bras de traitements et de strates, et donc de déséquilibres, augmente.
N | T1 | T2 | Misfits | |
Stratum 1 | 10 | 3 | 6 | 1 |
Stratum 2 | 10 | 3 | 6 | 1 |
Stratum 3 | 10 | 3 | 6 | 1 |
All | 30 (100%) | 9 (30%) | 18 (60%) | 3 (10%) |
Prenons un exemple simple, avec deux bras expérimentaux auxquels les unités doivent être assignées selon une proportion de ⅓ et ⅔, et trois strates contenant 10 unités chacune. Supposons pour commencer que les unités soient assignées de manière à obtenir le meilleur équilibre possible à l’intérieur de chaque strate, c’est-à-dire à préserver les ratios d’allocation du traitement à l’intérieur des strates. L’allocation la plus proche d’une répartition de 33,3 % et 66,7% au sein de chaque strate correspond à 3 et 7 unités, respectivement. Cependant, au niveau de l’échantillon total, cela signifie que la répartition est de 30 % et 70 %, de sorte que l’équilibre global n’est pas aussi bon qu’il pourrait l’être
N | T1 | T2 | |
Stratum 1 | 10 | 3 | 7 |
Stratum 2 | 10 | 3 | 7 |
Stratum 3 | 10 | 3 | 7 |
All | 30 (100%) | 9 (30%) | 21 (70%) |
Une autre possibilité consisterait à assigner les unités en situation de déséquilibre de façon à atteindre l’équilibre global4, c’est-à-dire à préserver les ratios d’allocation de traitement au niveau global. Cela se traduirait, pour l’une des strates au moins, par un moins bon équilibre intra-strate :
N | T1 | T2 | |
Stratum 1 | 10 | 3 | 7 |
Stratum 2 | 10 | 4 | 6 |
Stratum 3 | 10 | 3 | 7 |
All | 30 (100%) | 10 (33%) | 20 (67%) |
Notons également que la solution mentionnée plus haut, qui consiste à déterminer aléatoirement le statut de l’unité restante après que toutes les autres unités ont été assignées au traitement/témoin, n’est que partiellement satisfaisante. Imaginons que l’on randomise l’assignation des unités en situation de déséquilibre dans chaque strate selon les stratégies d’assignation fondamentales, c’est-à-dire que l’on revienne au tirage au sort de base pour ces unités. Cela impliquerait d’utiliser la randomisation à proportion fixée pour affecter 9 unités dans chaque strate, 3 dans T1 et 6 dans T2, puis de tirer au sort l’assignation de la dixième unité selon les probabilités ⅓ vs. ⅔. Si les strates sont nombreuses, il est probable que l’allocation finale au niveau global soit équilibrée. Cependant, si le nombre de strates est limité, on risque fort de se retrouver avec la première répartition mentionnée ci-dessus, voire pire, d’obtenir une répartition dans laquelle l’assignation réalisée est en fait de 4 : 6 unités dans les trois strates, ce qui nous éloignerait de la répartition visée, tant à l’intérieur des strates qu’au niveau global.
Il n’arrive presque jamais que le nombre d’unités de chaque strate soit un multiple exact du nombre de bras de traitement, notamment parce c’est en contradiction avec l’échantillonnage stratifié proportionnel, de sorte que toute procédure de randomisation doit régler ce problème
Balance tests and solutions to imbalance
Tests d’équilibrage
Un test d’équilibrage vise à vérifier que la randomisation a « fonctionné » au-delà du simple fait d’assigner le bon nombre d’unités à chaque bras expérimental, en mesurant formellement les différences de caractéristiques observables entre le(s) groupe(s) de traitement et le groupe témoin.
Dans les articles portant sur des évaluations aléatoires, le premier tableau présente souvent les tests d’équilibrage effectués sur les covariables. Pour vérifier la présence de différences, on préfère généralement la régression aux tests t, car elle permet la correction des erreurs types (clusterisation, robustesse à l’hétéroscédasticité, technique de bootstrap) et l’inclusion d’effets fixes (d’enquêteur, de strate, etc.). Les régressions utilisées pour tester l’équilibre doivent, dans la mesure du possible, utiliser la même spécification que votre régression finale. Par exemple, si votre randomisation est stratifiée, vous allez intégrer des effets fixes de strate dans votre régression principale, qu’il faut donc également intégrer dans vos tests d’équilibrage sur les covariables qui ne sont pas utilisées pour la stratification. Vous vérifiez ainsi l’équilibre au sein des strates, et non entre les strates.
Supposons par exemple que nous ayons procédé à une randomisation stratifiée en grappes. Sous Stata, le test d’équilibrage se présenterait comme suit :
reg covariate treatment i.stratum, robust cluster(cluster_id)
où le coefficient associé à la variable de traitement indique s’il y a en moyenne un équilibre à l’intérieur de la strate (bien que pour déterminer si une strate donnée est équilibrée, il faille soit faire interagir les variables de traitement et de strate, soit restreindre l’échantillon à la strate/aux strates qui nous intéressent).
Dans la mesure où les tests d’équilibrage sont surtout utiles lorsqu’on a des raisons de penser que la randomisation n’a pas été effectuée correctement (voir McKenzie 2017 ou Altman 1985), certains s’interrogent quant à l’utilité et à la valeur informative de ces tests lorsque c’est l’équipe de recherche qui a procédé à la randomisation. De plus, les tests d’équilibrage peuvent présenter des inconvénients si vous pensez que la randomisation est fiable. En effet, la réalisation d’enquêtes initiales et autres interactions avec l’équipe de recherche peuvent générer des effets Hawthorne, comme le montrent Evans (2014) et Friedman & Gokul (2014). Si la collecte de données initiale ne sert qu’à établir des tableaux de référence, et pas à stratifier l’échantillon, une autre solution consiste à collecter des caractéristiques qui ne varient pas dans le temps à la fin de l’étude (par exemple, l’origine ethnique, le sexe, etc.) et à vérifier l’équilibrage de ces données ex post.
Pour une comparaison des mérites relatifs de la stratification ex ante, des paires appariées, de la re-randomisation ex post pour atteindre l’équilibre, etc., voir Bruhn & McKenzie (2009). Un article de blog associé examine plus en détail les mécanismes de la stratification pour atteindre l’équilibre.
Exploiter les résultats d’un test d’équilibrage
Questions à prendre en compte :
- Combien de différences y a-t-il (et y en a-t-il plus que prévu) ? Si vous testez l’équilibre au seuil de 5 %, il faut vous attendre à observer des différences statistiquement significatives entre le groupe de traitement et le groupe témoin pour environ 5 % de vos covariables.
- Quelle est l’ampleur de ces différences ? Sont-elles significatives sur le plan économique/ d’un point de vue pratique ?
- Quelles sont les variables qui présentent des déséquilibres ? Faites particulièrement attention aux variables suivantes :
- Les covariables susceptibles d’être corrélées avec la participation au traitement
- Les covariables susceptibles d’être corrélées avec l’attrition d’après la littérature existante ou l’attrition observée a posteriori, ce qui pourrait donner lieu à une attrition différentielle selon le statut de traitement.
- Les covariables susceptibles d’être corrélées avec la variable de résultat principale : Les covariables qui présentent des déséquilibres sont souvent prises en compte dans l’analyse, même si certains chercheurs les incluent telles quelles tandis que d’autres recommandent d’abord de les centrer en soustrayant la moyenne (Imbens & Rubin 2015). Voir aussi McKenzie & Bruhn (2009) et Athey & Imbens (2017).
- Les variables d’intérêt principales : Si vous constatez la présence d’un déséquilibre au niveau de l’une de vos variables de résultat principales avant le début de l’essai, il peut être judicieux de modifier votre analyse pour adopter une approche de différence des différences ou d’envisager de procéder à un ajustement sur la valeur de référence de la variable de résultat dans votre régression finale.
Re-randomisation
Il peut arriver, par hasard, qu’un tirage aléatoire ne permette d’obtenir un échantillon équilibré sur les variables clés. Une telle situation introduit un risque d’erreur aléatoire dans la comparaison des variables de résultat du groupe de traitement et du groupe témoin (voir ci-dessus quand 𝛾j ≠ 0, c’est-à-dire quand il y a des déséquilibres au niveau des variables qui sont susceptibles d’être corrélées avec la variable de résultat principale). Pour résoudre ce problème, de nombreuses recherches procèdent à une re-randomisation. L’une des approches possibles consiste à effectuer la procédure de randomisation à plusieurs reprises, à ne sélectionner que les tirages équilibrés, puis à choisir au hasard l’un de ces tirages pour l’étude (Glennerster & Takavarasha 2013). Toutefois, en cas de re-randomisation, toutes les combinaisons d’assignations de traitement ne sont pas également probables. Dans la mesure où les tests classiques de signification supposent que toutes les combinaisons sont également probables, il faut en tenir compte dans l’analyse.
Bruhn & McKenzie (2009) montrent que le fait de ne pas ajuster l’analyse en fonction de la méthode de randomisation, y compris la re-randomisation, donne lieu à des erreurs-types qui sont en moyenne excessivement conservatrices (même si, dans un nombre non négligeable des cas testés, ce n’était pas le cas). Ils recommandent également d’inclure les variables des tests d’équilibrage en tant que covariables linéaires dans la régression, de façon à ce que l’estimation de l’effet du traitement dépende des variables utilisées pour tester l’équilibre entre les groupes. Cette approche pose toutefois un problème : le fait de prendre en compte les covariables utilisées pour mesurer l’équilibre ne rend pas toujours complètement compte de la façon dont la probabilité de survenue des différentes combinaisons d’assignation a changé. Cela pose problème pour le calcul des valeurs-p exactes si l’on utilise la méthode de l’inférence basée sur la randomisation (randomization inference), car ce calcul nécessite de connaître la probabilité qu’avait chaque répartition potentielle traitement/témoin de se produire dans le cadre du protocole de recherche (Athey & Imbens 2017). D’un point de vue pratique, Bruhn & McKenzie (2009) recommandent d’indiquer clairement dans les tableaux des tests d’équilibrage les covariables qui ont été ciblées pour l’équilibre, car l’équilibre global risque d’être surestimé si l’on ne considère que les covariables pour lesquelles l’équilibre a été atteint par le biais d'une re-randomisation.
Une autre approche consiste à se demander, avant de mettre en œuvre la randomisation, s’il existe des covariables pour lesquelles un déséquilibre serait inacceptable, et d’effectuer une stratification en fonction de ces covariables, de façon à atteindre l’équilibre sur les covariables clés par construction (Athey & Imbens 2017). Athey et Imbens soulignent que la re-randomisation devient en pratique une forme de stratification : par exemple, une re-randomisation visant à équilibrer les groupes en fonction du sexe devient une méthode indirecte de stratification en fonction du sexe. Comme pour la re-randomisation, la stratification implique que toutes les combinaisons d’assignations de traitement n’ont pas la même probabilité de survenir. En revanche, contrairement à la re-randomisation, le chercheur sait exactement comment ces probabilités ont changé et peut donc calculer les valeurs-p exactes s’il le souhaite.
Vous trouverez notamment des discussions consacrées à la re-randomisation dans Bruhn & McKenzie (2009), Athey & Imbens (2017) et Glennerster & Takavarasha (2013). Les articles théoriques à ce sujet incluent Morgan et Rubin (2012) et Banerjee, Snowberg, et Chassang (2017).
Solutions/programmation
Basic coding procedure for randomization
Regardless of method, the randomization procedure should be verifiable, replicable, and stable, and the randomization outcome saved in a secure file or folder away from other project files.
The basic procedure is always the same:
- Create a file that contains only one entry per randomization unit (e.g., one line per household or one line per cluster). This might mean creating a new file that retains cluster-level stratifying variables and temporarily drops all but one observational unit per cluster.
- Sort this file in a replicable and stable way (use stable sort in Stata, i.e., sort varlist, stable).
- Set the seed for the random number generator (in Stata, set seed). Make sure that the seed is:
- Preserved: Some operations (such as preserve/restore in Stata) erase the seed, and then any random number sequence following that is not determined by the seed anymore and therefore not replicable.
- Used only once across parallel operations: Every time the same seed is set, the exact same random number sequence will be produced afterwards. If for example you are assigning daily N sized batches of units to treatment arms and using the same seed for every batch, the way in which these units are assigned will be the same every day. This could introduce unwanted patterns and imbalances.
- Randomly assign treatment groups to each randomization unit (see example randomization code below), then merge the random assignment back with the original file to obtain a list of all observational units with treatment assignments.
- Save the list of observational units with treatment assignment in a secure location and program your routine so this list cannot be automatically overwritten.
- For any even slightly more complex randomization procedure, extensively test balance:
- In terms of sample size across treatment arms, within and across strata, to verify the correct handling of misfits (see below).
- In terms of covariates across treatment arms, to understand power and sample balance and make sure the stratification was done right (see also below).
Randomisation manuelle
Comme indiqué plus haut, la procédure de randomisation de base consiste à assigner un ordre aléatoire à une série de créneaux, puis à attribuer un bras expérimental à chacun de ces créneaux. Dans l’exemple le plus simple, avec deux groupes expérimentaux (un traitement et un témoin) assignés en proportions égales, la procédure à suivre sous Stata est la suivante :
clear all
* Set the version for upward compatibility
* (e.g., Stata 15 users can use Stata 14)
version 14.2
use “randomizationdata.dta”, clear
isid uniqueid // check for duplicates in the list of individuals
sort uniqueid, stable // sort on uniqueid for replicability
set seed 20200520
/* generate a random (pseudo-random) variable consisting of
draws from the uniform distribution */
generate random = runiform()
bysort stratum: egen temp = rank(random), unique
bysort stratum: gen size=_N
* assign treatments to observations that fit evenly into treatment ratios:
gen treatment = temp>size/2+.5
* randomly assign the misfit:
replace treatment = round(random) if temp==size/2+.5
Comme nous l’avons remarqué plus haut, la procédure d’assignation des unités en situation de déséquilibre devient de plus en plus fastidieuse à mesure que le nombre de strates et de bras expérimentaux (et, par conséquent, le nombre potentiel d’unités en déséquilibre) augmente, ou lorsque le ratio d’allocation du traitement est modifié. Par exemple, dans le cas ci-dessus, il y aura au maximum une unité en situation de déséquilibre par strate. En revanche, si l’allocation du traitement est modifiée, avec par exemple 1/3 des unités assignées au traitement et 2/3 au groupe témoin, on peut avoir deux unités en situation de déséquilibre par strate. La première peut être assignée aléatoirement au groupe de traitement ou au groupe témoin, mais l’assignation de la seconde (s’il y en a une) dépendra de celle de la première afin de préserver l’équilibre. Bruhn & McKenzie (2011) donne un exemple extrême de ce processus. Lorsque le nombre d’unités en situation de déséquilibre est élevé, une autre solution consiste à utiliser la commande randtreat, présentée plus bas.
Commande randtreat
La commande randtreat, écrite par des utilisateurs (documentation supplémentaire), permet d’effectuer l’assignation aléatoire des unités à des bras de traitement multiples dans plusieurs strates, à parts égales ou inégales, et offre plusieurs options pour traiter les problèmes de déséquilibre. En particulier, l’utilisateur peut décider s’il préfère préserver l’équilibre à l’intérieur des strates ou l’équilibre global (lorsque les deux sont incompatibles), ou encore spécifier que le statut de traitement des unités en situation de déséquilibre doit être défini comme manquant et traité manuellement
randtreat if in , generate(newvar) replace setseed(#)
strata(varlist) multiple(#) unequal(fractions)
misfits(missing | strata | wstrata | global | wglobal)
Dernière modification : juin 2020.
Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l'ajout de nouveaux contenus, veuillez remplir ce formulaire.
Nous remercions Megan Lang pour ses suggestions et ses commentaires avisés. Cette ressource a été relue et corrigée par Liz Cao, et traduite de l’anglais par Marion Beaujard. Toute erreur est de notre fait.
En pratique, cela pourrait être réalisé en créant un nouveau groupe de « cas particuliers », puis en attribuant aléatoirement les traitements au sein de ce groupe (Carril, 2017).
Additional Resources
La conférence de J-PAL intitulée How to Randomize
Le guide méthodologique correspondant d’EGAP
References
Altman, Douglas G. 1985. “Comparability of Randomised Groups.” The Statistician 34 (1): 125. doi:10.2307/2987510.
Angrist, Joshua D., and Jörn-Steffen Pischke. 2013. Mastering 'Metrics: The Path from Cause to Effect. Princeton University Press: Princeton, NJ.
Ashraf, Nava, James Berry, and Jesse M Shapiro. 2010. “Can Higher Prices Stimulate Product Use? Evidence from a Field Experiment in Zambia.” American Economic Review 100 (5): 2383–2413. doi:10.1257/aer.100.5.2383.
Athey, Susan and Guido Imbens. 2017. “The Econometrics of Randomized Experiments a.” Handbook of Field Experiments Handbook of Economic Field Experiments, 73–140. doi:10.1016/bs.hefe.2016.10.003.
Baird, Sarah, J. Aislinn Bohren, Craig Mcintosh, and Berk Ozler. 2014. “Designing Experiments to Measure Spillover Effects.” SSRN Electronic Journal. doi:10.2139/ssrn.2505070.
Banerjee, Abhijit V., Sylvain Chassang, Sergio Montero, and Erik Snowberg. 2020. “A Theory of Experimenters: Robustness, Randomization, and Balance.” American Economic Review 110 (4): 1206–30. doi:10.1257/aer.20171634.
Beaman, Lori, Dean Karlan, Bram Thuysbaert, and Christopher Udry. 2013. “Profitability of Fertilizer: Experimental Evidence from Female Rice Farmers in Mali.” doi:10.3386/w18778.
Biau, David Jean, Brigette M Jolles, and Raphaël Porcher. 2020. P Value and the Theory of Hypothesis Testing: An explanation for New Researchers. Clinical Orthopedic Related Research 468(3): 885-892. DOI: 10.1007/s11999-009-1164-4
Blimpo, Moussa. 2019. “Asymmetry in Civic Information: An Experiment on Tax Incidence among SMEs in Togo.” AEA Randomized Controlled Trials. doi:10.1257/rct.4394-1.0. Last accessed June 10, 2020.
Bruhn, Miriam, Dean Karlan, and Antoinette Schoar. 2018. The Impact of Consulting Services on Small and Medium Enterprises: Evidence from a Randomized Trial in Mexico. Journal of Political Economy 126(2): 635-687. https://doi.org/10.1086/696154
Bruhn, Miriam and David McKenzie. 2009. “In Pursuit of Balance: Randomization in Practice in Development Field Experiments.” American Economic Journal: Applied Economics 1 (4): 200–232. doi:10.1257/app.1.4.200.
Bruhn, Miriam and David McKenzie. “Tools of the trade: Doing Stratified Randomization with Uneven Numbers in Some Strata." World Bank Development Impact Blog, November 6, 2011. Last accessed June 10, 2020. https://blogs.worldbank.org/impactevaluations/tools-of-the-trade-doing-stratified-randomization-with-uneven-numbers-in-some-strata
Carril, Alvaro. 2017. “Dealing with Misfits in Random Treatment Assignment.” The Stata Journal: Promoting Communications on Statistics and Stata 17 (3): 652–67. doi:10.1177/1536867x1701700307.
Cartwright, Nancy and Angus Deaton. 2018. "Understanding and Misunderstanding Randomized Controlled Trials." Social Science & Medicine 210: 2-21. https://doi.org/10.1016/j.socscimed.2017.12.005 [ungated version]
Duflo, Esther, Rachel Glennerster, and Michael Kremer. 2007. “Using Randomization in Development Economics Research: A Toolkit.” Handbook of Development Economics, 3895–3962. doi:10.1016/s1573-4471(07)04061-2.
Evans, David. “The Hawthorne Effect: What Do We Really Learn from Watching Teachers (and Others)?” World Bank Development Impact (blog), February 17, 2014. https://blogs.worldbank.org/impactevaluations/hawthorne-effect-what-do-we-really-learn-watching-teachers-and-others. Last accessed June 10, 2020.
Fisher, Ronald. 1935. The Design of Experiments. Oliver and Boyd: Edinburgh, UK
Friedman, Jed and Brinda Gokul., “Quantifying the Hawthorne Effect” World Bank Development Impact (blog), October 16, 2014. http://blogs.worldbank.org/impactevaluations/quantifying-hawthorne-effect. Last accessed June 10, 2020.
Glennerster, Rachel and Kudzai Takavarasha. 2013. Running Randomized Evaluations: A Practical Guide. Princeton University Press: Princeton, NJ.
Heard, Kenya, Elizabeth O’Toole, Rohit Naimpally, and Lindsey Bressler. 2017. Real-World Challenges to Randomization and Their Solutions. J-PAL North America.
Imbens, Guido W. and Donald B. Rubin. Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction. Cambridge: Cambridge University Press, 2015. doi:10.1017/CBO9781139025751.
Kasy, Maximilian. 2016. “Why Experimenters Might Not Always Want to Randomize, and What They Could Do Instead.” Political Analysis 24 (3): 324–38. doi:10.1093/pan/mpw012.
Kerwin, Jason, Nada Rostom, and Olivier Sterck. 2024. "Striking the Right Balance: Why Standard Balance Tests Over-Reject the Null, and How to Fix it." IZA Discussion Paper No. 17217. https://ssrn.com/abstract=4926535.
Lohr, Sharon, and J. N. K. Rao. 2006. “Estimation in Multiple-Frame Surveys.” Journal of the American Statistical Association 101 (475): 1019–1030. www.jstor.org/stable/27590779
McKenzie, David “Should we require balance t-tests of baseline observables in randomized experiments?” World Bank Development Impact (blog), June 26, 2017. https://blogs.worldbank.org/impactevaluations/should-we-require-balance-t-tests-baseline-observables-randomized-experiments. Last accessed June 10, 2020.
Morgan, Kari Lock and Donald B. Rubin. 2012. “Rerandomization to Improve Covariate Balance in Experiments.” The Annals of Statistics 40 (2): 1263–82. doi:10.1214/12-aos1008.
Neyman, Jerzy. 1923. “On the Application of Probability Theory to Agricultural Experiments. Essay on Principles. Section 9.” Statistical Science 5 (4): 465–472. Trans. Dorota M. Dabrowska and Terence P. Speed.
Neyman, Jerzy. "On the Two Different Aspects of the Representative Method: The Method of Stratified Sampling and the Method of Purposive Selection." Journal of the Royal Statistical Society 97, no. 4 (1934): 558-625. Accessed June 15, 2020. doi:10.2307/2342192.
Rubin, Donald B. 2005. "Causal Inference Using Potential Outcomes: Design, Modeling, Decisions." Journal of the American Statistical Association 100(469): 322-331. DOI 10.1198/016214504000001880
Wu, Changbao. “Multiple-frame Sampling.” In Encyclopedia of Survey Research Methods,edited by Paul J. Lavrakas, 488-489. California: SAGE Publications, Inc., 2008. http://dx.doi.org/10.4135/9781412963947.