Évaluer les interventions basées sur la technologie

Authors

Stephanie Lin

Mary-Alice Doyle

Laura Feeney

Contributors

Chloe Lesieur

Summary

Cette ressource donne des conseils pour l’évaluation des interventions dans le cadre desquelles la technologie joue un rôle clé. Ces interventions peuvent par exemple prendre la forme d’alertes automatiques intégrées à un dossier médical électronique, ou d’une plateforme de messagerie facilitant la communication entre les enseignants et les parents d’élèves. Cette ressource présente les défis auxquels le personnel de J-PAL Amérique du Nord a été confronté dans le cadre de ce type d’études et décrit les mesures qui peuvent permettre de les surmonter. Elle n’aborde pas les études dont la seule composante technologique concerne l’inscription des participants ou l’administration de l’enquête, bien que certains conseils puissent également s’appliquer à ce type d’études.

Introduction

Les interventions basées sur la technologie présentent de nombreux avantages, en particulier la possibilité de standardiser l’intervention pour tous les participants et sur tous les sites. Il est ainsi plus facile de reproduire fidèlement ces interventions dans d’autres contextes, même si le contexte lui-même peut malgré tout influer sur l’efficacité de l’intervention (Pane et al. 2014; Roschelle et al. 2016). Si l’efficacité d’une intervention est démontrée, le fait qu’elle soit basée sur la technologie offre également une opportunité unique de mise à l’échelle et de reproduction rapide.

L’évaluation des interventions fondées sur la technologie est toutefois confrontée à des difficultés particulières. Ces défis se concentrent généralement sur les points suivants :

Conception de la recherche et de la technologie : bien concevoir l’intervention et l’étude, et les intégrer correctement l’une à l’autre ;
Mise en œuvre de l’étude : réaliser l’étude en veillant notamment au respect de la procédure de randomisation ;
Interactions entre l’outil technologique, l’étude et les individus : évaluer l’adoption de l’outil technologique par les participants et s’assurer que toutes les personnes chargées de la mise en œuvre sont informées de l’existence de l’étude.

Cette liste est loin d’être exhaustive, et des problèmes peuvent survenir malgré la prise en compte de ces différents éléments. Si des lecteurs souhaitent contribuer à cette ressource en faisant des suggestions ou en proposant d’autres études, nous les invitons à contacter l’équipe de J-PAL Amérique du Nord à l’adresse suivante : [email protected].

Conception de la recherche et de la technologie

Dans la mesure du possible, il est préférable d’étudier des interventions préexistantes plutôt que d’en concevoir de nouvelles. De nombreux chercheurs ont rapporté que l’élaboration d’une nouvelle intervention s’était avérée beaucoup plus lente et plus coûteuse que prévu. En effet, le développement initial d’une nouvelle technologie n’est généralement pas suffisant, et ces technologies peuvent également engendrer des frais de maintenance lorsque les plateformes ou les systèmes sur lesquels elles reposent évoluent.
Travaillez avec un partenaire qui a de l’expérience en matière de conception, de développement et de maintenance d’interventions technologiques. Il est difficile pour les chercheurs d’être spécialisés à la fois dans la création et l’évaluation des interventions basées sur la technologie, et il existe un vaste réseau d’experts en développement technologique sur lequel s’appuyer. Si les chercheurs travaillent avec un partenaire, nous leur recommandons :
- D’évaluer soigneusement la plateforme logicielle dès le début du processus. Il arrive que les éditeurs de logiciels, en particulier ceux qui n’ont pas d’expérience de la recherche, promettent une plus grande flexibilité de programmation que ce qui est réellement possible. Plus les chercheurs se renseignent tôt, plus ils ont de chances d’identifier rapidement les écarts entre ce qui est nécessaire à l’étude et ce que l’entreprise est en mesure de concevoir.
- De se renseigner le plus tôt possible sur le calendrier et le coût du développement, et de prévoir un budget supplémentaire par rapport au coût annoncé. Même dans le cas de la mise à jour d’une intervention déjà existante, les délais et les coûts s’avèrent souvent supérieurs aux projections. Il est donc préférable de prévoir des délais et des fonds supplémentaires au cas où le développeur aurait finalement besoin de plus de temps.
- D’envisager de tester différentes composantes de la technologie dans différents bras de traitement. Dans la mesure où les interventions technologiques peuvent être standardisées pour l’ensemble des participants, ce qui n’est pas le cas des interventions qui nécessitent l’intervention de prestataires humains, elles permettent une étude plus précise des mécanismes à l’œuvre. Si la taille de l’échantillon est suffisamment importante, le fait d’avoir recours à plusieurs bras de traitement recevant différentes versions de l’intervention peut permettre d’isoler ces mécanismes (Oreopoulos et Petronijevic 2018).
- D’utiliser les données de processus et de résultat collectées par le système. Les chercheurs peuvent par exemple collecter des informations sur le taux d’ouverture de l’écran par les participants, la fréquence de connexion, le nombre de clics sur l’écran, l’utilisation de logiciels spécifiques et bien d’autres mesures de processus qui donnent un aperçu de la manière dont l’intervention est utilisée.
Des mesures intermédiaires peuvent également être recueillies de manière active sur la plateforme technologique (par exemple, par le biais d’évaluations ou d’enquêtes). Si les chercheurs utilisent ces données comme variables de résultat, il leur faudra toutefois déterminer s’il est possible d’obtenir des mesures similaires pour le groupe témoin et, si oui, de quelle manière.

Étude de cas : Suite à plusieurs conversations et après avoir fait une première utilisation de la plateforme, une équipe de recherche a conclu qu’une société de technologie correspondait bien à ses besoins. Ce n’est que plusieurs mois après le début de leur collaboration que les chercheurs se sont rendu compte que la plateforme n’était pas en mesure d’incorporer des conditions « if-then », qui sont pourtant courantes dans la plupart des langages de programmation. Ce problème a considérablement compliqué la conception et la mise en œuvre de l’intervention prévue, ainsi que la randomisation.

Mise en œuvre de l’étude

Vérifier à plusieurs reprises la procédure de randomisation et l’échantillon

Avant le lancement de l’étude, les technologies liées tant à la mise en œuvre de l’intervention qu’à la randomisation doivent faire l’objet d’un examen approfondi. Si les partenaires de mise en œuvre disposent probablement d’une expertise solide en matière d’exécution de programmes, ils sont peut-être moins expérimentés pour ce qui est de tester la façon dont l’assignation aléatoire s’intègre à ces programmes. Les chercheurs jouent donc un rôle essentiel ici, puisqu’il leur appartient de souligner l’importance du pilotage de la randomisation et de l’élaboration de cas d’essai robustes et exhaustifs afin de garantir la fidélité de l’assignation.

Pilotez à la fois l’intervention proprement dite et la procédure de randomisation. Les chercheurs peuvent collaborer avec les partenaires de mise en œuvre pour effectuer et documenter explicitement des contrôles de l’intensité du traitement pour toutes les personnes suivies dans le cadre de l’étude (à la fois traitement, témoin, refus/autre). Ces tests doivent être effectués avant le début de l’étude.

Vérifiez la déclaration logique exacte utilisée pour mettre en œuvre l’assignation aléatoire. Il peut y avoir plusieurs façons de traduire une stratégie d’assignation aléatoire donnée sous forme de déclaration logique ou de code. Il est donc indispensable que les chercheurs aient accès à la déclaration logique exacte qui sert à déterminer si l’intervention est active ou non pour un individu ou un groupe donné. L’ensemble des variables et des technologies employées dans la déclaration logique doivent être examinées et testées pour s’assurer que les définitions sont correctes. Vous trouverez en annexe un exemple de déclaration logique.

Étude de cas : Dans une étude donnée, l’intervention était intégrée à une plateforme technologique plus vaste et n’était censée être accessible qu’à la liste des participants du groupe de traitement. Or, six mois après le début de l’étude, on a découvert que l’intervention était en fait proposée à toutes les personnes inscrites à l’étude parce que la définition d’une variable censée définir la population étudiée était erronée.

Étude de cas : Dans une autre étude, l’assignation aléatoire a été mal exécutée à deux reprises, pour différentes raisons. Les chercheurs ont été avertis de ce problème grâce aux données issues des contrôles réguliers, et ont finalement demandé au développeur de créer une vidéo décrivant le code exact de l’assignation aléatoire pour pouvoir le vérifier.

Testez les cas d’essai en situation « réelle », ou dans un environnement aussi proche que possible des conditions réelles. Il est important d’effectuer les tests sur la version la plus récente du logiciel et sur la plateforme active, qu’il s’agisse d’un forum en ligne, d’un dossier médical électronique (DME) ou d’un appareil mis à jour. Par exemple, certains hôpitaux disposent d’un environnement « d’entraînement » pour le DME, qui permet aux médecins de s’exercer à faire des demandes d’examens et de se familiariser avec le flux de travail. Toutefois, cet environnement est souvent légèrement différent du « vrai » DME, qui contient des informations réelles sur les patients et dans lequel les médecins peuvent faire de vraies demandes et enregistrer des notes.

Contrôler régulièrement l’assignation aléatoire

Travaillez en collaboration avec votre partenaire en vue d’élaborer des tableaux de suivi (de préférence automatiques) et de mettre en place un mécanisme permettant de vérifier ces tableaux à intervalles réguliers. Les tableaux de suivi contiennent des indicateurs de l’intensité du traitement et/ou des étapes clés de la mise en œuvre, comme la proportion d’unités assignées au traitement, l’équilibre de différentes caractéristiques entre les groupes ou la durée d’une étape donnée de l’intervention, pour un ensemble de cas. Tout changement inattendu des résultats affichés dans ces tableaux peut signaler l’existence d’un problème dans la mise en œuvre de l’intervention.

Étude de cas : Dans le cadre d’une étude, les chercheurs ont demandé à ce que des contrôles réguliers de la fidélité de la mise en œuvre soient effectués, et notamment à avoir accès aux résultats des tests de Student pour vérifier la répartition 50/50 de l’assignation aléatoire. Au début de l’étude, les contrôles les ont avertis à deux reprises de l’existence d’erreurs dans l’assignation aléatoire, dont une fois où l’assignation au groupe de traitement et au groupe témoin avait été effectuée de manière séquentielle.

Tenir compte des mises à jour des logiciels

Voici quelques questions à prendre en compte à ce sujet : Quand le système d’exploitation des téléphones ou des ordinateurs est mis à jour, le code de l’intervention doit-il être modifié, et les progiciels ont-ils besoin d’être mis à jour ? Si l’intervention est intégrée à un système comme un DME, le passage à une nouvelle version de la plateforme affecte-t-il la collecte des variables de résultat d’une quelconque manière ? Le système d’exploitation peut notamment avoir une incidence sur le stockage des données, la précision des chiffres enregistrés, les algorithmes de randomisation et les générateurs d’algorithmes de chiffrement pseudo-aléatoires.

Assurez-vous de connaître le calendrier des mises à jour de votre développeur. Les développeurs fixent souvent des dates précises pour la publication des mises à jour. Le fait de connaître ce calendrier permet aux chercheurs d’en tenir compte dans la conception de leur étude. Indépendamment des mises à jour qui concernent explicitement la recherche, il est utile pour les chercheurs d’être informés et de connaître les dates de sortie des nouvelles versions du logiciel, des périodes d’indisponibilité et des phases de test pour les mises à niveau.

Étude de cas : Dans le cadre d’une étude sur l’aide à la prise de décision clinique pour l’imagerie radiologique, à chaque changement de version du DME, l’équipe informatique avait pour consigne de revérifier la liste des médecins répartis aléatoirement entre le groupe de traitement et le groupe témoin et en informer l’équipe de recherche. L’intervention a également été ajoutée à la liste des progiciels à mettre à jour à chaque réinitialisation ou mise à niveau du système. Une fois l’intervention ajoutée manuellement à la liste, il s’agissait d'un processus simple et automatique.

Interactions entre l’outil technologique, l'étude et les individus

Assurez-vous que toutes les personnes susceptibles d’apporter des modifications à l’intervention sont au courant de l’évaluation aléatoire

Dans toute évaluation aléatoire, il est important d’obtenir l’adhésion du personnel chargé de la mise en œuvre. Cependant, dans le cas d’une intervention basée sur la technologie, même le personnel qui n’est pas directement impliqué dans l’évaluation aléatoire peut procéder à des changements qui auront une incidence sur l’évaluation.

Le personnel informatique doit savoir comment répondre aux e-mails et aux appels du service d’assistance concernant l’intervention ou l’étude.
Le partenaire de mise en œuvre doit avoir un interlocuteur spécifique au sein de l’équipe de recherche en cas de problèmes ou de changements (comme des coupures de courant).

Étude de cas : Trois mois après le début d’une étude, un ingénieur fraîchement recruté au sein de l’entreprise informatique chargée de l’intervention a remarqué que celle-ci était mise en œuvre de façon légèrement différente sur le lieu de l’étude par rapport aux autres sites de l’entreprise. Supposant qu’il s’agissait d’une erreur, il a modifié la programmation de l’intervention sur le site de l’étude pour qu’elle corresponde à celle des autres sites, ce qui a modifié les critères d’inclusion et d’exclusion de l’étude. Les chercheurs ne se sont rendu compte de la situation qu’au bout d’un certain temps, lorsqu’ils ont remarqué des incohérences dans les données collectées.

Essayez de réfléchir séparément à la question de l’adoption de la technologie et à celle de son efficacité

Le taux d’adoption d’une nouvelle technologie est souvent très faible. L’évaluation simultanée de l’adoption et de l’efficacité de la technologie peut compliquer l’interprétation des résultats si un faible taux d’adoption réduit la puissance statistique des tests d’efficacité. Il s’agit là d’une excellente raison de chercher des partenaires de mise en œuvre dont la technologie a déjà fait ses preuves en termes de fidélité d’utilisation (si votre objectif est de tester l’efficacité)

Étude de cas : Un groupe de chercheurs espérait évaluer une application destinée à être utilisée au sein d’une population cible bien définie. Une campagne d’information a été menée, associant des e-mails, des SMS de rappel et l’intervention de pairs ambassadeurs. Bien qu’un e-mail contenant le lien pour accéder à l’application ait été envoyé à 8 000 participants, seuls 4 % d’entre eux se sont inscrits, et seuls 1 % d’entre eux se sont connectés deux fois ou plus. L’équipe de recherche a donc suspendu l’étude initiale et a décidé de rechercher d’autres solutions pour augmenter le nombre de participants.

Les méthodes pour améliorer le taux de participation varient selon l’intervention, mais peuvent notamment prendre les formes suivantes : diffuser des publicités sur les réseaux sociaux, collaborer avec des représentants ou des organisations de la communauté, recruter les participants en direct et bloquer des plages horaires pour leur permettre de participer à l’intervention, ou encore mettre en place des incitations à court terme pour encourager l’utilisation de l’outil technologique.
Testez la participation et tenez-en compte dans vos calculs de puissance. Il existe plusieurs façons de le faire, comme piloter l’application puis organiser un groupe de discussion avec les participants (à la fois ceux qui utilisent l’application et ceux qui ne l’utilisent pas), intégrer des indicateurs de processus à la collecte de données (par exemple, s’inscrire vs se connecter à la plateforme), et analyser les données historiques de l’intervention en question.
- Il est particulièrement important de piloter l’intervention si elle est nouvelle ou si elle a subi des modifications importantes. Il peut s’avérer particulièrement utile de recueillir des commentaires qualitatifs et de discuter avec les participants pour savoir de quelle manière et à quels moments ils utilisent la technologie. Ce retour d’information est d’autant plus intéressant lorsque l’intervention est testée à l’endroit où elle est censée être utilisée (par exemple, dans une clinique, une école, etc.).
- Un faible taux de participation a un effet considérable sur la puissance statistique des études qui utilisent une analyse en intention de traiter.¹
Envisagez aussi bien les méthodes d’adoption selon le principe de l’« opt-out » (consentement tacite) que selon celui de l’« opt-in » (consentement explicite). Si elle est autorisée par l’IRB compétent, l’inscription automatique des participants peut permettre d’augmenter considérablement le taux de participation à l’intervention.
- Il est cependant essentiel de garder à l’esprit que l’utilisation répétée de la technologie (et donc la mise en œuvre de l’intervention) peut rester faible, même si tous les participants sont automatiquement « inscrits ».

Étude de cas : Dans le cadre d’un système d’alertes SMS envoyées aux parents d’élèves à propos des performances et de l’assiduité scolaire de leur enfant, les chercheurs ont constaté que l’inscription automatique avait donné lieu à un taux d’adoption de 96 % et à un taux d’attrition inférieur à 4 % dans le groupe de traitement. Ce chiffre est à comparer aux 8 % d’adoption au sein du groupe dit d’« adoption simplifiée », où les parents devaient répondre « oui » à un SMS pour adopter la technologie (Bergman et Rogers 2017).

Annexe

Dans cette annexe, nous nous appuyons sur un exemple théorique pour démontrer comment de légères différences au niveau du code peuvent avoir un impact sur la composition de l’échantillon de l’étude. Nous recommandons ensuite des tests conçus pour confirmer que le code génère bien l’échantillon prévu.

Imaginons une évaluation portant sur une intervention éducative destinée aux élèves de primaire. Il existe un ensemble de données regroupant tous les élèves, mais les chercheurs n’y ont pas directement accès. Pour pouvoir identifier l’univers d’échantillonnage de l’étude et assigner les élèves aux interventions, les chercheurs doivent décrire les critères d’inclusion de l’étude et les procédures de randomisation aux détenteurs des données. Il est prévu que les chercheurs reçoivent un ensemble de données désidentifiées qui constituera l’échantillon de l’étude.

Les chercheurs ont décidé de se concentrer sur les élèves des écoles publiques scolarisés en classe de CE1, CE2, CM1 ou CM2 dont la langue maternelle est l’anglais. Pour simplifier la tâche du détenteur des données, ils lui fournissent les critères d’inclusion suivants :

En CE1, CE2, CM1 ou CM2
Scolarisé dans une école publique
Ne suit pas de cours d’anglais langue seconde (ESL)

En CE1, CE2, CM1 ou CM2

Une erreur peut se produire si, par exemple, une faute de frappe entraîne l’utilisation d’une inégalité stricte au lieu d’une inégalité non stricte

grade >2 & grade <=5

rather than

grade >= 2 & grade <=5

inrange(grade, 1, 5)

rather than

inrange(grade, 2, 5)

Scolarisé dans une école publique

Une erreur peut se produire si le code ne prend pas correctement en compte tous les types d’écoles inclus dans l’ensemble de données. Par exemple

Dans l’exemple ci-dessous, les élèves qui ne fréquentent ni une école publique ni une école privée risquent d’être inclus à tort.

School_type != "private"

Dans l’exemple ci-dessous, les élèves qui fréquentent une école publique dont le code est différent (par exemple, les écoles publiques à vocation particulière ou les écoles à charte) risquent d’être exclus à tort.

School_type == "public"

Ne suit pas de cours d’anglais langue seconde (ESL)

Ces méthodes risquent de produire des résultats différents si la variable ESL est absente pour les élèves qui ne sont pas inscrits à des cours d’anglais seconde langue.

ESL == 0
ESL != 1

Interaction des critères d’inclusion

Les chercheurs doivent vérifier que le code combine ou applique correctement les critères d’inclusion et d’exclusion. Par exemple, si le code ci-dessous était exécuté sous Stata, il inclurait tous les étudiants des écoles à charte, du fait de la syntaxe de Stata

if  inrange(grade, 2, 5) & ESL != 1 & School_type ==  "public" ///
        | School_type == "charter"

L’utilisation de parenthèses pour définir des sous-ensembles de critères permet de s’assurer que le programme exécute les opérations dans l’ordre prévu, tout en rendant le code plus facile à lire pour les utilisateurs. Par exemple :

if  inrange(grade, 2, 5) & ESL != 1 ///
        & (School_type ==  "public" | School_type == "charter")

Cas d’essai

Les chercheurs peuvent demander le code utilisé pour créer l’ensemble de données désidentifiées afin de vérifier la façon dont les critères d’inclusion ont été traduits sous forme de code. Nous suggérons en outre aux chercheurs de demander un livre de codes incluant les définitions des données, les statistiques sommaires et toutes les valeurs possibles de chaque définition incluse dans le code. Il est également recommandé d’effectuer des cas d’essai pour évaluer le code. Par exemple, les chercheurs peuvent tester les cas limites, c’est-à-dire les cas qui se situent juste à la limite des critères d’éligibilité, que ce soit juste au-dessus ou juste en-dessous.
Dans le cas de notre exemple, une demande de livre de codes et de tests pourrait inclure les éléments suivants :

Élèves par classe :
- Tester l’inclusion/exclusion de tous les cas limites : CP, CE1, CM2 et 6e
Anglais langue seconde (ESL) :
- Tester l’inclusion/exclusion des élèves qui suivent des cours d’anglais langue seconde, de ceux qui n’en suivent pas
- Livre de code de toutes les valeurs possibles de la variable « ESL »
Type d’école :
- Livre de code de toutes les valeurs possibles de la variable « School_type » et des indicateurs associés
- Tester l’inclusion/exclusion des élèves scolarisés dans chaque type d’école possible, et des élèves pour lesquels le type d’école est manquant
Faire des tests supplémentaires pour toutes les interactions possibles des cas d’essai mentionnés ci-dessus, par exemple :
- Un élève de CE2 qui suit des cours d’anglais langue seconde dans une école publique
- Un élève de CE2 qui suit des cours d’anglais langue seconde dans une école privée
- Etc.

Last updated September 2021.

These resources are a collaborative effort. If you notice a bug or have a suggestion for additional content, please fill out this form.

Acknowledgments

Nous remercions Peter Bergman, Ben Castleman, Jennifer Doleac, Amy Finkelstein, Louise Geraghty et Sam Haas pour leurs commentaires et leurs conseils précieux. Ce document a été relu et corrigé par Chloe Lesieur, et traduit de l’anglais par Marion Beaujard. Le présent travail a pu être réalisé grâce au soutien de la Fondation Alfred P. Sloan et d'Arnold Ventures.

L’article de blog « Power Calculations 101: Dealing with Incomplete Take-up » décrit les implications de façon plus détaillée (McKenzie 2011). La ressource de J-PAL intitulée « Petit guide rapide sur les calculs de puissance » présente les principes fondamentaux des calculs de puissance, donne des conseils pour identifier les données nécessaires à ces calculs et explique comment les intégrer au modèle de l’étude.

Additional Resources

Power Calculations 101: Dealing with Incomplete Take-Up | Blog de la Banque Mondiale

L’article de blog de David McKenzie illustre plus en détail l’effet de la première étape sur la puissance
Petit guide sur les calculs de puissance | J-PAL North America Evaluation Toolkit

Cette ressource présente les principes fondamentaux des calculs de puissance, donne des conseils pour identifier les données nécessaires à ces calculs et explique comment les intégrer au modèle de l’étude

References

Bergman, Peter, and Todd Rogers. 2017. “The Impact of Defaults on Technology Adoption, and Its Underappreciation by Policymakers.” CESifo Working Paper Series, no. 6721 (November). https://ssrn.com/abstract=3098299.

Oreopoulos, Philip, and Uros Petronijevic. 2018. “Student Coaching: How Far Can Technology Go?” Journal of Human Resources 53 (2): 299–329. https://doi.org/10.3368/jhr.53.2.1216-8439R.

Pane, John F., Beth Ann Griffin, Daniel F. McCaffrey, and Rita Karam. 2014. “Effectiveness of Cognitive Tutor Algebra I at Scale.” Educational Evaluation and Policy Analysis 36 (2): 127–44. https://doi.org/10.3102/0162373713507480.

Roschelle, Jeremy, Mingyu Feng, Robert F. Murphy, and Craig A. Mason. 2016. “Online Mathematics Homework Increases Student Achievement.” AERA Open 2 (4): 2332858416673968. https://doi.org/10.1177/2332858416673968.

Research Resources