Contrôles de la qualité des données
Summary
Des techniques comme les contrôles à haute fréquence, les back-checks et les contrôles inopinés peuvent être utilisés pour détecter les erreurs de programmation, les erreurs commises par les enquêteurs, les données fabriquées, les questions mal comprises et bien d’autres problèmes encore. Les résultats de ces contrôles peuvent également être utilisés pour perfectionner votre enquête, identifier la présence d’effets enquêteurs et évaluer la fiabilité de la mesure de vos variables de résultat. Cette ressource présente des cas d’utilisation et explique comment mettre en œuvre chaque type de contrôle, tout en abordant également les considérations propres aux données administratives.
Introduction
- Cette section explique comment vérifier la qualité des données en mettant en place trois types de contrôles :
- Les contrôles à haute fréquence sont des contrôles quotidiens ou hebdomadaires visant à détecter toute anomalie dans les données.
- Les back-checks, ou contre-vérifications aléatoires, sont des enquêtes courtes, de type audit, menées auprès de répondants qui ont déjà été interrogés.
- Les contrôles inopinés sont des visites surprises effectuées par les membres seniors du personnel de terrain pour vérifier que les enquêteurs réalisent bien les enquêtes au moment et à l’endroit où ils sont censés le faire.
- Nous allons aborder la logique sous-jacente de chacun de ces types de contrôle, leur procédure de mise en œuvre et l’utilisation qui peut être faite de leurs résultats. Le cas échéant, nous mentionnons les formulaires types et do-files existants qui peuvent faciliter la mise en œuvre de ces méthodes.
Contrôles à haute fréquence
Comme leur nom l’indique, les contrôles à haute fréquence sont des vérifications des données entrantes réalisées de façon régulière (si possible quotidienne). Ces contrôles peuvent être effectués aussi bien sur des données d’enquête que sur des données administratives. Quelle que soit la source, ils doivent être appliqués à la plus grande quantité possible de données.
Dans le cas des données d’enquête, les contrôles à haute fréquence sont utilisés pour identifier et corriger les erreurs dans les données, surveiller le bon déroulement de l’enquête, évaluer les performances des enquêteurs et détecter les cas de fraude dans les données. Ils jouent un rôle similaire pour les données administratives, mais peuvent également être utilisés pour en vérifier la cohérence (dans quelle mesure ces données administratives sont comparables à d’autres sources de données) et l’exactitude (en utilisant par exemple des informations sur toutes les sources d’erreurs connues dans les données administratives) (Iwig et al., 2013).
Types de contrôles à haute fréquence
Ces contrôles se répartissent en cinq grandes catégories :
- Pour détecter les erreurs : Ces contrôles permettent d’identifier les problèmes au niveau de la programmation de l’enquête ou de certaines questions individuelles.
- Programmation de l’enquête : Imaginons que la question 1a soit la suivante : « Avez-vous des enfants de moins de 18 ans ? », et qu’elle soit suivie de la question 1b : « (Si oui) Sont-ils scolarisés ? » Si les enquêtés qui répondent « non » à la première question se voient quand même proposer la deuxième question, le saut de question ne fonctionne pas correctement et doit être corrigé.
- Données manquantes : Certaines questions sont-elles passées plus souvent que d’autres ? Y a-t-il des questions auxquelles aucun enquêté n’a répondu ? Cela peut être le signe d’une erreur de programmation.
- Variables catégorielles : Les répondants sélectionnent-ils les catégories proposées, ou sont-ils nombreux à répondre « Aucune de ces catégories » ou « Autre » ? Si l’enquête est en cours, il est peut-être nécessaire d’ajouter des catégories ou de modifier les catégories existantes.
- Trop de réponses similaires : Y a-t-il une question à laquelle toutes les personnes interrogées répondent de la même manière ?
- Valeurs aberrantes : Certains répondants indiquent-ils des valeurs nettement supérieures ou inférieures à la réponse moyenne ? Est-il nécessaire d’établir une limite supérieure ou inférieure pour ces variables ? De nombreux contrôles portant sur les valeurs aberrantes peuvent être programmés directement dans l’enquête, soit pour signaler les réponses anormales, soit pour interdire les réponses situées en dehors de la fourchette acceptable.
- Identifiants des répondants : Y a-t-il des doublons parmi vos identifiants uniques ? Si c’est le cas, y a-t-il une explication logique ? (Par exemple, les identifiants uniques peuvent notamment apparaître en double lorsque les enquêteurs sont contraints d’interrompre un entretien puis de le reprendre). Y a-t-il des identifiants non renseignés ou non valides ? Cela peut être le signe que vos enquêteurs n’interrogent pas le bon répondant.
- Pour surveiller la progression de l’enquête et suivre les répondants : Le contrôle de ces variables permet aux équipes de recherche de prévoir le temps nécessaire à la réalisation d’une vague d’enquête et d’identifier les enquêteurs dont les performances sont médiocres.
- Combien de temps les enquêteurs mettent-ils à effectuer une enquête ?
- Combien d’enquêtes les enquêteurs réalisent-ils par jour ?
- Les enquêtes sont-elles réalisées en une seule fois, ou bien les répondants font-ils des pauses ou interrompent-ils l’enquête avant la fin ?
- Est-ce que ce sont bien les bons répondants qui sont suivis et interrogés ? Parvenez-vous à retrouver les répondants d’une vague de collecte de données à l’autre et d’une source de données à l’autre ?
- Ces variables ne sont pas nécessairement présentes dans les données proprement dites, mais peuvent être construites. Pour obtenir ces informations, vous pouvez filtrer l’ensemble de données par enquêteur. SurveyCTO génère automatiquement certaines variables qui peuvent être utilisées ici, telles que SubmissionDate, startdate et enddate.
- Pour contrôler les performances des enquêteurs : Vérifiez si certaines différences dans les réponses sont associées à des enquêteurs particuliers.
- Vérification des distributions : L’un de vos enquêteurs indique-t-il des revenus des ménages nettement plus élevés que les autres ? Examinez la distribution des valeurs manquantes, des réponses « Je ne sais pas/Refuse de répondre » et des réponses « Non » aux questions avec saut pour voir si certains enquêteurs écourtent l’enquête de manière abusive pour se faciliter la tâche.
- Nombre de valeurs aberrantes : De la même manière que lorsque vous recherchez des erreurs dans les données, il faut vérifier les valeurs aberrantes, mais en contrôlant cette fois le nombre de valeurs aberrantes obtenues par chaque enquêteur. Si certains enquêteurs présentent un nombre élevé de valeurs aberrantes, ils ont peut-être besoin de suivre une nouvelle formation, ou cela peut être le signe que l’enquêteur fabrique les données.
- Nombres de réponses incohérentes : Vérifiez si certains enquêteurs ont un nombre élevé de réponses impossibles (par exemple, s’ils indiquent que le chef de ménage a 30 ans mais a un enfant de 28 ans, ou que le répondant a un diplôme universitaire mais qu’il est analphabète). Un tel constat peut là encore être le signe que l’enquêteur a besoin d’une formation supplémentaire ou qu’il fabrique les données.
- Productivité : Pour chaque enquêteur, examinez le nombre d’enquêtes terminées, les communautés couvertes, le nombre de refus (le répondant refuse d’être interrogé) et le taux de suivi des répondants (pourcentage des répondants ciblés qui ont pu être contactés).
- Pour identifier les cas de fraude dans les données :
- Durée de l’enquête : Des enquêtes extrêmement courtes peuvent être le signe que l’enquêteur a fabriqué les données.
- Vérification de la position à l’aide d’un GPS : Selon les appareils que vous utilisez, vous pouvez enregistrer les coordonnées GPS des lieux où se déroulent les entretiens, ce qui vous permet de voir si l’enquêteur se trouve bien là où il est censé être, ou s’il reste au même endroit et répond à plusieurs enquêtes, ce qui peut être un signe de fraude. Notez que la collecte de données GPS nécessite l’approbation d’un IRB.
- Contrôles audio : Certaines plateformes d’enquête, comme SurveyCTO, permettent aux équipes de recherche de recueillir des enregistrements audio. Ces enregistrements peuvent être soumis à une écoute attentive pour vérifier si l’enquêteur a posé correctement les questions, ou bien être analysés pour déterminer s’il y avait plusieurs interlocuteurs ou si personne ne parlait. Notez que tout enregistrement audio nécessite l’approbation d’un IRB. Ces contrôles peuvent permettre de repérer les enquêteurs qui tentent de réduire les coûts en répondant eux-mêmes à l’enquête et en inventant des données.
- Un nombre anormalement élevé de réponses « non » pour les sauts de questions : L’enquêteur peut répondre frauduleusement par la négative aux questions qui ne déclenchent de questions supplémentaires que si l’enquêté répond « oui », ce qui lui permet d’alléger sa charge de travail. Ce phénomène peut être repéré en comparant le taux de réponses « non » des différents enquêteurs.
- Des sections anormalement courtes : Certaines plateformes d’enquête permettent de configurer des « limites de vitesse » sur certaines questions, qui interdisent à l’enquêteur de passer à la question suivante tant qu’un laps de temps donné ne s’est pas écoulé, ou qui signalent les questions pour lesquelles l’enquêteur a avancé trop rapidement. Pour pouvoir configurer ce type de limite, il faut d’abord piloter les questions afin de connaître le temps moyen consacré à chacune d’entre elles.
- Considérations spécifiques aux données administratives :
- Les équipes de recherche doivent collaborer avec les fournisseurs de données pour identifier les variables dont il est possible de vérifier la cohérence (par exemple, le revenu moyen des ménages dans ces données ne doit pas être inférieur de plus de 2 % au revenu moyen des ménages rapporté dans une autre source de données) ainsi que l’exactitude (par exemple, il ne doit pas y avoir plus de 5 % des ménages qui ne déclarent pas de revenu tous les mois).
- La détection des erreurs dans les données administratives suit un processus similaire à la détection des erreurs dans les données d’enquête. Outre les contrôles de base mentionnés ci-dessus, il faut également vérifier la cohérence et l’exactitude des variables. De nombreux ensembles de données administratives sont composés de données de panel, ce qui vous permet d’effectuer des contrôles logiques supplémentaires (par exemple, l’âge des personnes interrogées augmente-t-il avec le temps ?).
- Le suivi des répondants est l’un des principaux objectifs des données administratives, dans le sens où vous devez pouvoir suivre les répondants à la fois dans le temps et d’un ensemble de données à l’autre. Vérifiez si les identifiants uniques des répondants changent parfois (par exemple, si une personne déménage de chez ses parents et forme un nouveau ménage).
- Comme ce n’est pas vous qui collectez les données, vous ne savez pas forcément qui a été interrogé par quel enquêteur. Dans l’idéal, il faut pouvoir solliciter le fournisseur de données pour obtenir ces informations. Si le fournisseur de données n’est pas disposé à les partager, faites-lui part de vos observations sur les problèmes rencontrés afin qu’il puisse intervenir auprès de ses enquêteurs pour garantir la qualité des données.
- Votre capacité à détecter les données frauduleuses dépend en grande partie des règles de cohérence que vous aurez définies avec le fournisseur de données. Pour déterminer si les données qui vous sont fournies semblent réelles ou frauduleuses, vous pouvez chercher un ensemble de données de qualité avec des répondants similaires ou dans un contexte similaire au vôtre pour servir de point de comparaison.
Mise en œuvre des contrôles à haute fréquence :
Il existe trois grandes façons de mettre en œuvre ce type de contrôle.
- Les do-files personnalisés : On développe un do-file ou un script R pour contrôler les problèmes de qualité des données mentionnés ci-dessus. Voir les exemples ici. J-PAL propose également un modèle pour les contrôles à haute fréquence. Les do-files personnalisés ont l’avantage d’être personnalisables et sont particulièrement utiles lorsque les outils standardisés ne sont pas adaptés à vos besoins, mais leur développement nécessite un travail de préparation en amont. En outre, dans la mesure où il n’est pas possible d’anticiper tous les problèmes potentiels de qualité des données, les do-files personnalisés peuvent nécessiter des mises à jour périodiques.
- Les commandes développées par IPA pour effectuer des contrôles à haute fréquence. Ces commandes nécessitent également un investissement initial pour comprendre la fonction de chaque commande et comment l’utiliser.
- Les fonctions intégrées de SurveyCTO peuvent être utilisées pour automatiser de nombreux contrôles de qualité des données.
Quelle que soit la méthode de mise en œuvre choisie, il est préférable de préparer les procédures des contrôles à haute fréquence avant le déploiement des enquêteurs sur le terrain.
Chaque jour, l’assistant de recherche doit télécharger les nouvelles données, exécuter le code de contrôle sur celles-ci, marquer les problèmes éventuels et envoyer les réponses ainsi signalées au chercheur principal/chef de projet. Pour ce faire, il crée généralement une feuille de calcul contenant quelques informations de base sur le répondant (à savoir son identifiant unique, sa localisation, son numéro de téléphone et la réponse qui pose problème) pour permettre au personnel de terrain de le contacter pour vérifier sa réponse. Une fois que les équipes de terrain ont vérifié les données, un do-file peut être utilisé pour corriger les erreurs éventuelles (important : ne jamais modifier ou écraser directement les données brutes ! Les modifications doivent toujours être effectuées dans un do-file). Ce do-file pourra être mis à jour régulièrement pour intégrer les nouvelles modifications au fur et à mesure que vous effectuez des contrôles à haute fréquence sur les lots de données entrants.
L’assistant de recherche met à jour le code des contrôles à haute fréquence de façon régulière (c’est-à-dire chaque semaine ou chaque mois), en procédant à tous les ajustements nécessaires. Si vous apportez des changements à l’enquête, le code des contrôles à haute fréquence doit être modifié en conséquence (par exemple si vous ajoutez à la liste d’options proposées une réponse fréquemment donnée dans la catégorie « Autre - veuillez spécifier »). À mesure que les données seront collectées, vous serez peut-être en mesure d’effectuer des tests supplémentaires, en comparant par exemple les enquêteurs de deux districts différents, ou encore les réponses données à un même enquêteur dans différents districts. Il peut être utile de modifier le code pour inclure ces tests au fil du temps. Discutez avec vos chercheurs principaux de la fréquence à laquelle le code des contrôles à haute fréquence doit être modifié.
Back-checks
Un back-check, ou contre-vérification aléatoire, consiste à soumettre des répondants déjà interrogés à un nouvel entretien mené par un nouvel enquêteur en utilisant une version abrégée de l’enquête originale. Les réponses à cette enquête de contre-vérification sont alors comparées aux réponses initiales du répondant afin de détecter d’éventuelles divergences. Les back-checks sont utilisés à trois fins principales : i) responsabiliser les enquêteurs en vérifiant que les enquêtes ont bien lieu, ii) évaluer la qualité du travail des enquêteurs dans le cadre de l’enquête, et iii) évaluer la fiabilité de certaines mesures de l’enquête en voyant comment les réponses des personnes interrogées varient entre l’enquête principale et le back-check.
Les back-checks présentent toutefois une limite majeure, à savoir qu’il est parfois difficile de faire la distinction entre ces trois explications (voire d’autres explications potentielles) pour une divergence donnée.
Sélectionner les questions à inclure dans l’enquête de back-check :
Les variables à inclure se répartissent en trois catégories distinctes, définies ci-dessous. Pour chaque question (ou variable) incluse dans l’enquête, il vous faudra définir la fourchette de variation autorisée. Par exemple, vous pouvez considérer que la consommation peut varier de 10 % d’une enquête à l’autre, là où d’autres variables (par exemple, l’âge ou le sexe) ne sont pas censées varier au cours de la période couverte par votre enquête.
- Type 1 : Ces variables permettent de vérifier que les enquêteurs a) effectuent bien les entretiens et b) s’adressent au bon répondant. Les réponses à ces questions ne doivent jamais changer, quels que soient l’enquêteur, le lieu ou l’heure de l’entretien. Ce sont par exemple des questions portant sur le sexe, la structure du logement, l’âge (dans une fourchette donnée) et les événements passés (mariage ou fréquentation scolaire au cours de l’année écoulée, par exemple).
- Type 2 : Ces questions permettent d’évaluer dans quelle mesure les enquêteurs administrent correctement l’enquête. Il est peu probable que les réponses à ces questions changent, mais ce sont des questions que les enquêteurs pourraient être tentés de traiter à la va-vite. Il peut s’agir de questions difficiles à comprendre ou à poser du fait de leur complexité ou de leur caractère sensible, notamment les questions de catégorisation (où l’enquêteur doit identifier la catégorie correspondant à la réponse de l’enquêté), les questions comportant de nombreux exemples et les questions avec saut (en d’autres termes, les questions qui, si l’on y répond d’une certaine manière, permettent de raccourcir l’enquête).
- Type 3 : Ces variables permettent de vérifier la stabilité de vos mesures des variables de résultat principales. Elles doivent inclure les variables de résultats principales, les variables de stratification et toute autre variable essentielle à la compréhension de l’intervention. Celles-ci peuvent changer ou non au fil du temps. Parmi les variables à inclure, citons par exemple les revenus, la consommation, les quantités d’intrants ou de biens, la main-d’œuvre disponible, la taille des parcelles, le rendement des parcelles, etc.
Mise en œuvre des back-checks
Une fois que vous avez défini votre liste de questions de contre-vérification, préparez une enquête selon la procédure habituelle et demandez à votre équipe chargée des back-checks de l’administrer. Cette équipe ne doit pas être la même que celle qui a réalisé l’enquête d’origine : il vous faudra recruter et former du personnel supplémentaire. De ce fait, les enquêtes de back-check peuvent s’avérer très coûteuses. Une solution plus économique consiste à enregistrer les numéros de téléphone des répondants pour permettre aux enquêteurs de les appeler plutôt que de se rendre sur place.
Une fois les back-checks terminés, comparez les réponses de l’enquête d’origine avec celles des back-checks. Cette comparaison peut être effectuée au moyen d’un do-file personnalisé (voir le modèle de J-PAL) ou d’outils comme les commandes écrites par les utilisateurs d’IPA. Les réponses qui varient de manière significative entre les deux enquêtes (selon les modalités définies ci-dessus) doivent être signalées comme des erreurs. SurveyCTO propose des outils pour effectuer des back-checks dans l’onglet « Monitor ».
Selon les bonnes pratiques définies dans les Protocoles de recherche de J-PAL, les équipes de recherche doivent soumettre au moins 10 % des répondants à des enquêtes de back-check. Il convient de réinterroger au moins l’une des personnes interrogées par chaque enquêteur, et toute différence détectée doit être correctement documentée et résolue.
Utiliser les résultats des back-checks :
- Lorsque vous analysez les variables de type 1, examinez le taux d’erreur global. S’il est supérieur à 10 %, il s’agit d’un signal d’alarme indiquant la présence potentielle de problèmes systémiques au niveau du questionnaire ou de son administration, ou bien la fabrication de données par les enquêteurs. Veillez également à contrôler le taux d’erreur par enquêteur et par question. S’il s'agit d’une enquête à grande échelle, vous pouvez aussi envisager de contrôler les taux d’erreur par équipe et par site. Si vous repérez des erreurs, il vous faudra peut-être modifier les questions problématiques, former à nouveau les enquêteurs, voire licencier certains d’entre eux s’ils continuent de générer des taux d’erreur élevés après avoir suivi une nouvelle formation.
- L’analyse des variables de type 2 se fait de manière similaire à celle des variables de type 1. Examinez le taux d’erreur global ainsi que le taux d’erreur par enquêteur et par question problématiques. Si le taux d’erreur est supérieur à 10 % pour ces questions, il faut en discuter avec les responsables du projet. Si des erreurs sont détectées, les mesures préconisées consistent à former de nouveau les enquêteurs, à rencontrer les équipes d’enquêteurs pour revoir les protocoles d’enquête, et à modifier le questionnaire (avec l’autorisation explicite des chercheurs principaux).
- Pour analyser les variables de type 3, il faut examiner le taux d’erreur global par question et effectuer des contrôles de stabilité (par exemple un test de Student) sur ces variables pour voir s’il existe des différences statistiques entre les données d’origine et les données issues des back-checks. Si vous constatez un taux élevé d’erreurs de type 3, discutez-en avec votre chercheur principal.
Les contrôles inopinés
Dans le cadre d’un contrôle inopiné, le personnel de recherche vient observer comment les enquêteurs administrent les entretiens. Ces contrôles sont généralement effectués par des membres plus expérimentés de l’équipe de recherche, tels que le chef de projet, l’assistant de recherche, le coordinateur de terrain ou les enquêteurs seniors. Selon les bonnes pratiques définies dans les Protocoles de recherche de J-PAL, 15 % des enquêtes doivent être soumises à des contrôles inopinés. Une approche possible consiste à contrôler un pourcentage plus élevé d’entretiens au début de l’enquête de façon à repérer les erreurs le plus tôt possible, puis à réduire le pourcentage de contrôles inopinés au fil du temps (Robert, 2019).
Que doit-on vérifier dans le cadre d’un contrôle inopiné ?
Les objectifs de ces contrôles sont les suivants :
- Confirmer que les enquêtes ont bien lieu
- Observer la qualité des enquêtes et du travail des enquêteurs. Les points sur lesquels il faut se concentrer sont les suivants :
- Les participants ont-ils l’air de comprendre l’enquête ?
- Les enquêteurs ont-ils l’air de comprendre l’enquête ?
- L’enquête dure-t-elle trop longtemps ?
Mise en œuvre des contrôles inopinés
Planifiez vos contrôles inopinés de manière à ce qu’ils soient imprévisibles pour les enquêteurs (voire complètement aléatoires). Le but est de voir les enquêteurs administrer l’enquête comme ils le feraient s’ils n’étaient pas observés. Par conséquent, ces derniers ne doivent pas savoir à l’avance quelles enquêtes vont être observées. En arrivant sur le lieu de l’enquête, demandez aux enquêteurs si l’idée d’être observés les met mal à l’aise. Si c’est le cas, il convient de s’interroger sur les raisons de ce malaise (par exemple, craignent-ils d’être renvoyés pour mauvaise conduite de l’enquête ?).
Ensuite, tous les observateurs doivent être présentés au répondant :
- Ces présentations doivent être faites en des termes généraux et neutres pour ne pas susciter la nervosité du répondant face à cette attention accrue.
- La présence d’observateurs internationaux peut être particulièrement perturbante : il convient donc de réduire au minimum le nombre de contrôles inopinés auxquels participent des observateurs internationaux.
- De manière générale, lors des contrôles inopinés, il faut se méfier des effets Hawthorne. Pour minimiser ce risque, les enquêteurs doivent connaître le personnel de recherche qui effectue le contrôle inopiné.
- Au cours de l’entretien, les observateurs doivent remplir un formulaire de contrôle (voir un exemple de ce type de formulaire ici, ainsi que le modèle de formulaire d’IPA). Ces formulaires doivent inclure une évaluation de l’enquêteur, les éléments signalés auxquels il faut donner suite (par exemple, une question à reformuler, etc.), ainsi que toute remarque au sujet de l’entretien.
Les enquêteurs ne doivent pas avoir accès aux données de ces formulaires de contrôle.
Utiliser les résultats des contrôles inopinés :
Les données issues des contrôles inopinés peuvent être utilisées pour vérifier la présence d’effets enquêteurs : comme elles incluent une évaluation des performances de l’enquêteur, elles permettent de voir si les réponses diffèrent en fonction du classement de l’enquêteur. Il peut en outre s’avérer nécessaire de dispenser une nouvelle formation aux enquêteurs dont l’évaluation est systématiquement médiocre. Les contrôles inopinés permettent aussi aux équipes de recherche d’observer directement la façon dont les personnes interrogées répondent aux questions. Les questions qui provoquent la colère, la gêne ou la confusion des répondants doivent être retravaillées afin d’éviter ce type de situation.
Contrôles à haute fréquence pour les enquêtes à distance
Il est essentiel de veiller à ce que les formulaires de SurveyCTO soient programmés de manière à éliminer ou à minimiser les risques d’incohérences logiques, d’erreurs de saisie et de réponses ou de sections incomplètes. Pour programmer vos formulaires, vous pouvez vous référer au guide de SurveyCTO sur les enquêtes téléphoniques assistées par ordinateur (CATI). Configurez et testez le flux de données de SurveyCTO bien à l’avance, y compris les do-files d’importation et le code d’exécution des contrôles à haute fréquence. Vous pouvez consulter le code Stata d’IPA et le code R de J-PAL pour les contrôles à haute fréquence. Consultez également les utilitaires Stata pour travailler avec des données issues de SurveyCTO (pour plus d’informations sur la commande sctoapi, voir ici).
Pour les enquêtes CATI
En plus des vérifications standard effectuées dans le cadre des contrôles à haute fréquence, voici quelques points dont il faut tenir compte pour les enquêtes CATI :
Productivité :
- Surveillez de près les taux relatifs à l’état des appels dès le premier jour de l’enquête :
- Combien de tentatives d’appel sont-elles nécessaires pour joindre un répondant ?
- Comment les taux relatifs à l’état des appels varient-ils selon l’heure et le jour de la semaine ?
- Comment la disponibilité des répondants varie-t-elle selon l’heure et le jour de la semaine ?
- À quels moments les répondants sont-ils les plus disponibles en moyenne ?
- Combien d’appels aboutis faut-il en moyenne pour mener à bien une enquête ?
- Combien de fois les appels sont-ils interrompus ou déconnectés, en moyenne, au cours d’une même enquête ?
- Contrôlez le taux de refus à différents moments de la journée (et différents jours de la semaine).
- Pour tous les éléments ci-dessus, vérifiez également la façon dont les taux/réponses varient d’un enquêteur à l’autre et d’un bras expérimental à l’autre.
- Relevez le nombre de numéros de téléphone incorrects au sein de votre échantillon.
- Vérifiez l’identité du répondant réellement interrogé par rapport à celle du participant qui était censé être interrogé à partir de critères comme le nom, le sexe, le lien de parenté avec le chef de famille, etc.
- Toutes les informations ci-dessus doivent contribuer directement à la révision de votre stratégie d’enquête (voir les bonnes pratiques en matière d’enquêtes téléphoniques), de vos hypothèses en matière de productivité et de votre budget.
Suivi en direct des données entrantes :
Vous pouvez utiliser le Data Explorer de SurveyCTO pour contrôler rapidement les données entrantes. Pour les formulaires chiffrés, il est possible soit de visualiser uniquement les variables marquées comme publiables, soit de visualiser toutes les variables en autorisant temporairement le navigateur web à utiliser votre clé de chiffrement privée. Avec SurveyCTO 2.70, vous pouvez donner accès aux données des formulaires en consultation seule à des utilisateurs externes qui ne sont pas enregistrés sur votre compte SurveyCTO ni sur votre serveur. Cette fonctionnalité peut être utile pour partager les données avec les partenaires de l’étude (si c’est requis dans le cadre d’un accord ou d’un contrat) ou avec les membres de l’équipe de terrain en vue du suivi lorsqu’il n’existe pas d’autre moyen de transférer les données de manière sécurisée.
Back-checks pour les enquêtes à distance
Le taux d’aboutissement des appels, ainsi que la disponibilité et la lassitude des répondants, peuvent représenter des défis majeurs pour la mise en œuvre efficace d’une enquête de back-check dans le cadre d’une enquête CATI. Il est recommandé de fixer l’objectif en matière de back-check à un niveau bien supérieur aux 10 à 15 % de l’échantillon généralement retenus pour les enquêtes en face à face.
- Veillez à ce que tous les enquêteurs fassent l’objet d’un back-check, et incluez également une fraction des répondants ayant dû être exclus de l’échantillon (personnes injoignables, numéros erronés, etc.).
- Pour faciliter le déroulement des back-checks, on peut charger quelqu’un d’écouter les enregistrements audio des appels, s’il y en a.
- En l’absence d’enregistrements audio, mettez en œuvre une enquête de back-check comme vous le feriez normalement et veillez tout particulièrement à déterminer si le bon répondant a été interrogé dans l’enquête d’origine. Pensez à préparer en amont le code pour la comparaison des données issues des back-checks.
- Le journal des appels est un bon moyen de vérifier que les enquêteurs ont bien appelé les bons numéros de téléphone, mais aussi de contrôler le nombre de tentatives d’appel et la durée des appels.
- Avec SurveyCTO, utilisez les premières versions d’Android Collect 2.70.2+ pour enregistrer les journaux d’appels grâce à la fonction phone-call-log(). Pour plus de détails, consultez les notes de mise à jour.
- Avec Exotel, les comptes rendus d’appels peuvent être exportés depuis la plateforme en ligne. Notez toutefois qu’il peut être difficile de fusionner ces comptes-rendus avec les données de SurveyCTO, car les numéros de téléphone sont les seuls identifiants en commun et qu’il peut y avoir plusieurs occurrences pour chaque numéro de téléphone. Cependant, le tableau de bord en ligne comme les comptes rendus sont extrêmement utiles pour vérifier que les bons numéros ont bien été appelés et pour connaître la durée des appels, avant même d’examiner les données de l’enquête.
Les contrôles inopinés dans le cadre des enquêtes à distance :
Les contrôles inopinés (ou accompagnements), pratique courante dans le cadre des enquêtes en face à face, ont pour but de contrôler la qualité du travail d’enquête réalisé sur le terrain. Un membre expérimenté du personnel accompagne l’enquêteur et observe le déroulement de l’enquête du début à la fin, y compris la procédure de recueil du consentement. Il est d’usage que l’observateur remplisse lui-même un formulaire d’enquête au cours de l’entretien. Ces accompagnements peuvent être utilisés pour contrôler :
- La procédure de recueil du consentement
- L’énonciation des textes et des questions qui font partie de l’instrument
- Le comportement de l’enquêteur au cours de l’enquête
Pendant la phase de pilotage de l’instrument ou les premiers jours de la collecte des données, les contrôles inopinés peuvent également fournir des informations sur l’instrument lui-même, en vous permettant de détecter les problèmes potentiels au niveau des questions, des options de réponse, des traductions et des instructions destinées aux enquêteurs. Pour les enquêtes en face à face, il est recommandé de soumettre au moins 15 % de toutes les enquêtes, tous enquêteurs confondus, à un contrôle inopiné. Dans le cas des enquêtes par téléphone, ce pourcentage peut être plus élevé car les contrôles sont peu coûteux.
Pour les enquêtes CATI :
L’accompagnement des enquêtes par téléphone peut se faire par conférence téléphonique (ou dans le cadre d’un appel à trois personnes). L’enquêteur établit d’abord la communication avec la personne chargée d’écouter l’appel, puis il invite le répondant à rejoindre l’appel. On peut également avoir recours à cette méthode si l’on utilise une application d’appel comme Exotel. Dans ce cas, l’enquêteur se met d’abord en communication avec la personne qui va écouter l’appel, puis suit la procédure d’Exotel pour inviter l’appel Exotel entrant à rejoindre la conférence téléphonique.
Remarque : Si vous prévoyez de faire écouter les appels par une personne extérieure à des fins de contrôle, vous devez obtenir l’autorisation d’un IRB. Cette information doit par ailleurs être mentionnée dans le cadre de la procédure de recueil du consentement des répondants.
Considérations supplémentaires :
- Générez des assignations à l’accompagnement, pour vous assurer que tous les enquêteurs bénéficient d’un accompagnement sur un pourcentage donné de leurs enquêtes.
- Mettez au point un protocole pour la mise en œuvre des accompagnements téléphoniques et fournissez des instructions détaillées aux enquêteurs. Il peut être judicieux pour les enquêteurs et leur accompagnateur de se concerter au préalable par SMS ou WhatsApp pour fixer la date et l’heure de l’appel.
- Créez un formulaire pour recueillir les observations faites au cours de l’accompagnement.
- Incluez des questions complémentaires pour recueillir les commentaires de l’accompagnateur, comme par exemple: Le texte de consentement a-t-il été lu clairement ? Comment avez-vous trouvé le rythme de l’enquête ? Les questions ont-elles été lues clairement ? L’enquêteur a-t-il respecté toutes les instructions ? etc.
- Organisez chaque jour des réunions de débriefing avec l’équipe chargée de l’accompagnement afin de recueillir leurs commentaires.
- Établissez un calendrier pour la vérification des données issues des accompagnements et faites un retour aux enquêteurs sur la base de ces données, ou planifiez une formation de remise à niveau, dès que possible.
- Mettez en place un protocole pour remédier aux erreurs ou aux fautes relevées lors des accompagnements. Rappelez-vous que les données brutes de l’enquête ne doivent en aucun cas être modifiées.
- Le personnel peut encourir des frais d’appel ou d’envoi de messages, et une procédure de remboursement doit donc être mise en place pour couvrir ces frais.
Considérations spécifiques aux enquêtes à distance : contrôles audio et enregistrement des appels
Contrôles audio :
SurveyCTO dispose d’une fonction de contrôle audio (audio audit) qui permet la capture de la totalité ou d’une partie de l’entretien par le biais d’un enregistrement audio. Cependant, l’utilisation de cette fonction dans le cadre d’appels téléphoniques soulève un certain nombre de difficultés. En effet, toutes les versions d’Android ne permettent pas de réaliser un enregistrement lorsqu’un appel téléphonique est en cours.
SurveyCTO remarque dans son guide sur le kit de démarrage CATI :
Selon la version d’Android installée sur votre appareil, les contrôles audio peuvent enregistrer a.) les deux côtés de la conversation, b.) uniquement l’enquêteur, ou c.) aucun des deux. En bref, les versions 4 à 7 d’Android permettent d’enregistrer les deux côtés de la conversation, et la version 8 d’Android peut également donner de bons résultats.
La version préliminaire de SurveyCTO Collect apporte quelques améliorations aux fonctionnalités d’enregistrement des appels pour les versions d’Android qui le permettent. Les notes de mise à jour de cette version sont disponibles ici, et des documents de référence supplémentaires sont disponibles ici.
Enregistrement des appels
Si vous utilisez une application d’appel tierce comme Exotel, les appels peuvent être enregistrés. Si l’enregistrement est activé par défaut dans la version web d’Exotel, il peut être activé ou désactivé lorsqu’on utilise le plug-in de terrain d’Exotel pour SurveyCTO.
Remarque : Si vous prévoyez d’enregistrer des appels téléphoniques (ou d’activer les contrôles audio pour enregistrer les deux côtés d’une conversation), vous devez obtenir l’approbation de l’IRB. Ces informations doivent également être communiquées au répondant lors de la procédure de consentement.
- Les fichiers multimédias des contrôles audio peuvent être volumineux et sont donc longs à charger et à télécharger. Dans les contextes où la connexion Internet est particulièrement mauvaise, vous pouvez télécharger les données sans pièces jointes à l’aide de SurveyCTO Desktop en activant l’option « Ignorer les pièces jointes » dans les options d’exportation des données (puis télécharger les données avec les pièces jointes ultérieurement lorsque vous aurez une meilleure connexion).
- Constituez une équipe chargée d’écouter les enregistrements audio, et formez-la à cette pratique. Les auditeurs/transcripteurs peuvent remplir un formulaire d’enquête tout en écoutant l’enregistrement audio, et/ou prendre des notes selon un format prédéfini (idéalement intégré au formulaire lui-même).
- La transcription des enregistrements audio peut être une tâche difficile : définissez dans quels cas vous voulez que l’enquête soit saisie dans son intégralité, et dans quels cas vous voulez simplement que quelqu’un contrôle les enregistrements en notant ses observations.
- Mettez en place une procédure pour l’attribution et le transfert sécurisé des enregistrements audio aux auditeurs/transcripteurs. Notez que Veracrypt n’a pas d’application Android ou iOS. Une solution possible consiste à créer un compte Google commun à l’équipe et à héberger les enregistrements sur le Drive dans des dossiers compressés et chiffrés (WinZip et RAR fonctionnent avec Android).
- Les enregistrements audio peuvent fonctionner comme des accompagnements, quoique réalisés a posteriori. Les démarches et les protocoles utilisés pour les accompagnements s’appliquent également ici (la proportion d’enquêtes à contrôler, qui contrôler, quelles mesures prendre suite aux observations, etc.).
- Les enregistrements audio peuvent également remplacer les back-checks pour les répondants qui ont pu être contactés. Assurez-vous que votre équipe a la capacité d’écouter les enregistrements audio et de soumettre ses observations/données peu de temps après la fin de l’entretien.
Supervision quotidienne
Il est essentiel d’interagir régulièrement avec les enquêteurs pour suivre leurs progrès et les aider à résoudre les problèmes qu’ils pourraient rencontrer.
- Chaque superviseur doit se voir confier une équipe d’enquêteurs de taille raisonnable.
- Des sessions quotidiennes de débriefing doivent être organisées avec les enquêteurs afin de recueillir leurs commentaires sur les activités de la journée, les difficultés rencontrées et l’état d’avancement de leur travail.
- Ces comptes rendus doivent ensuite être transmis à tous les niveaux de l’équipe.
- Les superviseurs doivent également contacter les enquêteurs de manière aléatoire pour faire le point au cours de la journée.
- Les enquêteurs doivent quant à eux être encouragés à contacter leur superviseur (ou d’autres personnes) s’ils ont des questions à poser. Les SMS ou WhatsApp peuvent également être utilisés à cette fin.
- Les rapports de suivi des répondants doivent être collectés chaque jour auprès des enquêteurs et comparés aux données de l’enquête et aux journaux d’appels. Il est recommandé de rédiger le code nécessaire pour effectuer ces vérifications bien à l’avance, ou d’inclure cette section dans les contrôles à haute fréquence.
- Ces rapports peuvent être collectés par le biais d’une plateforme de messagerie (SMS, WhatsApp) ou dans le cadre de la séance quotidienne de débriefing. Les enquêteurs peuvent également envoyer des photos de leurs rapports manuscrits à leurs superviseurs (en utilisant les identifiants, aucune information d’identification personnelle) si cette méthode leur convient davantage.
- Créez un formulaire de suivi (sur SurveyCTO ou dans une feuille de calcul protégée par mot de passe) pour que les superviseurs et les responsables de terrain puissent y compiler ces rapports.
- Les performances des enquêteurs doivent être contrôlées dès le premier jour de l’enquête, et il est essentiel de leur faire chaque jour des retours sur leur travail. Il peut également arriver que certains enquêteurs aient besoin d’une formation complémentaire, et il est préférable d’identifier ce type de besoins le plus tôt possible.
Dernière mise à jour en mars 2021.
Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l'ajout de nouveaux contenus, veuillez remplir ce formulaire.
Nous remercions Maya Duru et Jack Cavanagh pour leurs précieux commentaires. Ce document a été traduit de l’anglais par Marion Beaujard. Toute erreur est de notre fait.
Additional Resources
IPA User-written command: bcstats
IPA User-written command: ipacheck
J-PAL HFC exercises (J-PAL internal resource)
J-PAL Template Back-check do-file (J-PAL internal resource)
J-PAL Template HFC do-file and R script (J-PAL internal resource)
J-PAL Data validation lecture, based on slides originally created by IPA (J-PAL internal resource)
J-PAL Template monitoring form (J-PAL internal resource)
J-PAL South Asia's SurveyCTO-Exotel plugin
J-PAL South Asia's Quality assurance best practices for CATI
J-PAL South Asia's Transitioning to CATI checklist
SurveyCTO's Android release notes
SurveyCTO's Audio audit guide
SurveyCTO's CATI starter kit
SurveyCTO's Guide to using its data explorer tool
SurveyCTO: Survey design for data quality
References
Finn, Arden and Vimal Ranchhod. 2017. "Genuine Fakes: The Prevalence and Implications of Data Fabrication in a Large South African Survey.” World Bank Economic Review, 31, 1: 129-157. https://doi.org/10.1093/wber/lhv054
Iwig, William, Berning, Michael, Marck, Paul, Mark Prell. 2013 “Data Quality Assessment Tool for Administrative Data” Federal Committee on Statistical Methodology Working Paper 46
Morse, Ben. « High-Frequency Checks and back-checks », Conférence donnée dans le cadre de la formation 2019 pour le personnel de recherche de J-PAL Amérique du Nord.
Robert, Christoper. « Collecting High Quality Data - Accurate Data » Conférence donnée dans le cadre du semestre 2T 2019 de la formation 102x de J-PAL sur la conception et la mise en œuvre d'une évaluation aléatoire, Massachusetts, Cambridge.
Daniels, Benjamin, and Alexander Spevack. "Manage Successful Impact Evaluations." Conférence, Field Coordinator Workshop, Washington D.C., 22 juin 2018.