Research Resources

Désidentification des données

Summary

Les chercheurs qui prévoient de publier des données sur des sujets humains doivent prendre des mesures strictes pour protéger la confidentialité des participants à l’étude en procédant à la désidentification des données, un processus qui réduit le risque de ré-identification des individus au sein d’un ensemble de données spécifique. Ce guide explique ce processus de manière détaillée en présentant les procédures classiques de désidentification d’un jeu de données, et fournit une liste des éléments d’identification courants à examiner ainsi qu’un exemple de code permettant de désidentifier des données en vue de leur publication.

Points clés

  • Il est important d’envisager la désidentification comme un processus permettant de réduire le risque d’identification des individus, et non d’éliminer complètement la possibilité d’une ré-identification.
  • Pour protéger les sujets humains, la désidentification doit intervenir le plus tôt possible dans le processus de recherche. Cela signifie que les données doivent être désidentifiées dès que toutes les étapes de la collecte de données qui nécessitent de retrouver les répondants, comme les back-checks, sont terminées.
  • Les données doivent toujours être désidentifiées avant d’être publiées. Cette condition s’applique à tous les projets menés ou financés par J-PAL. Il s’agit aussi d’une exigence généralement imposée par les protocoles des Institutional Review Boards, ainsi que d’une obligation légale dans de nombreux pays.
  • Lorsque les données sont débarrassées de toute information sensible, cela limite les possibilités d’analyse, ce qui crée un conflit entre la désidentification et l’utilité des données. Chaque cas est différent, et le processus de désidentification nécessite donc de faire preuve d’une réflexion approfondie et de beaucoup de discernement.
    • Par exemple, bien que des données sur les admissions à l’hôpital puissent être importantes pour l’analyse, elles peuvent permettre d’identifier des individus. Pour préserver à la fois l’utilité de ces données et la vie privée des individus, on peut alors créer une variable correspondant au nombre de jours écoulés entre l’admission à l’hôpital et le traitement, et l’utiliser pour la publication.
    • Dans les cas où la ré-identification risque de porter atteinte à la vie privée des sujets ou de leur nuire, tous les éléments d’identification indirecte qui ne sont pas utilisés dans l’analyse doivent être supprimés ou masqués.
  • Il est quasiment impossible d’éliminer complètement la possibilité d’une ré-identification. Avant de publier des données d’enquête, le chercheur (en collaboration avec un IRB, le cas échéant) doit évaluer les risques en matière de ré-identification, c’est-à-dire à la fois la probabilité d’une ré-identification et les conséquences potentielles pour le sujet s’il est identifié. Les alternatives à la publication des données sont notamment les entrepôts à accès restreint et les procédures d’autorisation officielle de réutilisation.

 

Ce guide contient des détails supplémentaires, des lignes directrices concrètes et un exemple de code pouvant être utilisé pour désidentifier les données destinées à la publication.

Pourquoi désidentifier ?

Les chercheurs qui prévoient de publier leurs données sont généralement tenus de protéger la vie privée des participants de l’étude. Cette obligation est conforme aux normes éthiques et aux protocoles des IRB et constitue souvent une exigence légale : de nombreux pays reconnaissent le respect de la vie privée comme un droit de l’homme universel et ont adopté des directives limitant la publication de données à caractère personnel. Par exemple, aux États-Unis, des restrictions comme la Règle de confidentialité de la loi américaine HIPAA (Health Insurance Portability and Accountability Act) de 1996 et la loi FERPA (Family and Educational Records Privacy Act) s’appliquent à la recherche utilisant des données individuelles dans les domaines de la santé et de l’éducation, respectivement. Cependant, ces exigences ne s’appliquent pas si les données ont été suffisamment désidentifiées pour qu’il n'y ait « aucune raison valable de penser que les informations peuvent être utilisées pour identifier un individu » (US DHHS 2012). Depuis mai 2018, le Règlement général sur la protection des données (RGPD) de l’UE a fixé des directives plus strictes d’anonymat total, en précisant toutefois que ce principe ne s’applique pas aux données « ne concernant pas une personne physique identifiée ou identifiable, ni aux données à caractère personnel rendues anonymes de telle manière que la personne concernée ne soit pas ou plus identifiable » (RGPD UE Considérant 26).

L’identification des participants d’une étude peut avoir un certain nombre de conséquences néfastes. On peut notamment citer l’usurpation d’identité, les répercussions politiques ou juridiques, l’embarras ou la stigmatisation sociale (par exemple dans le cas des MST), la perte de certaines prestations (la divulgation des antécédents médicaux peut par exemple affecter l’accès à l’assurance), et les répercussions personnelles ou familiales (par exemple dans le cas des antécédents sexuels). Il y a toutefois un arbitrage à opérer entre la désidentification des données et leur utilité. Les données complètement anonymes ne permettent généralement pas d’effectuer des analyses sérieuses, et les chercheurs doivent donc mettre en balance la protection de la vie privée des sujets et les possibilités d’exploitation des données les concernant. La publication de données pouvant être utilisées pour effectuer des analyses secondaires favorise la réalisation de nouvelles recherches et contribue à réduire le coût d’entrée, en particulier pour les jeunes chercheurs.

Même lorsque les données sont désidentifiées, il y a toujours un risque que les sujets puissent être identifiés. Le risque de ré-identification est particulièrement élevé dans le cas de caractéristiques « exceptionnelles », comme une personne ayant perdu la vue, ou lorsque les données sont tellement détaillées que presque toutes les observations en deviennent uniques (par exemple, la combinaison de la couleur des cheveux, de la couleur des yeux, de la taille exacte, de l’âge, etc. peut permettre d’identifier une personne même au sein d’un large groupe). Compte tenu du niveau d’exigences élevé et des compromis que représentent les données véritablement anonymes, il est important d’envisager la désidentification comme un processus permettant de réduire le risque d’identification des individus, et non d’éliminer complètement cette possibilité.

Avant de publier des données de recherche, le chercheur (en collaboration avec un IRB, le cas échéant) doit évaluer les risques de ré-identification sur la base du degré d’identifiabilité des données et du risque de préjudice pour les sujets. L’identifiabilité désigne la probabilité qu’un participant individuel figurant dans l’ensemble de données de l’étude puisse être identifié en consultant les données. La notion de préjudice désigne les conséquences que subirait le sujet humain si les données étaient divulguées. Le risque de préjudice varie selon le contexte. Par exemple, la divulgation de données sur la bière préférée des participants ne causerait probablement qu’un préjudice négligeable aux États-Unis. En revanche, dans un pays où l’alcool est interdit, le préjudice potentiel lié à la divulgation de ces données apparemment inoffensives serait considérablement plus élevé.

C’est ce lien entre identifiabilité et préjudice qui crée le cadre de référence qui permettra d’évaluer où et comment publier les données concernées. Certaines données ne peuvent être mises à disposition que par le biais d’entrepôts de données plus sécurisés, décrits plus en détail dans la ressource sur la Publication des données, car le risque pour les participants à l’étude est trop important pour que ces données soient mises à la disposition du public. Les alternatives à la publication des données sont notamment les entrepôts à accès restreint et les procédures d’autorisation officielle de réutilisation.

À propos des informations d'identification personnelle

Les informations d’identification personnelle sont des informations qui contiennent des éléments d’identification propres aux individus. Il peut s’agir d’éléments d’identification directe (comme le nom, le numéro de sécurité sociale, le numéro d’identification à la naissance, le numéro national d’identification, etc.) ou d’éléments d’identification indirecte (tels que la date/le mois/l’année de naissance, la municipalité/la ville, le sexe, etc.). Pris individuellement, les éléments d’identification indirecte ne sont pas spécifiques à l’individu concerné, mais leur combinaison permet de créer un profil unique. Les directives américaines de la loi HIPAA classent 18 variables comme éléments d’identification directe. Cette liste n’est cependant pas exhaustive, en particulier en ce qui concerne les données collectées en dehors des États-Unis. Les chercheurs doivent tenir compte du type de données qu’ils collectent, du degré d’identifiabilité de certaines variables et du cadre juridique qui s’applique à leurs données.

Le Tableau 3 à la fin de ce guide répertorie quelques-uns des éléments d’identification directe et indirecte les plus courants et recommande la méthode la plus adaptée pour les désidentifier

Protection continue des données

Il est recommandé de planifier dès le début du projet la quantité de données que vous prévoyez de désidentifier à chaque étape. Ce processus de protection doit inclure, au minimum, les mesures répertoriées dans le Tableau 1 ci-dessous :

Table  1

Étape du cycle de vie du projet

Mesures de protection des données


Pendant la préparation de votre dossier pour l’IRB et de vos formulaires de consentement éclairé
  • Décrivez la façon dont les données vont être désidentifiées.
  • Les formulaires de consentement éclairé doivent mentionner dans quelle mesure la confidentialité des données d’identification du sujet sera préservée, le cas échéant.

Pendant la collecte des données
  • Les éléments d’identification directe doivent être supprimés ou masqués dès que les back-checks et autres contrôles de la qualité des données nécessitant de réinterroger les participants sont terminés.
  • Les données qui contiennent des informations d’identification personnelle doivent être chiffrées.
  • Si les participants à l’étude doivent être réinterrogés lors de vagues d’enquête ultérieures, assurez-vous de conserver les données identifiées (de manière sécurisée) afin de pouvoir les retrouver. L’IRB peut également exiger que vous conserviez la liste des personnes interrogées en cas d’audit ou d’événement indésirable.

Avant le nettoyage des données
  • Décidez comment vous allez traiter les éléments d’identification indirecte, en tenant compte de la manière dont ils peuvent être combinés pour identifier des individus.
  • N’oubliez pas de vérifier la présence de valeurs exceptionnelles qui peuvent également permettre d’identifier les individus concernés.
  • Documentez toutes les étapes du processus de désidentification, car la modification des données peut affecter les résultats de l’inférence et les régressions. En règle générale, ces étapes doivent être réversibles, sauf dans le cas de données extrêmement sensibles où les informations d’identification personnelle doivent être détruites (par exemple si les sujets s’auto-incriminent en répondant aux questions de l’enquête).

Avant la publication des données
  • Effectuez une dernière vérification pour vous assurer que les répondants ne peuvent raisonnablement pas être réidentifiés à partir des fichiers de données destinés à la publication.
  • Si vous publiez vos données aux seules fins de réplication, cette vérification finale peut consister à supprimer (pour la version publiée) toutes les variables qui ne sont pas nécessaires à la réplication.
  • Même si vous publiez vos données pour qu’elles puissent servir à d’autres analyses, le fait de supprimer les variables qui ont peu de chances d’être utilisées à des fins d’analyse ou qui représentent un risque élevé de réidentification contribue à garantir le respect de la vie privée.
  • Il est généralement recommandé de réexécuter l’analyse sur les données destinées à être publiées.

 

Désidentifier les données en vue de leur publication

Étape 1 : Identifier toutes les variables qui contiennent des informations d’identification personnelle

Effectuez une vérification manuelle en recherchant toutes les variables qui sont susceptibles de contenir des informations d’identification personnelle, y compris les variables de type chaîne de caractères, les variables numériques et les chaînes de caractères encodées sous forme de variables numériques. Bien que les outils automatisés comme l’outil de recherche d’informations personnelles de J-PAL ou le logiciel sdcMicro11 de l’International Household Survey Network (IHSN) permettent de repérer rapidement les variables ou les libellés qui contiennent fréquemment des informations nominatives, il est important de procéder par ailleurs à une vérification manuelle pour trouver les variables et les libellés qui risquent d’échapper à ces outils, notamment ceux dont le nom est peu courant.

Étape 2 : Encoder, masquer ou supprimer les éléments d’identification directe

Une liste des éléments d’identification directe et indirecte figure dans le Tableau 3 à la fin de ce guide. Les éléments d’identification directe doivent être cachés aux utilisateurs non autorisés. Pour ce faire, il existe trois options principales : encoder les valeurs à l’aide d’identifiants ou de codes aléatoires, masquer les libellés ou les valeurs, ou supprimer complètement les variables. L’encodage des valeurs a l’avantage de préserver la structure des données, et c’est donc la pratique recommandée. En revanche, le masquage et la suppression rendent la variable inutilisable dans le cadre de l’analyse. Le Tableau 2 illustre ces trois techniques 

Table  2
Données d’origine Valeurs masquées Valeurs remplacées par des codes
Variables supprimées : la ville et l’état n’apparaîtraient pas
Ville État Ville État Ville État
Somerville MA XXXX XXXX 11 1
Cambridge MA XXXX XXXX 12 1
Boston MA XXXX XXXX 13 1
Concord NH XXXX XXXX 21 2
Nashua NH XXXX XXXX 22 2

 

Encoder les éléments d’identification directe

Encoder les données identifiantes au moyen de numéros d’identification anonymes permet de préserver les liens entre les points de données et les informations relatives à l’unité d’observation. C’est donc la pratique recommandée pour traiter les éléments d’identification. Par exemple, tous les districts de la province 1 (numérotée de manière aléatoire) pourraient se voir attribuer le préfixe « 1 » (par exemple, district 11, district 12, district 13, etc.). On pourrait alors appliquer le préfixe « 11 » à tous les villages du district 11 (par exemple, village 1101, village 1102, etc.). Les numéros d’identification doivent être attribués de manière aléatoire et ne doivent pas être liés à un ordre de tri établi (comme l’ordre alphabétique), ni à une variable d’identification préexistante provenant d’une autre base de données, sans quoi la variable encodée est potentiellement décodable.

Notez également que le format des numéros d’identification doit être choisi avec soin et comporter un nombre de chiffres fixe afin d’éviter toute confusion. Par exemple, si le district 11 situé dans la province 1 et le district 1 situé dans la province 11 se voient tous deux attribuer le numéro 111 (au lieu de 0111 et 1101, respectivement), il sera impossible de les distinguer. Pour pouvoir utiliser des zéros non significatifs, la variable doit être formatée comme chaîne de caractères. Si la variable codée ne contient aucune information pertinente permettant de la relier aux points de données ou à l’unité d’observation (comme le nom des individus), l’encodage a le même effet que la suppression de la variable.

Suppression ou partition

La suppression ou la partition des éléments d’identification consiste à séparer les données identifiées des données désidentifiées, les éléments d’identification étant remplacés par des identifiants non identifiants au sein des données désidentifiées. Dans la mesure où ce processus ne préserve pas la structure des données, il ne doit être appliqué qu’aux données directement identifiantes qui ne contribuent pas à la compréhension des données, telles que le nom des individus.

Vous trouverez plus bas un exemple de code Stata permettant de partitionner les éléments d’identification directe. Le code génère des identifiants aléatoires et divise les données en trois parties : (1) les données d’origine, (2) les données désidentifiées, (3) les données contenant l’identifiant aléatoire qui permet de faire le lien entre les données d’origine et les données désidentifiées. Suite à ce processus de désidentification, le jeu de données originales contenant les informations d’identification personnelle doit être stocké dans un entrepôt ou un dossier sécurisé et chiffré, et seules les données désidentifiées peuvent être publiées ou partagées avec des utilisateurs qui ne font pas partie de l’IRB du projet ou qui n’ont pas signé d’accord d’utilisation des données.

/* Step 1: Determine variables that define an identified observation */
global Obsvarlist "District Address”

/*  Step 2: Create a cross-walk file "IDLink.dta" with direct identifiers 
and a new random ID number: */
preserve 
/* keep only the ID variables: */
keep $ObsVarlist
/* keep only one instance of each observation: */
bysort $ObsVarlist: keep if _n == 1
/* generate new IDs, ensuring the ID is randomly sorted, rather than 
created based on sort order (e.g., in ascending order) */
egen ID_obs = rank(runiform()), unique 
label var ID_obs "Unique observation ID"
/* Save and replace the file. It needs to be protected just like the original data */
save IDlink_obs.dta, replace 
restore

/* Step 3: merge the new IDlink file with the raw data file: */
merge m:1 $ObsVarlist using IDlink_obs.dta, nogen assert(3)
/* note: m:1 is needed because we kept only one instance of each observation */

/* Step 4: Drop all the direct identifiers from the raw data and save de-identified data */
drop $ObsVarlist
/* order the variables in your dataset so IDs are first and label them: */
order ID_obs 
/* save de-identified file. This file does not need to be encrypted */
save DataAnon.dta 
 

Étape 3 : Décider comment traiter les éléments d’identification indirecte

Lorsqu’on procède à la désidentification d’un ensemble de données, il est important de garder à l’esprit que des combinaisons de variables peuvent également être utilisées pour identifier un participant à l’étude. Par exemple, aux États-Unis, la date de naissance, le code postal et l’identité de genre d’un individu ne permettent pas d’identifier ce dernier s’ils sont pris séparément ; cependant, si vous avez accès à ces trois variables, vous avez 87 % de chances de pouvoir identifier la personne en question (Sweeney 2000). Dans une étude utilisant des données désidentifiées provenant de Netflix, les chercheurs ont réussi à ré-identifier les utilisateurs avec un taux de réussite de 68 % en ne connaissant que deux films que l’utilisateur avait évalués, la nature de l’évaluation en question et sa date (+/- 3 jours) (Ohm 2010). Dans les cas où la ré-identification risque de porter atteinte à la vie privée des sujets ou de leur nuire, tous les éléments d’identification indirecte qui ne sont pas utilisés dans l’analyse finale doivent être supprimés ou masqués. Le conflit évoqué plus haut entre respect de la vie privée et utilité des données est particulièrement prégnant dans le cas des données d’identification indirecte, en particulier les variables géographiques. Bien que le fait de remplacer les données identifiantes par des codes, comme décrit ci-dessus, soit un moyen efficace de les désidentifier, cette approche supprime des informations potentiellement utiles, comme les données géocodées ou le nom de l’employeur. Or, il peut être utile de conserver ces informations afin de pouvoir les apparier avec des sources externes, comme les données pluviométriques ou le chiffre d’affaires des entreprises. Pour ce type d’éléments d’identification, il est donc important de réfléchir à d’autres manières de désidentifier les données de façon à limiter les risques encourus par les personnes concernées tout en préservant la possibilité d’utiliser les données. J-PAL recommande deux approches : l’agrégation et le masquage géographique.

Agrégation

Dans le cas de l’agrégation, les variables qui contiennent des informations d’identification personnelle sont synthétisées et remplacées par des statistiques agrégées ou descriptives. On peut par exemple regrouper les dates de naissance (en ne conservant que le mois, le trimestre ou l’année de naissance), les emplacements géographiques (en agrégeant les coordonnées GPS au niveau du village ou du comté) ou les employeurs (en utilisant le code du secteur d’activité ou la taille de l’entreprise). Une approche connexe consiste à fixer une limite supérieure ou inférieure pour les variables, ce qui est particulièrement utile dans le cas des valeurs aberrantes. Par exemple, toutes les personnes dont le revenu annuel est supérieur à 250 000 $ peuvent être regroupées au sein d’une même catégorie de revenu « supérieur à 250 000 $ ». Si l’agrégation limite le risque de réidentification, la variable agrégée est généralement moins utile à l’analyse.

Pour savoir quand avoir recours à l’agrégation ou à l’établissement d’une limite supérieure, il est nécessaire d’avoir une bonne connaissance du contexte local. Demandez-vous dans quelle mesure les observations aberrantes sont inhabituelles dans le contexte concerné, et si l’identité des personnes interrogées dans un quartier ou un village donné est généralement connue de tous. Par exemple, s’il y a dans votre ensemble de données une personne dont le revenu est particulièrement élevé ou faible par rapport à celui des autres répondants, vous pouvez avoir l’impression qu’il s’agit d’une observation aberrante. Cependant, si cette personne vit dans un village où beaucoup d’individus (non enquêtés) ont le même niveau de revenu et que les autres habitants du village ignorent qui a été interrogé, il est possible qu’elle ne soit pas identifiable.

Masquage géographique (jittering)

Préserver les informations est particulièrement important dans le cas des données géographiques, car les chercheurs ont parfois besoin d’apparier les données d’enquête avec, par exemple, des données sur la pluviométrie ou les températures provenant de sources tierces. La principale méthode utilisée pour désidentifier les données spatiales est le masquage géographique (également connu sous le nom de jittering ou de déplacement), qui consiste à décaler les points de manière systématiquement aléatoire afin de réduire la probabilité de réidentification. Par exemple, dans les Enquêtes Démographiques et de Santé (EDS) de l’USAID, les données provenant d’une même zone de dénombrement sont agrégées pour obtenir un seul point de coordonnées. Dans le cas des grappes en milieu urbain, les coordonnées agrégées sont ensuite déplacées dans un rayon pouvant aller jusqu’à 2 km dans n’importe quelle direction. Pour les grappes en milieu rural, les coordonnées agrégées sont déplacées dans un rayon allant jusqu’à 5 km, et 1 % de grappes supplémentaires, sélectionnées de manière aléatoire, sont déplacées dans un rayon pouvant aller jusqu’à 10 km, là encore dans n’importe quelle direction (Burgert et al. 2013). Cette procédure de « direction aléatoire, distance aléatoire » est également appliquée par l’équipe de la Banque mondiale chargée de l’enquête LSMS au moyen d’un outil Python personnalisé fonctionnant dans ArcGIS. Le code de cette procédure de déplacement est disponible dans l’annexe B des Spatial Analysis Reports 7 des Enquêtes démographiques et de santé (EDS). La procédure de déplacement aléatoire peut également être effectuée en utilisant la commande runiform sous Stata ou la fonction runif sous R, mais elle n’est pas facile à combiner avec des données géospatiales.

Là encore, une bonne connaissance du contexte local est essentielle, car il peut s’avérer nécessaire de décaler encore davantage les coordonnées si les données utilisées proviennent d’une zone très peu peuplée. Par exemple, il peut arriver que des coordonnées déplacées dans un rayon de 5 km renvoient à une zone non peuplée qui ne comporte qu’un seul village, auquel cas le village reste identifiable et les coordonnées doivent être décalées davantage. Pour plus de détails sur l’approche adoptée par les enquêtes EDS en matière de déplacement géographique, voir Burgert et al. (2013). Le rapport des EDS et Zandbergen (2014) fournissent tous deux des informations sur d’autres méthodes de « jittering ».

Si le masquage géographique (jittering) présente l’avantage de permettre aux chercheurs de faire le lien entre les lieux et d’autres données géocodées, comme les images satellite, le risque de ré-identification reste cependant élevé pour certaines données identifiantes (par exemple les coordonnées GPS des ménages). En augmentant l’amplitude du déplacement ou de la perturbation, on réduit l’utilité de l’information géographique tout en créant une illusion de précision et en conservant malgré tout un risque de ré-identification. Par conséquent, la méthode privilégiée est souvent l’agrégation par unité géographique comme le « village » ou le « code postal ».

Ainsi, J-PAL recommande que toutes les coordonnées au niveau du ménage ou à un niveau inférieur soient agrégées au niveau de l’unité géographique immédiatement supérieure, a minima (par exemple, le village). Avant de procéder à l’agrégation, les chercheurs peuvent créer des variables susceptibles d’être importantes pour de futures analyses, telles que la distance jusqu’à la route, l’école, ou le dispensaire les plus proches, ou apparier les données d’enquête avec des données climatiques géoréférencées afin de créer des variables comme les précipitations moyennes, la variabilité des précipitations et la température moyenne.

Au niveau du village et au-dessus, J-PAL recommande d’utiliser une combinaison d’agrégation ou de masquage, selon les données. Conformément aux directives de la loi HIPAA, les données d’une ville d’au moins 20 000 habitants n’ont pas besoin d’être agrégées ni masquées (et le nom de la ville ne nécessite ni encodage ni masquage). L’équipe de la Banque mondiale chargée de l’enquête LSMS déplace (mais n’agrège pas) les coordonnées au niveau de la zone de dénombrement (qui correspond approximativement au niveau du village), en suivant la procédure des Enquêtes démographiques et de santé (EDS) décrite plus haut. Comme pour les autres données identifiantes, il est important de se demander si des combinaisons d’éléments d’identification indirecte sont susceptibles d’être utilisées pour identifier les individus, et ce même si l’unité géographique compte plus de 20 000 habitants.

** Stata code for calculating k-anonymity along a group of variables:

// The variables you would like to calculate k-anonymity along
global identifiers v1 v2 v3 v4 v5 

// Grouping based on unique combinations of those vars
egen identifiers = group($identifiers) 

// Generating variable
bysort identifiers: gen count = _N 
qui: summ count
local kanon = `r(min)'

di "The k-anonymity of this dataset for `identifiers' is `kanon'"
 
## R code for calculating k-anonymity along a group of variables:

library(dplyr) ## The dplyr package is used in the below code

## Grouping by the variables you want to calculate k-anonymity along and
# getting group counts
K_anon <- df %>%
	group_by(v1 v2 v3 v4 v5) %>% 
	summarize(count = n()) 

## Getting the k-anonymity
k_anon <- min(K_anon_df$count, na.rm = TRUE) 

paste("The k-anonymity of the dataset along the specified variables is", 
k_anon, sep = " ")
 

Accéder aux données identifiées

Certains types d’analyses ne peuvent pas être effectués avec des données désidentifiées. Dans ce cas, l’une des options possibles consiste, pour les équipes de recherche, à mettre leurs données d’identification personnelle à la disposition d’autres chercheurs ayant préalablement signé un accord d’utilisation des données (DUA) et obtenu l’approbation de l’IRB (une autre solution consiste à inscrire ces chercheurs en tant que personnel clé auprès de l’IRB du projet). L’accord d’utilisation des données doit inclure des dispositions relatives aux usages et aux partages autorisés des données d’identification personnelle. Il doit également spécifier les personnes qui sont habilitées à utiliser ou à recevoir ces données, tout en interdisant aux utilisateurs d’identifier ou de contacter les individus. Notez que la décision d’autoriser d’autres chercheurs à accéder à vos données ne vous appartient que si vous (l’équipe de recherche) êtes propriétaires des données.

Le Federal Demonstration Partnership (FDP), une initiative américaine regroupant 10 agences fédérales et 154 établissements (dont le MIT et d’autres grandes universités), a élaboré un modèle de DUA, qui peut être consulté en suivant le lien du FDP ci-dessous. Bien que la plupart des établissements préfèrent utiliser leur propre contrat-type, de nombreux établissements membres ont accepté d’utiliser ce modèle comme solution de rechange.

Une autre possibilité consiste à faire appel à des services comme l’Inter-University Consortium for Political and Social Research (ICPSR), qui permettent aux chercheurs d’utiliser des données identifiées tout en en garantissant la confidentialité, sans devoir passer par le chercheur d’origine. L’ICPSR peut héberger des ensembles de données à usage restreint dans les cas où la désidentification des données n’est pas possible ou aurait un impact significatif sur les possibilités d’exploitation des données. Les chercheurs peuvent faire une demande d’utilisation contrôlée des données à usage restreint en suivant une procédure qui les engage à respecter un certain nombre d’exigences légales et informatiques strictes afin de préserver la confidentialité des données.

Ré-identification et responsabilités

Les chercheurs et les utilisateurs de données ont pour responsabilité de ne pas utiliser ces dernières pour tenter d’identifier des sujets humains. Non seulement une telle pratique est contraire à l’éthique, mais elle peut également avoir des répercussions légales et entraîner des sanctions financières. Par exemple, conformément à la section 1106(a) de la loi américaine sur la sécurité sociale, les Centers for Medicare and Medicaid Services précisent dans leur DUA type que toute divulgation non autorisée d’informations est passible d’une amende pouvant aller jusqu’à 10 000 dollars ou d’une peine d’emprisonnement pouvant aller jusqu’à cinq ans, voire les deux (US DHHS Form CMS-R-0235). Les services qui, comme l’ICPSR, mettent à disposition des données accessibles au public imposent aux utilisateurs de respecter la vie privée des participants à la recherche et de signaler au propriétaire ou au dépositaire des données toute violation de la confidentialité des participants, c’est-à-dire tout contenu sensible découvert dans les données désidentifiées. Phillips et al. (2017) étudient le débat concernant les sanctions légales imposées en cas de ré-identification dans le domaine biomédical, débat tout aussi pertinent dans le domaine des sciences sociales.

Bien qu’il ne soit jamais possible de garantir l’anonymat total d’un individu lorsqu’on collecte des données d’identification à son sujet, le processus de désidentification réduit, sans toutefois l’éliminer, le risque de ré-identification et rend possible l’utilisation secondaire des données dans le cadre d’autres études scientifiques ou à d’autres fins. Pour plus de détails sur les différentes méthodes de désidentification, voir Altman (n.d.) et Green (2018)

Table  3
Type d’élément d’identification Élément d’identification directe     Élément d’identification indirecte fort   Élément d’identification indirecte  Élément d’identification au sens de l’HIPAA  Méthode de désidentification recommandée par J-PAL
Numéro d’identification personnelle X     X Partition des données
Nom complet X     X Partition des données
Date de naissance   X   X Agrégation
Année de naissance   X   X* Agrégation ou établissement d’une limite supérieure/inférieure s’il y a peu d’observations
Âge   X   X*  
Sexe     X    
Situation matrimoniale     X    
Composition du ménage     X    
Profession   (X) X   Agrégation s’il y a peu d’observations
Secteur d’activité     X    
Situation professionnelle     X    
Éducation     X    
Appartenance ethnique     X   Agrégation ou établissement d’une limite supérieure/inférieure s’il y a peu d’observations
Nationalité     X   Agrégation s’il y a peu d’observations
Lieu de travail / Employeur   (X) X   Agrégation
Numéro de téléphone X     X Partition des données
Adresse email X (X)   X Partition des données
Fichier audio ou vidéo sur lequel un ou plusieurs individu(s) sont présents X     X Partition des données
Photographie de la (des) personne(s) (s’il s’agit d’un portrait ou assimilé) X     X Partition des données
Numéro de compte bancaire   X   X Partition des données
Adresse IP   X   X Partition des données
Numéro d’immatriculation du véhicule X     X Partition des données
Adresse web   (X) X X Partition des données
Numéro étudiant   X   X Partition des données
Numéro de police d’assurance   X   X Partition des données
Code postal     X X Agrégation
Région principale     X    
Zone géographique de moins de 20 000 habitants     X X if <20,000 Remplacer par un identifiant (encoder)
Localisation du ménage (coordonnées GPS) X     X Agrégation, masquage géographique
Coordonnées GPS du village/de la ville     X X si <20,000 Masquage géographique si moins de 20 000 habitants

Notes :  * Si l’individu a plus de 89 ans. Dans certains cas, l’élément d’identification peut être considéré comme un élément d’identification indirecte fort (c’est le cas, par exemple, des professions peu répandues), ce qui est signalé par (x). Ce tableau s’inspire largement des lignes directrices de la Finnish Social Science Data Archive (2009).

Dernière modification : juillet 2020.

Ces ressources sont le fruit d’un travail collaboratif. Si vous constatez un dysfonctionnement, ou si vous souhaitez suggérer l’ajout de nouveaux contenus, veuillez remplir ce formulaire.

Acknowledgments

Nous tenons à remercier Sonia Barbosa, Shawn Cole, Mary-Alice Doyle, Laura Feeney et William Parienté pour leurs commentaires précieux. Ce document a été relu et corrigé par Antonn Park, et traduit de l’anglais par Marion Beaujard. Toute erreur est de notre fait.

    1. Altman, Micah. n.d. “Data Security and Privacy: Key Concepts.” Conférence donnée dans le cadre de la formation J-PAL102x Micromasters. Dernière consultation le 18 août 2017. https://drive.google.com/file/d/0B6NSujurHRIVc0J0MkJTdHhBTzQ/view
    2. Burgert, Clara R., Josh Colston, Thea Roy, and Blake Zachary. 2013. "Geographic Displacement Procedure and Georeferenced Data Release Policy for the Demographic and Health Surveys." DHS Spatial Analysis Reports No. 7. Calverton, Maryland: ICF International. https://dhsprogram.com/pubs/pdf/SAR7/SAR7.pdf
    3. RGPD de l’UE. 2016. “Regulation (EU) 2016/679 of the European Parliament and of the Council of 27 April 2016 on the Protection of Natural Persons with Regard to the Processing of Personal Data and on the Free Movement of Such Data, and Repealing Directive 95/46/EC (General Data Protection Regulation), OJ 2016 L 119/1.” Dernière consultation le 3 décembre 2019. https://gdpr-info.eu/
    4. FDP. n.d. “Data Stewardship.” Dernière consultation le 3 décembre 2019. http://thefdp.org/default/committees/research-compliance/data-stewardship/
    5. Finnish Social Science Data Archive. 2009. "Data Management Guidelines––Anonymisation and Personal Data. Data Archive." Dernière consultation le 17 août 2017. https://www.fsd.uta.fi/aineistonhallinta/en/anonymisation-and-identifiers.html
    6. Green, Joe. 2018. “Data De-Identification Stata Programs and Demonstration. BITSS Research Transparency and Reproducibility Training (RT2), Los Angeles.” Dernière consultation le 3 décembre 2019. https://osf.io/tx3af/
    7. Ohm, Paul. 2010. “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization.” UCLA Law Review 57. https://www.uclalawreview.org/pdf/57-6-3.pdf
    8. Phillips, Mark, Dove, Edward S., and Bartha M. Knoppers. 2017. “Criminal Prohibition of Wrongful Re-Identification: Legal Solution or Minefield for Big Data?” Journal of Bioethical Inquiry 14(4): 527– 539. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5715031/
    9. Sweeney, Latanya. 2000. “Simple Demographics Often Identify People Uniquely.” Carnegie Mellon University, Data Privacy Working Paper 3. Dernière consultation le 10 décembre 2019. http://ggs685.pbworks.com/w/file/fetch/94376315/Latanya.pdf
    10. US Department of Education. FERPA.
    11. US Department of Health and Human Services. 2012. "Guidance Regarding Methods for De-Identification of Protected Health Information in Accordance with the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule.” Dernière consultation le 10 décembre 2019. https://www.hhs.gov/hipaa/forprofessionals/privacy/special-topics/de-identification/index.html
    12. US Department of Health and Human Services. “Health Information Privacy.” Dernière consultation le 10 décembre 2019. https://www.hhs.gov/hipaa/index.html
    13. US Department of Health and Human Services Centers for Medicare & Medicaid Services (US DHHS CMS) Form CMS-R-0235.
    14. Zandbgergen, Paul A., 2014. "Ensuring Confidentiality of Geocoded Health Data: Assessing Geographic Masking Strategies for Individual-Level Data." Advances in Medicine 2014. doi:10.1155/2014/567049.

    In this resource