Anonymisation des données

Anonymisation ou pseudonymisation

Selon le Préposé fédéral à la protection des données, les données personnelles sont pseudonymisées lorsqu’elles sont remplacées par un code (pseudonyme), tandis qu’elles sont anonymisées lorsque toutes les données d’identification sont supprimées.

La pseudonymisation est réversible alors que l’anonymisation est définitive.

Les données anonymes irréversibles, qui ne permettent plus la réidentification d’une personne, ne sont pas soumises à la réglementation sur la protection des données personnelles.

En réalité, il est très difficile de garantir une anonymisation à 100 % et toute technique a ses avantages et ses limites et comportera toujours un certain risque de ré-identification de la ou des personnes concernées.

Dans la section ci-dessous, vous trouverez plus de détails, en particulier des techniques d’anonymisation basées sur un document publié par le G29 – groupe de travail Article 29 sur la protection des données de l’Union européenne.

Disclaimer : Le texte ci-dessous a été développé par l’Università della Svizzera italiana en collaboration avec l’Université de Neuchâtel. Notez que tout le texte ici, à l’exception des contenus de tiers (par exemple les citations), est publié sous la licence Creative Commons Attribution Share Alike 4.0 International License. Pour consulter une copie de cette licence, visitez cette page.

Techniques d’anonymisation

“Une technique est considérée comme robuste sur la base de trois critères:

  • est-il encore possible d’isoler un individu?
  • est-il encore possible de relier les dossiers d’une personne à d’autres dossiers?
  • peut-on déduire des informations concernant un individu ?

Ces risques sont définis par le G29 comme des risques d’identification.

Le G29 conclut que les techniques d’anonymisation peuvent fournir des garanties en matière de respect de la vie privée et peuvent être utilisées pour générer des processus d’anonymisation efficaces, mais uniquement si leur application est conçue de manière appropriée – ce qui signifie que les conditions préalables (contexte) et les objectifs du processus d’anonymisation doivent être clairement définis afin de parvenir à l’anonymisation ciblée tout en produisant des données utiles. La solution optimale doit être décidée au cas par cas, éventuellement en utilisant une combinaison de différentes techniques, tout en tenant compte des recommandations pratiques élaborées par l’article 29.

D’une manière générale, il existe deux approches principales de l’anonymisation :

  • Approche basée sur la randomisation,
  • Approche basée sur la généralisation.”

Randomisation

“La randomisation est une famille de techniques qui altère la véracité des données afin de supprimer le lien fort entre les données et l’individu. Si les données sont suffisamment incertaines, elles ne peuvent plus être rapportées à un individu spécifique. La randomisation en elle-même ne réduira pas la singularité de chaque enregistrement, car chaque enregistrement sera toujours dérivé d’une seule personne concernée, mais elle peut protéger contre les attaques/risques d’inférence.”

Différentes techniques peuvent être combinées pour éviter la ré-identification des sujets individuels. Les techniques de randomisation peuvent également être combinées avec des techniques de généralisation afin de fournir des garanties plus solides en matière de protection de la vie privée.

“La technique de l’ajout de bruit est particulièrement utile lorsque les attributs peuvent avoir un effet négatif important sur les individus et consiste à modifier les attributs de l’ensemble de données de manière à ce qu’ils soient moins précis tout en conservant la distribution globale. Lors du traitement d’un ensemble de données, un observateur supposera que les valeurs sont exactes, mais cela ne sera vrai que dans une certaine mesure. Par exemple, si la taille d’un individu a été mesurée à l’origine au centimètre près, l’ensemble de données anonymisées peut contenir une taille précise à ±10 cm seulement. Si cette technique est appliquée efficacement, un tiers ne sera pas en mesure d’identifier une personne, ni de réparer les données ou de détecter la façon dont elles ont été modifiées.
L’ajout de bruit devra généralement être combiné à d’autres techniques d’anonymisation telles que la suppression des attributs évidents et des quasi-identifiants. Le niveau de bruit doit dépendre de la nécessité du niveau d’information requis et de l’impact sur la vie privée des personnes du fait de la divulgation des attributs protégés”.

“La permutation consiste à mélanger les valeurs des attributs d’un tableau, de sorte que certains d’entre eux soient artificiellement liés à différentes personnes concernées. Elle est utile lorsqu’il est important de conserver la distribution exacte de chaque attribut au sein de l’ensemble de données. (…) Les techniques de permutation modifient les valeurs au sein de l’ensemble de données en les échangeant simplement d’une donnée à l’autre. Cette permutation garantit que l’étendue et la distribution des valeurs resteront les mêmes, mais pas les corrélations entre les valeurs et les individus. Si deux attributs ou plus ont une relation logique ou une corrélation statistique et sont permutés indépendamment, cette relation sera détruite. Il peut donc être important de permuter un ensemble d’attributs liés de manière à ne pas rompre la relation logique, sinon un pirate pourrait identifier les attributs permutés et inverser la permutation.

Par exemple, si nous considérons un sous-ensemble d’attributs dans un ensemble de données médicales tel que “raisons de l’hospitalisation/symptômes/département responsable”, une forte relation logique liera les valeurs dans la plupart des cas et la permutation d’une seule des valeurs sera ainsi détectée et pourra même être inversée.”

“La confidentialité différentielle fait partie de la famille des techniques de randomisation, avec une approche différente : alors qu’en fait, l’insertion de bruit entre en jeu avant que l’ensemble de données ne soit censé être publié, la confidentialité différentielle peut être utilisée lorsque le responsable du traitement des données génère des vues anonymes d’un ensemble de données tout en conservant une copie des données d’origine. Ces vues anonymes sont généralement générées à partir d’un sous-ensemble de requêtes pour un tiers particulier. Le sous-ensemble comprend un bruit aléatoire délibérément ajouté a posteriori. La protection différentielle de la vie privée indique au responsable du traitement des données la quantité de bruit qu’il doit ajouter, et sous quelle forme, pour obtenir les garanties nécessaires en matière de protection de la vie privée”.

Généralisation

“La généralisation est la deuxième famille de techniques d’anonymisation. Cette approche consiste à généraliser, ou à diluer, les attributs des personnes concernées en modifiant l’échelle ou l’ordre de grandeur respectif (par exemple, une région plutôt qu’une ville, un mois plutôt qu’une semaine). Si la généralisation peut être efficace pour éviter la singularisation, elle ne permet pas une anonymisation efficace dans tous les cas ; en particulier, elle nécessite des approches quantitatives spécifiques et sophistiquées pour empêcher l’établissement de liens et l’inférence”.

“Les techniques d’agrégation et de K-anonymat visent à empêcher qu’une personne concernée soit identifiée en la regroupant avec au moins k autres individus. Pour ce faire, les valeurs des attributs sont généralisées de manière à ce que chaque individu partage la même valeur.”

Par exemple, en réduisant la granularité d’une localisation d’une ville à un pays, un plus grand nombre de personnes concernées sont incluses. Les dates de naissance individuelles peuvent être généralisées en une fourchette de dates, ou regroupées par mois ou par année.

D’autres attributs numériques (par exemple, les salaires, le poids, la taille ou la dose d’un médicament) peuvent être généralisés par des valeurs d’intervalle (par exemple, salaire 20 000 € – 30 000 €). Ces méthodes peuvent être utilisées lorsque la corrélation de valeurs ponctuelles d’attributs peut créer des quasi-identifiants”.

Groupe de travail “Article 29” de l’Union européenne sur la protection des données0829/14/EN WP216, Avis 05/2014 sur les techniques d’anonymisation, 2014, Page 12 du PDF

Forces et faiblesses des techniques

La singularisation présente-t- elle encore un risque?
L’accessibilité est-elle encore un risque ?L’inférence est-elle encore un risque ?
PseudonymisationOuiOuiOui
Ajout de bruitOuiNe peut pasNe peut pas
SubstitutionOuiOuiNe peut pas
Agrégation ou K- anonymatNonOuiOui
L-diversitéNonOuiNe peut pas
Vie privée différentielleNe peut pasNe peut pasNe peut pas
 

Plus de détails

Pour plus de détails sur les techniques d’anonymisation, veuillez vous référer à l’article 29 du groupe de travail sur la protection des données.

À quoi faut-il faire attention en matière de protection des données?

“Croire qu’un ensemble de données pseudonymisées est anonyme : ces responsables du traitement des données supposent souvent que la suppression ou le remplacement d’un ou de plusieurs attributs suffit à rendre l’ensemble de données anonyme.

Des exemples ont montré que ce n’est pas le cas ; le simple fait de modifier l’identifiant n’empêche pas quelqu’un d’identifier une personne concernée si des quasi-identifiants subsistent dans l’ensemble de données ou si les valeurs d’autres attributs permettent toujours d’identifier une personne. Dans de nombreux cas, il peut être aussi facile d’identifier une personne dans un ensemble de données pseudonymisées qu’avec les données originales. Des mesures supplémentaires doivent être prises pour que l’ensemble de données soit considéré comme anonyme, notamment en supprimant et en généralisant les attributs ou en supprimant les données d’origine ou, du moins, en les ramenant à un niveau très agrégé”.