La confidentialité différentielle au service de la « privacy »

La question de la protection de la vie privée s’invite lors de chacune de nos interactions avec les plateformes numériques qui collectent et partagent les données d’utilisateurs parfois sans un consentement explicite. La montée en puissance de l’apprentissage automatique s’appuie sur des corpus de données d’entrainement qui peuvent contenir des données à caractères personnels en particulier dans des domaines comme ceux de la santé ou de l’assurance. Une fois les modèles entrainés, le risque de réidentification ne doit jamais être sous-estimé notamment dans la cadre d’une cyberattaque. Des expérimentations récentes ont montré que cette réidentification pouvait intervenir assez simplement dans un contexte d’apprentissage automatique. D’une manière générale, le croisement des données et leur parcimonie dans l’espace numérique facilitent les tentatives malveillantes de désanonymisation et de réidentification. Préserver l’anonymat et la vie privée des utilisateurs fournisseurs de données, tout au long des processus de collecte et d’analyse constitue un défi majeur pour les architectes des systèmes de traitement. Ils peuvent désormais se tourner vers les technologies de Differential Privacy (DP) ou confidentialité différentielle.

La confidentialité différentielle pour préserver l’anonymisation des données

Introduit en 2006, le concept de confidentialité différentielle rassemble des méthodes qui protègent les données à caractère personnel contre le risque de réidentification tout en maintenant la pertinence des résultats de requêtes. A l’intersection de plusieurs disciplines mathématiques (data sciences, optimisation, probabilités, cryptographie), la confidentialité différentielle permet l’exploitation statistique de données individuelles agrégées sans compromettre la vie privée des individus concernés. L’idée générale est issue des travaux de Cynthia Dwork [1]. La confidentialité différentielle est obtenue en appliquant un procédé qui introduit de l’aléa dans les données tout en maintenant leur potentiel d’exploitation.

Donnons un exemple devenu classique d’algorithme satisfaisant la confidentialité différentielle. Supposons que l’on cherche à estimer la proportion de consommateurs de drogues dans une population. L’approche classique consiste à poser directement la question à un échantillon représentatif de la population. L’inconvénient majeur de la méthode directe est que la réponse d’un individu sondé compromet sa vie privée. Une approche « Differential Privacy » s’appuie sur le processus suivant : pour chaque individu interrogé, on effectue un tirage à pile ou face. Si l’on obtient pile, l’individu répond sincèrement. Si l’on obtient face, on lance une seconde pièce pour répondre au hasard à la question du sondage : face donne la réponse « oui, je suis consommateur » et pile donne « non, je ne suis pas consommateur ». De cette façon, chaque individu peut réfuter sa réponse en prétendant qu’elle est due au hasard. Quant au sondeur, s’il dispose d’un échantillon assez large, il peut facilement retrouver une estimation fiable de la proportion de consommateurs de drogues à partir de la fréquence de réponses positives qu’il observe.

Cet exemple met en lumière plusieurs propriétés fondamentales du concept de Differential Privacy. La première propriété (positive) est la robustesse face au post-traitement : il n’est pas possible de compromettre la vie privée de l’individu sondé en analysant sa réponse. Une seconde propriété (négative) est celle de composition. Intuitivement, si l’on répète 100 fois le sondage décrit sur la même personne, on obtiendra une estimation fiable de sa vraie réponse. Une troisième propriété remarquable (positive) est celle du sous-échantillonnage : si un individu a une probabilité strictement inférieure à un d’être inclus dans l’étude, alors sa vie privée est davantage préservée.

Le bruit au service de la confidentialité des données

La confidentialité différentielle peut être obtenue en ajoutant du bruit aléatoire à un résultat de requête agrégé pour protéger les entrées individuelles sans modifier de manière significative le résultat. Des algorithmes différentiellement privés garantissent que l’attaquant ne peut pratiquement rien apprendre de plus sur un individu qu’il n’apprendrait si le dossier de cette personne était absent de l’ensemble de données. L’un des algorithmes les plus simples est le mécanisme de Laplace, qui peut post-traiter les résultats de requêtes agrégées. Apple et Google utilisent respectivement des techniques de confidentialité différentielles dans iOS et Chrome. Google a récemment publié une version open source de sa bibliothèque de confidentialité différentielle [2] utilisée par certains de ses produits. La bibliothèque est conçue pour aider les développeurs à créer des produits qui utilisent des données agrégées anonymisées de manière à préserver la confidentialité. Des algorithmes différentiellement privés ont également été mis en œuvre dans des produits d’analyse préservant la confidentialité à l’image des solutions développées par Privitar.

Concevoir un algorithme satisfaisant la propriété de confidentialité différentielle n’est pas toujours possible. Lorsque celui-ci donne une réponse déterministe qui dépend des données, c’est en général impossible sans modifier le format des réponses. La solution consiste à introduire du bruit aléatoire dans la réponse retournée.

La confidentialité différentielle offre une garantie forte de maintien de l’anonymat en s’appliquant à un algorithme et non à un résultat. C’est là toute la force de ce procédé qui reste toutefois complexe à mettre en œuvre. L’ajout de bruit a en effet tendance à dégrader les performances du modèle. Il faut donc trouver un équilibre subtil dans la construction de l’algorithme sous-jacent. De plus, il n’est pas possible de certifier qu’un modèle vérifie la propriété de confidentialité différentielle sans avoir accès à l’algorithme qui l’a construit.

Les grands éditeurs s’apprêtent à déployer des solutions intégrant « by design » la confidentialité différentielle au sein de leurs processus de traitement des données personnelles. Il faut espérer que cette tendance devienne un standard !

(par Thierry Berthier, CREC et Chaire Saint-Cyr)

[1] Dwork, C., McSherry, F., Nissim, K., Smith, A. : Calibrating noise to sensitivity in private data analysis. In : Theory of cryptography conference. pp. 265{284. Springer (2006).

[2] Google Differential Privacy Library :

https://github.com/google/differential-privacy/tree/master/differential_privacy

https://developers.googleblog.com/2019/09/enabling-developers-and-organizations.html