Protéger la vie privée des systèmes d’IA : l’ambition du projet iPoP

Ce programme a une double vocation : étudier les nouvelles menaces contre la vie privée nées des progrès de l’IA et concevoir des moyens théoriques et techniques de protection. Alors que le cap des 18 premiers mois est passé, InCyber News présente ses domaines de recherche et les enjeux.

Piloté par l’Inria, le projet iPoP (Interdisciplinary Project on Privacy) réunit 70 chercheurs, issus d’une dizaine d’établissements supérieurs et d’organismes de recherche. Il étudie, de 2022 à 2028, l’ampleur des menaces pour la confidentialité des données personnelles pour proposer des contre-mesures.

Il tire son origine de la Stratégie d’accélération pour la cybersécurité, présentée le 18 février 2021 par Emmanuel Macron. Dotée d’un budget d’un milliard d’euros et rattachée au programme France 2030, elle vise à étoffer la filière française de cybersécurité en y doublant, d’ici 2025, le nombre d’emplois et de thèses sur ce domaine d’étude co-financées par les Conventions industrielles de formation par la recherche (CIFRE). Elle comprend aussi le développement de la recherche sous la forme d’un programme équipement prioritaire (PEPR) co-dirigé par l’Inria, le CNRS et le CEA.

En six ans, ce programme devra structurer une communauté française de spécialistes de la cyberprotection, proposant des solutions technologiques propices à l’émergence de nouveaux champions français. Le Campus Cyber hébergera les projets de recherches innovants pour ensuite diffuser leurs résultats. C’est là que le PEPR cybersécurité a officiellement démarré, avec la présentation, le 21 juin 2022, de ses sept premiers projets, dont iPoP.

Une priorité : protéger les données personnelles

Les travaux d’iPoP sont divisés en programmes de recherche, ayant lieu simultanément, au sujet de la protection de la vie privée contre l’IA. Le premier programme concerne la collecte des données personnelles. Chaque personne génère en effet des données (géolocalisation, connexion d’un appareil connecté à un réseau wifi, instructions vocales, images capturées par des caméras intelligentes etc.) susceptibles de fournir, de façon non consentie, des informations privées.

Son objectif : étudier les nouvelles formes de collecte et simuler le recueil de ces données par les outils de data-scraping associés à différentes technologies (Digital Object Detection, Text and Data Mining, Speech Data Processing). En reconstituant les étapes de cette collecte, les risques qu’elle représente pour la vie privée seront identifiés et feront l’objet de contre-mesures.

Deuxième axe de recherche : les méthodes d’entraînement de modèles d’apprentissage d’algorithmes respectueux de la vie privée. L’omniprésence des algorithmes au quotidien des individus oblige à étudier l’exploitation des données personnelles recueillies pour s’assurer que les informations personnelles traitées restent confidentielles.

Au cœur de la protection de la vie privée se trouvent les données. Pour qu’elles ne soient pas divulguées, on peut anonymiser une base de données soit en retirant celles qui renseignent directement l’identité des personnes concernées pour mettre à leur place un pseudonyme, soit en modifiant légèrement les données indirectement re-identifiantes. Si le pseudonymat apparaît insuffisant, la seconde solution, en théorie irréversible, est considérée comme infaillible.

Néanmoins, un chercheur américain a remis en question ce postulat via ses travaux. En utilisant les données indirectement ré-identifiantes d’une base provenant d’une plateforme d’e-learning, il est parvenu à retrouver le nom des personnes inscrites. Il a pour cela croisé la base de données avec d’autres informations facilement accessibles. L’anonymisation présente donc des risques. Ils sont d’ailleurs d’autant plus importants que le RGPD autorise la vente de données anonymes.

Antoine Boutet, pilote scientifique du projet iPoP, enseignant chercheur à l’Insa Lyon et membre de l’équipe Inria Privatics, explique l’importance de cette phase d’anonymisation pour assurer la confidentialité des informations personnelles : « Les risques ne sont pas binaires entre des données dépourvues d’éléments d’identification et d’autres qui seraient transparentes. En fonction de la connaissance des liens, il est possible de réidentifier les personnes concernées. Il y a donc un continuum d’identificabilité dans lequel il faut fixer un point d’équilibre. »

Dans un troisième programme, les chercheurs s’intéressent à l’anonymisation et aux risques de réidentification. Objectif : mesurer le caractère identifiable d’un ensemble de données. Cela permettra le développement d’un outil mesurant le degré d’anonymisation de ces données.

« Les acteurs qui manipulent des données personnelles doivent les anonymiser. Cette opération est difficile, trouver le bon point d’équilibre entre suppression d’informations indirectement ré-identifiantes et maintien de l’information utile requiert d’être pleinement conscient des risques en fonction des données considérées. En collaboration avec la Cnil, qui participe aux recherches, le projet ambitionne la création d’un espace où n’importe quel acteur pourrait tester et évaluer leur mécanisme d’anonymisation et recueillir des recommandations », explique Antoine Boutet.

Cet outil, encore en phase de développement, permettra, à terme, aux responsables du traitement des données d’être en adéquation avec l’état de l’art sur ce sujet.

Un quatrième programme vise à rendre les systèmes de stockage de données personnelles plus efficaces. Il se concentrera sur la synthèse de données. Ce procédé permet de générer, via un modèle génératif, des données ayant les mêmes propriétés statistiques que celles issues d’une base modèle. Ces travaux porteront aussi sur une technique appelée « confidentialité différentielle ».

Cette opération consiste à remplacer la moitié des données par d’autres dont les valeurs ont été choisies aléatoirement. Elle a le double avantage de préserver, en grande partie, les propriétés statistiques d’une base de données, tout en limitant les informations personnelles livrées. Elle diminue néanmoins leur intérêt en les données rendant moins précises.

Approche multidisciplinaire

Les progrès technologiques étudiés au cours de ce projet font évoluer les obligations légales en matière de conservation et de traitement des données. Quelles réponses apporter lors de situations n’ayant pas été anticipées par le RGPD ou la directive du droit d’auteur ? Pour les obtenir, des unités de recherche en sciences humaines telles que le laboratoire « Droit et changement social » de l’université de Nantes, les équipes qui traitent des enjeux éthiques de l’IA à l’Inria ou encore le laboratoire d’innovation numérique de la Cnil s’intéressent aux questions juridiques soulevées par l’apprentissage machine.

Par ailleurs, les membres d’iPoP participent à l’élaboration des Fiches IA proposées par la Cnil pour s’assurer que l’usage de cette technologie reste conforme à la loi. Pour les chercheurs et juristes, l’enjeu est de rendre faisable la régulation pour l’entrée en vigueur de l’AI Act.

Ces recherches doivent répondre à des questions précises, par exemple les conditions d’utilisation de données réidentifiées et le respect du droit d’auteur par des modèles apprenants. Elles peuvent aussi porter sur un domaine spécifique d’application. Des collaborations avec les membres des projets rattachés au PEPR Santé numérique ont eu lieu fréquemment.

Les chercheurs de l’Inria ont par exemple contribué à la bibliothèque Fed-BioMed, qui permet des recherches en apprentissage fédéré sans avoir recours aux informations personnelles des personnes soignées. Le 22 mai 2023, le premier événement organisé par le projet iPoP a eu pour thème les données de santé. Un événement qui sera réitéré en mai 2024 pour être cette fois-ci consacré aux enjeux de l’audit des systèmes d’IA.