Le C2PA, une proposition de modèle pour lutter contre les images truquées

L’adoption massive des IA génératives augmente les possibilités de fausses informations à grande échelle. Pour rendre possible la vérification des images diffusées en ligne, un modèle de conservation et de traçage des données est à l’étude. InCyber News vous présente son fonctionnement et les enjeux de son application.

Si l’effet des images, du « choc des photos », sur l’opinion est connu, celui des intelligences artificielles génératives suscite des inquiétudes. Comment s’assurer que des images artificielles ne serviront pas à une campagne de manipulation ? Plus généralement, quelle est la véracité d’une image ? Douter de l’authenticité d’une photographie fragilise la confiance accordée aux médias.

L’IA générative donne naissance par ailleurs à des nouvelles menaces. Exemple : les deepfakes, dont certains sont saisissants de réalisme, rappelle l’urgence de préserver la réputation des personnes susceptibles d’être représentées. Enfin, des images non libres de droits peuvent alimenter les algorithmes faisant fonctionner ces modèles d’IA au dam de leurs créateurs.

Des recherches ont lieu pour fournir des solutions. A ce titre, une ONG, créée par l’éditeur de logiciel Adobe et nommée Content Authenticity Initiative (CAI), a fondé en 2020 un modèle de traçabilité « end-to-end ». En février 2021, la CAI s’est associée au Project Origin Alliance, une coalition d’entreprises luttant contre la désinformation initiée par la BBC, pour fonder un organisme tiers à but non lucratif baptisé Coalition for Content Provenance and Authenticity (C2PA).

Son objectif ? Réunir les experts des organisations membres pour établir les standards techniques que suivront les fabricants de hardware, les éditeurs de logiciel et les organismes de presse. Une première édition des standards a été publiée en 2021 et une version 1.4 a été mise à jour, fin novembre 2023.

Garder une trace de la provenance d’un média

Concrètement, le C2PA propose un modèle de stockage et de protection par chiffrement des informations récapitulant l’origine d’une image telles que la date de création, celle de son traitement et de sa mise en ligne. Disposer de ces informations permet alors aux fact checkers de connaître le contenu d’origine et le contexte d’une image. Mais aussi de pouvoir distinguer les images « brutes » de celles qui ont fait l’objet d’un traitement (« derived asset ») ou encore des photomontages (« composed asset ») obtenus à partir d’autres photographies.

Tracer les étapes de création et de modification d’une image permet, in fine, de comparer la version d’origine d’une photo avec celle retouchée avant publication. Et surtout de distinguer les photos représentant un événement réel d’une création obtenue ex nihilo via une IA.

Chaque photographie disposera d’une « assertion », c’est-à-dire d’un ensemble de données renseignant la date et le lieu de sa création (au moyen d’un positionnement par satellite), son auteur, le format utilisé et enfin la date des éventuelles modifications apportées. Les assertions pourront être renseignées depuis l’appareil ayant servi à capturer une image, par un logiciel ayant servi à l’éditer (Photoshop, Adobe Lightroom, Firefly…) ou enfin par le CMS (content management system) utilisé lors de la mise en ligne. Dans les trois cas, les données indiqueront les possibles modifications apportées. Ces assertions sont alors signées électroniquement par son auteur dans une déclaration, nommée « claim ». Cette signature va devoir enfin être validée pour établir que le document est bien digne de foi.

Dans la marine marchande, un manifeste était un document indiquant le contenu et l’état d’une cargaison entre chaque escale. Le C2PA a repris ce terme pour nommer le registre dans lequel toutes les informations sur l’origine d’un actif sont disponibles. Le manifeste sera alors intégré à l’image, quel que soit son format (JPEG, PDF …) dans une réserve de manifestes (« manifest store »).

Il s’agit d’un fichier au format conteneur permettant de conserver diverses sortes de données et de métadonnées. Ce fichier est protégé de toute falsification par une clé cryptographique. Quand un visiteur souhaite se renseigner, il cliquera sur une icône baptisée Content Credentials, située en haut et à droite de l’image, pour qu’apparaissent les informations contenues dans le manifeste.

Le modèle du C2PA repose aussi sur la technologie du fixage numérique (content binding). Grâce à elle, les pixels formant une image, leurs métadonnées et le manifeste C2PA de cet actif se retrouvent associés en un élément unique au moyen d’un algorithme de chiffrement. Cet algorithme génère pendant l’opération une empreinte cryptographique unique. Cette dernière indiquera quelle version d’un document a été publiée et confirmera donc l’absence de modification.

L’autre défi du C2PA, son application

Les travaux du C2PA ne sont pas uniquement d’ordre technique. L’organisation collabore avec des ONG comme Witness (qui vise à aider à l’utilisation de la vidéo et de la technologie pour protéger et défendre les droits de l’homme). Objectif : anticiper les externalités négatives ou les difficultés que la mise en application de ce modèle générerait.

Que faire si une photographie révèle l’identité des interprètes ou des « fixeurs » ayant aidé les journalistes dans des zones de guerre ? Ce modèle n’aurait-il pas pour effet pervers d’exclure les organisations n’ayant pas les moyens de l’adopter ? Une grille d’analyse, disponible sur le site du C2PA, anticipe ces cas de figure.

La mise à jour de ces spécifications a lieu alors que les entreprises spécialisées dans les systèmes d’IA ont annoncé, à la demande du président américain Joe Biden, la prise de résolutions, au mois de juillet 2023. Elles visent à rendre cette technologie « sûre et digne de confiance ». Parmi ces engagements volontaires figure le développement de mécanismes permettant d’indiquer si une image a été générée par une IA.

Le C2PA semble idoine pour atteindre objectif. Signe de la pertinence de ce modèle, la CAI a vu, depuis le début 2023, le nombre de ses adhérents augmenter de moitié, pour atteindre 1 500 membres parmi lesquels se trouvent des agences de presse (Reuters, AFP…), des fabricants d’appareils électroniques (Canon, Nikon…) ou des entreprises spécialistes de l’AI (stability.ai, smartly.io…).

Pour être efficace, les spécifications présentées par le C2PA doivent être unanimement adoptées. Les acteurs présents à toutes les étapes de la création et de l’édition de l’image doivent être inclus dans ce modèle. Le premier modèle du CAI mis au point en 2022 a été possible grâce à la collaboration entre d’Adobe, le fabricant américain de puces électroniques Qualcomm et le spécialiste de la vérification d’images numériques Truepic. Pour généraliser ces standards, plusieurs entreprises s’engagent. Les fabricants d’appareils photo Nikon, Leica et Sony ont annoncé les suivre pour faire fonctionner leurs appareils utilisés par les photoreporters.

En mai 2023, Satya Nadella, le président de Microsoft, a annoncé que ces spécifications serviront au traçage des créations générées par le logiciel Bing Image Creator. L’exhaustivité n’est cependant pas encore atteinte et des noms importants manquent à l’appel. Si Google trace de son côté les métadonnées issues d’images créées par IA, il le fait seulement en suivant les métadonnées utilisées par l’International Press Telecommunication Council. L’arrivée d’Elon Musk à la tête de Twitter (rebaptisé X) a mis fin à la participation du réseau social au projet.

Plus qu’une adoption insuffisante des grandes plateformes, le principal risque d’échec de ce modèle serait un malentendu de la part du public. Le C2PA n’est pas une panacée affirmant si une image a été « fabriquée ». Il indique simplement si toutes les informations sur l’origine et l’utilisation d’un média sont disponibles à un instant précis.