Sûreté de l'IA : une coopération stratégique entre Londres et Washington

La Grande Bretagne et les Etats-Unis ont conclu un accord de collaboration scientifique pour rendre plus sûrs les modèles d’IA générative de dernière génération. Alors que la sûreté de cette technologie attire de plus en plus l’attention et qu’un sommet lui a été récemment consacré à Séoul, Incyber News revient sur les enjeux de ce partenariat stratégique.

Le 1er avril 2024, un accord diplomatique d’un genre nouveau a été conclu entre les Etats-Unis et le Royaume-Uni. La secrétaire d’Etat à la Science britannique, Michelle Donelan, et la secrétaire d’Etat au Commerce américaine, Gina Raimondo, ont signé un memorandum of understanding stipulant que les Instituts de recherche sur la sûreté de l’IA des deux pays travailleront de concert.

Concrètement, l’accord prévoit un partage de connaissances et d’expertises entre les deux agences, la conduite commune d’au moins un test de sûreté sur un modèle d’IA de dernière génération (que les autorités qualifient de Future AI) et la mutualisation de la grille d’analyse des risques et des moyens de prévention identifiés. Il s’agit du premier cas de collaboration de deux Etats au sujet de la sûreté de l’IA. Il sera appliqué à l’occasion de travaux conjoints de l’Artificial Intelligence Safety Institute britannique et de son homologue (et homonyme) américain.

Cet accord est l’application de la déclaration de Bletchey, qui avait clôturé l’AI Risk Summit qui s’était tenu au Royaume-Uni début novembre dernier. A cette occasion, les représentants de vingt-neuf puissances, dont la Chine, les Etats-Unis et l’Union Européenne, reconnaissaient, d’une part, l’existence des risques, connus ou inconnus, engendrés par l’apparition des modèles d’IA et d’autre part que seule la collaboration interétatique pouvait les prévenir.

Le 2 novembre 2023, un accord déclarait que ces mêmes modèles devront faire l’objet de tests, aussi bien par les programmeurs que par les autorités de régulations, que ce soit avant ou après leur mise en service auprès du grand public. Il prévoit également que les parties signataires échangeront et partageront les connaissances dont elles disposent. L’intelligence artificielle est devenue un sujet diplomatique.

Une reconnaissance des dangers de l’IA

L’AI Risk Summit fut comparé à l’élaboration de l’AI Act. Les modalités de régulation de l’IA abordées lors de ces deux évènements diffèrent néanmoins. Le règlement européen prévoit de classer les usages possibles de cette technologie en fonction de leur dangerosité alors que l’AI Risk Summit aspire à prévenir les risques les plus graves : l’utilisation de l’IA à des fins malveillantes ou bien la perte de contrôle sur le fonctionnement d’un modèle.

Ce double objectif requiert de mettre en commun les connaissances et les outils déjà disponibles. La priorité est d’exécuter le plus rapidement possible des mesures préventives, sans donner naissance à une législation supplémentaire perçue comme contraignante pour mettre au point de nouveaux modèles.

L’IA peut en effet occasionner un nombre élevé de menaces. Celles-ci sont d’autant plus importantes que cette technologie est massivement utilisée : une étude britannique datant du mois de janvier 2022 a indiqué qu’une entreprise sur six, soit plus de 400 000, travaille au quotidien avec l’aide d’un modèle d’IA. Ces risques peuvent être des cyberattaques rendus possibles par l’analyse automatique d’un système informatique pour identifier une faille ou encore la fabrication artisanale d’explosifs ou d’armes chimiques à l’aide d’informations rassemblées par Gemini ou ChatGPT.

L’IA est enfin utile pour manipuler l’opinion publique, notamment par la création de fake news par un modèle génératif. A l’utilisation malveillante de l’IA s’ajoutent des risques indirects. Le code d’un algorithme peut être modifié de manière à donner des résultats tronqués ou révéler les données personnelles ayant servi à son entraînement. Des dommages peuvent enfin être causés par l’autonomie croissante d’un système apprenant, capable d’accomplir certaines opérations dangereuses sans la supervision d’un être humain.

L’IA peut enfin amplifier des menaces déjà existantes, comme le montre le cas de Jaswant Singh Chai. Ce Britannique de 19 ans a été arrêté le jour de Noël 2021 en s’introduisant dans le château royal de Windsor. Armé d’une arbalète, il a indiqué à la police vouloir tuer la reine Elizabeth II. L’enquête a établi que le suspect, qui souffrait de troubles mentaux, amplifiés par le confinement, avait souscrit le 2 décembre 2021 un abonnement à un chatbot de compagnie développé par Replika. Il avait échangé 5000 messages avec un bot faisant office de « compagne ». Ceux-ci, présentés à la presse pendant le procès du jeune homme en octobre dernier, indiquent que le chatbot le soutenait dans son entreprise. La vulnérabilité des sociétés face à ces risques est donc autant technique que sociale.

Quelle protection contre ces risques ?

Le texte de l’accord du 1^e avril dernier renseigne sur les moyens de se protéger. Il prévoit de partager les pratiques et grilles d’analyse (« shared framework ») qu’utilisent les deux organismes de recherche en AI Safety. Pour disposer de ces grilles, les laboratoires à l’origine des modèles d’IA établissent des « responsible capacity scaling ». Il s’agit d’un plan de déploiement des mesures de sécurité dans lequel sont recensés les dangers qu’un modèle d’IA occasionne ainsi que les mesures prévues pour y répondre.

La société Anthropic a proposé en septembre 2023 une échelle de ce type, en reprenant les standards de sécurité utilisés pour les armes bactériologiques. Ce plan distingue les risques issus du fonctionnement d’un modèle génératif et ceux provenant de la simple possession d’un modèle par des acteurs jugés hostiles. Un modèle y est classé en fonction de son niveau de dangerosité associé à un ensemble de risques (cyberattaque, risque chimique et biologique, désinformation) avec des mesures de sécurité correspondantes. Anthropic n’est pas seule à disposer de sa grille. La société Open AIR a publié son » Preparedness Framework “ au mois de décembre 2023 et Google DeepMind son « Frontier Safety Framework » en mai 2024. Le « responsible capacity scaling » n’a néanmoins pas de valeur prescriptive et ne porte que sur les dommages les plus importants. Ces démarches sont purement volontaires mais ont néanmoins été jugées comme nécessaires et la ministre britannique Michelle Donelan a émis le souhait de les généraliser dans un discours en octobre 2023.

Un autre sujet concerne les tests à mener pour estimer la dangerosité effective d’une IA. Ces tests consistent à présenter à un modèle des tâches afin d’évaluer sa vitesse d’exécution et sa capacité à causer des dommages. Plusieurs organisations ont récemment présenté des protocoles de tests. ML Commons, une ONG spécialiste de la technologie du machine learning, a présenté le test ML Commons AI Safety Benchmark en avril 2024. Il s’agit d’un ensemble de prompts à soumettre à un modèle de langage. En fonction des résultats obtenus, il est possible d’établir si un modèle présente un niveau faible ou bien élevé de dangerosité. La version rendue publique n’est qu’un proof of concept et une version achevée sera présentée à la fin de l’année 2024.

Une autre ONG américaine METR (qui avait contribué au “responsible capacity scaling” d’Anthropic) a présenté en mars 2024 sa méthode d’évaluation des risques provenant de l’autonomie qu’acquiert un système d’IA. Enfin, l’AI Safety Institute britannique a présenté au mois de mai 2024 sa propre plate-forme baptisée Inspect. Elle fonctionne, elle aussi, en soumettant des modèles à des tests pour obtenir un score indiquant la dangerosité du modèle.

Lors de la présentation d’Inspect, Ian Hogarth, le directeur de l’AI Safety Institute, a appelé à son adoption par les start-ups, les chercheurs ou les organismes de régulation. Ce souhait illustre la collégialité de cet effort de surveillance des modèles d’IA. C’est pour cela qu’un aréopage de 32 universitaires a été réuni lors de L’AI Risk Summit pour rédiger un rapport sur les dangers de l’IA : l’International Scientific Report on Advanced AI Safety. Ce document doit garantir la compréhension de tous ces risques et fournir les moyens de les prévenir. Une première édition a été présentée pour faire l’objet du second sommet sur l’AI Safety, qui s’est tenu au mois de mai 2024 à Séoul. Une autre version, plus complète, est prévue pour le troisième sommet qui se tiendra à Paris en 2025. L’accord britannico-américain n’est ainsi que la première étape ce que Michelle Donelan a qualifié de « conversation à l’échelle mondiale pour un développement sans danger de l’IA. »