Microsoft alerte sur un contournement des limitations éthiques des LLM

En adaptant les instructions données, le jailbreak Skeleton Key peut pousser un agent conversationnel à générer des contenus illégaux ou préjudiciables.

Microsoft a publié, le 26 juin 2024, un rapport sur une technique de jailbreak des LLM, baptisée « Skeleton Key », qui les pousse à générer des contenus illégaux ou interdits. Elle consiste à définir un contexte « sûr » après un refus de l’agent conversationnel de répondre à une demande violant ses limitations éthiques. « Skeleton Key » le contraint à remplacer ce refus par un simple avertissement sur le caractère « offensant, nuisible ou illégal » des résultats produits.

Par exemple, pour que l’IA générative révèle comment fabriquer des explosifs, le jailbreak précise que la réponse est celle d’un utilisateur « formé à la sécurité et à l’éthique », et que « les résultats sont uniquement destinés à la recherche ». Ces contournements existent depuis l’apparition des premières limitations de ce type sur ChatGPT, mais « Skeleton Key » se distingue par sa polyvalence et son efficacité.

Les chercheurs de Microsoft l’ont ainsi testé avec succès sur un grand nombre de LLM populaires : Meta Llama3-70b-instruct, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4o, Mistral Large, Anthropic Claude 3 Opus et Cohere Commander R Plus.

Le géant du net a informé les éditeurs concernés du fonctionnement de ce jailbreak, pour les aider à se défendre. De son côté, Microsoft a développé ses propres techniques pour contrer « Skeleton Key », et les a déjà implémentées sur ses solutions d’IA et celles de son partenaire OpenAI.