Mythos, boîte de Pandore ou mystification ?

Une IA si puissante qu’elle peut hacker toute seule et ne saurait donc être diffusée au grand public. Avec Claude Mythos, Anthropic a frappé un grand coup… au moment même où elle cherche à séduire investisseurs et partenaires techniques. Derrière un emballement très (trop ?) opportun, quels sont les réels dangers de Mythos ? INCYBER fait le point.

Trop puissante, trop autonome, trop dangereuse : à peine Anthropic dévoilait-elle Claude Mythos Preview début avril, qu’elle tentait de refermer la boîte de Pandore : pas de diffusion publique, mais un accès restreint via le Project Glasswing. Elle ne dévoilait pas un nouveau modèle d’IA performant en cybersécurité, elle mettait en scène une rupture technologique, suscitant aussitôt un buzz mondial. Un crime trop parfait pour être vrai ?

Sur le fond, pourtant, quelque chose a changé. Avec 100 % de succès, Claude Mythos sature les benchmarks Cybench, référence académique dans le milieu. Mieux, sur des exercices de l’UK AI Security Institute (AISI), plus complexes et gradués de « débutant » à « expert », il « a un taux de réussite de 73 % » au niveau expert, souligne l’AISI. Ce n’est pas un score spectaculaire en soi, sauf quand on se souvient que ces tâches étaient hors de portée des modèles il y a encore un an. Et encore, il ne s’agit là que d’exercices de type capture-the-flag : l’IA doit trouver une faille et récupérer un flag, une preuve de succès, soit des exercices cyber isolés.

Si, toujours selon l’AISI, Mythos « représente un progrès par rapport aux modèles de pointe précédents », c’est à cause de son succès dans le scénario The Last Ones, une simulation complète d’attaque informatique en 32 étapes. Là où un humain met une vingtaine d’heures, Mythos est le premier modèle à l’avoir bouclé de bout en bout, avec trois réussites sur 10 et 22 étapes accomplies en moyenne, contre 16 pour Claude Opus 4.6, son plus sérieux challenger. Si Mythos fait si peur, ce n’est donc pas parce qu’il a obtenu une bonne note à un examen standardisé, mais parce que les examinateurs ont dû jeter le questionnaire au feu et lui demander d’aller cambrioler une fausse entreprise.

Mythos fait disparaître la friction

Anthropic pousse le récit encore plus loin. Dans ses propres tests, l’entreprise affirme que le modèle peut identifier et exploiter des failles critiques sans intervention humaine, allant jusqu’à décrire des exploits complets produits pendant la nuit. « Mythos Preview a été capable de trouver et d’exploiter des vulnérabilités zero-day dans chaque système d’exploitation majeur et chaque navigateur Web majeur ». Exemple saisissant, celui d’une faille FreeBSD vieille de 17 ans, trouvée et exploitée dans la foulée.

Derrière le discours sensationnaliste, une réalité de terrain, que résumait Andrés Mendoza, directeur technique de Zoho Corporation B.V., lors du Forum INCYBER 2026 : « les attaquants utilisent un outil simple que vous utilisez vous-même quotidiennement : ChatGPT », avant d’ajouter qu’il « réduit considérablement le temps nécessaire à la création de quelque chose ». Autrement dit, Mythos s’inscrit dans une tendance déjà à l’œuvre : la compression du temps, la disparition de la friction.

Et c’est cette friction qui protégeait en partie les entreprises. Exploiter la mauvaise configuration, le vieux composant, l’authentification mal conçue ou la chaîne de bugs nécessaire coûte du temps, du talent et du sang-froid. Là où une attaque demandait des jours de préparation et de tâches fastidieuses, elle ne prend maintenant que quelques minutes. La nouveauté de Mythos n’est pas d’avoir inventé ce mouvement, mais de l’avoir poussé jusqu’à un niveau où l’agent ne se contente plus d’assister : de la découverte de la faille à sa transformation en exploit fonctionnel, il enchaîne, bouleversant le rapport de forces entre attaquants et défenseurs.

Le buzz qui valait 800 milliards

C’est ce qui explique la brutalité de la réaction d’Anthropic : le modèle est placé sous contrôle via le programme Glasswing, assorti de 100 millions de dollars de crédits. Il est accessible uniquement à un cercle restreint d’acteurs triés sur le volet, 12 membres fondateurs, des géants comme les GAFAM, la Linux Foundation ou Nvidia. Le reste des 40 infrastructures critiques et partenaires de confiance est gardé dans l’ombre, transformant son modèle en atout d’autant plus stratégique que la plupart des sociétés n’en disposent pas, créant une distorsion de concurrence potentiellement majeure. Un problème qui se retrouve aussi au niveau étatique, puisque la NSA (National Security Agency, l’agence de renseignement électronique des USA) a admis l’employer. À des fins purement défensives ? La Chine, la Russie, l’Iran ou la Corée du Nord le sauront peut-être bientôt.

Si Anthropic met en avant la prudence pour expliquer ce choix, il s’inscrit aussi dans un contexte très particulier. La société est en pleine montée en puissance financière, avec des valorisations évoquées à plusieurs centaines de milliards de dollars. Elle espère rafler 400 à 500 milliards de dollars lors de son introduction en bourse prévue en octobre prochain. Certains investisseurs valoriseraient même la société à 800 milliards ! Anthropic a également massivement investi dans les infrastructures de calcul. Dans ce cadre, affirmer qu’un modèle est « trop dangereux pour être diffusé » produit un effet immédiat : un modèle rare, cher, sensible et convoité vaut davantage qu’un modèle simplement « bon ». Le storytelling est redoutablement efficace, pile au moment où il faut impressionner les investisseurs. Histoire de leur mettre encore plus la pression, les autorités financières britanniques et américaines se sont réunies chacune de leur côté pour évaluer les risques liés à Mythos.

David contre Goliath

La rareté est d’autant plus rentable que Mythos semble coûteux à faire tourner utilement. Anthropic n’explique pas publiquement combien coûte une vraie campagne de recherche de vulnérabilités de bout en bout, mais il est certain que le modèle est lourd à faire tourner. Sur la page Glasswing, certains benchmarks de Mythos sont donnés avec des budgets d’un million de tokens par tâche, plusieurs essais et des fenêtres de temps étendues. Au tarif de 25 dollars par million de tokens en entrée et 125 dollars par million de tokens en sortie après la phase de crédits alloués au partenaire, Mythos n’est pas à la portée de toutes les bourses.

D’autant que les critiques n’ont pas tardé. Des chercheurs et des acteurs comme AISLE ont montré que des modèles plus petits pouvaient retrouver certaines vulnérabilités mises en avant par Mythos, ou réexploiter certaines démonstrations. VentureBeat résume l’un de ces contre-arguments : huit modèles sur huit auraient détecté le bug FreeBSD mis en avant par Anthropic, avec un petit modèle de 3,6 milliards de paramètres affiché à 11 cents par million de tokens, soit une fraction des ressources et du prix nécessaire au modèle d’Anthropic. Voilà de quoi casser la magie : non, Mythos n’est pas nécessairement une « super-arme secrète » au sens où lui seul saurait voir l’invisible.

Il ne détruit pourtant pas l’argument central d’Anthropic, car les petits modèles sont performants quand on les guide vers la bonne cible, la bonne famille de bug. L’avantage revendiqué de Mythos n’est pas seulement de savoir crocheter une serrure, mais d’errer seul dans le bâtiment jusqu’à trouver la porte dérobée.

Mythos le menteur

Une autonomie qui est à la fois la clef du succès de Mythos… et sans doute son plus grand danger. Anthropic affirme fièrement que Mythos est « nettement plus performant et utilisé de manière plus autonome et proactive que tout modèle précédent ». Pourquoi ? Tout d’abord, pendant que vous dormez, Mythos repasse en revue ses actions de la journée pour corriger ses erreurs et continue à travailler, mais surtout, il plonge avec délices dans une zone grise.

Le rapport de risque de l’entreprise note que le modèle peut adopter des comportements problématiques pour atteindre son objectif, évoquant pudiquement sa « volonté d’accomplir des actions non conformes ». Il est ainsi capable de mentir sur son identité ou de s’échapper d’un environnement sécurisé et de publier tout seul son exploit. Dans une version précoce du modèle, Mythos était capable d’effacer ses traces après une action interdite ou d’affirmer qu’il suivait les règles alors qu’il les enfreignait. Anthropic nous assure que les dernières versions corrigent en partie ces comportements. Espérons-le, car le cœur du problème est là. À partir du moment où un modèle choisit lui-même comment surmonter un obstacle, la frontière entre une initiative utile et une initiative dangereuse devient d’autant plus mince que personne n’est réellement en mesure de contrôler quand la ligne jaune est franchie.

Là encore, Mythos ne fait qu’accélérer un processus déjà en cours. Au Forum INCYBER 2026, Pierre Meganck, Consultant en cybersécurité chez LINKT, décrivait déjà des systèmes où l’IA ne se contente plus d’exécuter : « L’agent d’IA va dire tout seul qu’il faut attaquer ces trois entreprises-là parce qu’elles sont plus facilement attaquables ».

Fuites à gogo chez Anthropic

L’IA ne change pas la nature de la menace, mais sa vitesse et sa profondeur. Les attaques deviennent plus rapides, plus nombreuses, plus personnalisées, elles exploitent mieux la donnée et ciblent mieux leurs victimes. Mythos automatise et autonomise ce processus, creusant l’écart entre la vitesse de l’attaque et celle de la défense. Or, toute la cybersécurité repose sur ce différentiel de vitesse. « Il y a un déséquilibre qui est en train de s’opérer, une forme d’asymétrie préoccupante », avertissait déjà le colonel de gendarmerie Hervé Petry, commandant de l’unité nationale cyber, lors du Forum INCYBER 2026, Pascal Le Digol, country manager France de Watchguard Technologies, appuyait ce propos lors de la même table ronde : « Ce n’est plus juste une petite avance, ils [les hackers, ndlr] ont une vraie réserve technologique. […] Ça fait un écart de rattrapage colossal. »

Même si le discours alarmiste sert ses intérêts, Anthropic a donc raison de souligner le saut de capacité que représente son modèle. Mais son armure de chevalier blanc de la sécurité se fissure quelque peu quand on constate qu’elle a laissé fuiter près de 3 000 documents, pour la plupart en lien avec le développement de Mythos. Pire, quelques jours plus tard, c’étaient carrément plus de 500 000 lignes de code de Mythos et 1 900 fichiers qui se retrouvaient dans la nature. Et en essayant d’effacer les traces de cette bourde, la société a provoqué le retrait accidentel de 8 100 dépôts GitHub, dont la plupart étaient parfaitement légitimes.

« Un niveau de rigueur insuffisant »

Enfin, on apprenait qu’« un petit groupe de personnes non autorisées » avaient accédé à Mythos le jour même où Anthropic annonçait limiter sa diffusion aux happy few de la tech. Bref, le paradoxe est presque parfait : l’entreprise qui affirme avoir créé un outil capable de détecter et exploiter des failles complexes se retrouve fragilisée par des erreurs opérationnelles relativement classiques, telles que des processus internes défaillants, une mauvaise gestion de ses partenaires ou de ses accès… On en revient toujours aux bases, la cybersécurité ne tient pas seulement à la puissance des IA, mais commence par la maîtrise du facteur qui se situe entre le fauteuil et le clavier. Et là, Anthropic ne fait pas de miracle, loin de là.

Comme le souligne le rapport de risque qu’a publié l’éditeur à propos de Mythos, « lors du développement de Mythos Preview, nous avons identifié des erreurs dans nos processus de formation, de surveillance, d’évaluation et de sécurité. Nous ne pensons pas que ces erreurs présentent des risques importants pour la sécurité d’un modèle de ce niveau de performance, mais elles témoignent d’un niveau de rigueur insuffisant pour des modèles futurs plus performants ». Si l’on exclut le fait qu’elle s’exonère de sa responsabilité pour la maîtrise du modèle actuel, c’est probablement la phrase la plus honnête de toute l’affaire. Elle souligne en creux que si Mythos est assez impressionnant pour inquiéter sérieusement, Anthropic semble mieux maîtriser l’art du buzz que le monde qu’elle est en train d’ouvrir.