Dark web : du vol de bases clients à la revente d’accès, anatomie des données disponibles

Le « dark web » désigne un ensemble d’espaces où circulent et se négocient des données issues d’activités cybercriminelles. Ces environnements regroupent des forums parfois indexés par des moteurs de recherche, des plateformes semi-publiques et des canaux de messagerie tels que Telegram. Des contenus initialement réservés à des cercles restreints finissent souvent par être relayés dans des espaces plus ouverts, voire diffusés gratuitement. Ce basculement s’explique par plusieurs facteurs : absence d’acheteurs, conflits entre acteurs malveillants ou stratégies visant à renforcer une réputation au sein de ces communautés.

Les bases de données personnelles, première famille de données disponibles

La première grande catégorie de données visibles sur ces espaces correspond aux bases de données personnelles issues de fuites. « Il est très courant de trouver sur des forums généralistes comme ‘BreachForums’ la vente ou le partage de listings issus de fuites associées à des services grand public ou à des organisations très visibles. Ces listings contiennent des e-mails, des numéros de téléphone, des adresses postales et parfois des attributs additionnels. Ces derniers peuvent être des dates de naissance, des historiques ou des montants d’achats effectués sur des sites marchands, etc. La circulation de ces données est rapide : annonce, preuve d’échantillon puis transaction », explique David Sygula, Head of CTI chez Anozr Way.

Plusieurs outils d’analyse permettent de mieux caractériser la nature de ces données personnelles compromises. La page « Data breach statistics globally », fournie par la société Surfshark, met en avant le chiffre astronomique suivant : depuis 2004, 23,5 milliards d’adresses e-mail ont été divulguées à l’échelle mondiale, auxquels 58,5 milliards de points de données personnelles viennent s’ajouter. La France représente à elle seule 717 millions d’e-mails divulgués et près de deux milliards de points de données.

Les experts de Surfshark ont classé 100 types de points de données en neuf catégories distinctes. L’analyse révèle que trois de ces catégories constituent le cœur de la plupart des fuites de données. La première catégorie concerne les mots de passe (30,4 % de toutes les fuites). Il s’agit des mots de passe en tant que tels, mais aussi des indices qui permettent de les retrouver en cas d’oubli, des questions de sécurité et de leurs réponses. La France se classe au deuxième rang mondial dans cette catégorie avec 588 millions de points de données.

La deuxième catégorie de points de données touche aux informations personnelles (28,8 % de toutes les fuites). Elle contient des données très sensibles telles que les noms complets, les numéros de sécurité sociale, les numéros de téléphone, les dates de naissance et les numéros de documents d’identification. La France se classe au deuxième rang mondial dans cette catégorie avec 492 millions de points de données. Enfin, la troisième catégorie a trait à la localisation (22,9 %) : adresses physiques, codes postaux, fuseaux horaires et localisations basées sur l’adresse IP. La France se classe au troisième rang mondial avec 307 millions de points de données.

Fichiers exfiltrés et accès aux réseaux et systèmes d’information d’entreprises

Après les données personnelles viennent les documents internes d’entreprises ou d’organisations. « Il s’agit de fichiers exfiltrés ou récupérés via des expositions plus opportunistes : partages insuffisamment sécurisés, espaces cloud mal configurés, accès VPN ou serveurs compromis, insiders », note David Sygula. Ces documents peuvent provenir d’attaques structurées, mais aussi d’expositions accidentelles ou de fuites internes. L’expert insiste sur la diversité des origines de ces données, ainsi que sur l’usage de l’extorsion. Certains attaquants menacent en effet de publier ces documents si l’entreprise ne paie pas une certaine somme. Puis ils justifient la mise en ligne en avançant l’argument suivant : « Nous les avons contactés, ils ont refusé ».

La troisième grande famille de données disponibles sur le dark web concerne la vente d’accès aux réseaux et systèmes d’information de certaines organisations. David Sygula décrit un marché très actif où des acteurs spécialisés obtiennent et maintiennent des accès persistants, puis les revendent, souvent sans nommer explicitement la cible dans l’annonce. « La description se fait par indices : secteur, taille et chiffre d’affaires de l’entreprise concernée. La négociation bascule ensuite rapidement sur des messageries chiffrées. Le paiement se fait majoritairement en cryptomonnaies (Bitcoin, Ethereum…) afin de limiter la traçabilité et éviter des marqueurs géographiques trop explicites », explique-t-il.

La valeur opérationnelle de ces informations tient surtout à leur capacité à être agrégées

En marge de ces trois familles principales s’est développée une économie plus diffuse liée à la vente de comptes et d’identifiants. Des lots de comptes Netflix ou Spotify sont ainsi accessibles, ainsi que des identifiants récupérés via des infostealers (logiciels malveillants conçus pour collecter automatiquement des informations sensibles depuis un appareil compromis). « La valeur unitaire est souvent faible, mais la logique repose sur le volume et sur la capacité à tester puis trier les identifiants réellement utilisables avant revente », précise l’expert en cybersécurité.

Il est également à noter que, dans les fuites grand public récemment survenues (France Travail, Viamedis, Almerys, Free, Boulanger, Colis Privé, etc.), les mots de passe apparaissent moins souvent qu’avant. David Sygula explique néanmoins que les bases exposées agrègent de nombreuses informations personnelles permettant de contextualiser les attaques. « Nous passons d’une logique de compromission de compte à une logique d’ingénierie sociale, où les données servent à rendre crédible un appel, un SMS ou une visite, puis à obtenir des validations ou des paiements par manipulation », commente-t-il.

L’agrégation de plusieurs fuites permettant de construire des profils très exploitables, certains cybercriminels vont jusqu’à créer des annuaires « enrichis » accessibles via abonnement. « L’ensemble des données disponibles alimentent du phishing et des escroqueries hybrides (numérique + physique). Celles-ci incluent des messages personnalisés et des étapes de réassurance (appel téléphonique, coursier) rendues possibles par la connaissance de l’adresse et d’éléments de contexte », souligne David Sygula.

Enfin, l’expert en cybersécurité rappelle que certaines données en open data ou des fichiers légalement accessibles peuvent être repostés sur des forums du dark web, puis présentés comme un « hack » pour gagner en réputation. « Cette republication joue aussi un rôle opérationnel : elle facilite l’accès à des données publiques à des personnes qui ne savent pas les récupérer, ce qui augmente mécaniquement les usages malveillants possibles (arnaques, usurpation de contexte, ciblage). Nous pouvons citer l’exemple d’un fichier de personnes décédées mis à disposition par l’INSEE qui est redistribué dans des espaces cybercriminels avec des commentaires explicitant des usages offensifs possibles », conclut David Sygula.