Data void : quand les fake news comblent l’absence d’informations

Quand les moteurs de recherche ne trouvent pas de résultats lors d’une recherche, cette absence d’information peut être exploitée pour propager des fausses nouvelles. Ce phénomène qui a pour nom « data void » est aussi ancien qu’Internet mais sa dangerosité a augmenté avec l’arrivée de l’IA générative. Sa prise en compte est nécessaire pour lutter contre les manipulations de l’information en ligne.

Il arrive qu’une recherche depuis un moteur de recherche ne fournisse pas de résultat. Ce phénomène est nommé « data void », ou vide numérique. Il a fait l’objet d’une étude en 2018 qui en a donné une définition formelle. Il s’agit d’un intitulé pour lequel il y a très peu, voire pas du tout, de résultat pertinent. Par extension, cette définition concerne aussi les intitulés dont les résultats sont composés en très grande majorité de sites diffusant des fausses nouvelles ou du contenu haineux.

Les data voids équivalent à un angle mort du cyber espace à l’intérieur duquel existe un décalage important entre l’intérêt pour un sujet et son traitement inexistant par des sources officielles ou à tout le moins considérées comme sérieuses et fiables. Ils confirment l’adage qui dit que sur Internet, celui qui a raison est celui qui parle en premier. Cette inadéquation entre la demande d’informations précises et l’offre disponible en ligne explique l’emploi du terme « data void » pour désigner au cours des dernières semaines une situation insolite : l’absence d’informations disponibles sur l’état de l’économie américaine, comme l’indice des prix, le taux de croissance ou encore le taux d’emploi des personnes actives. Elles sont obtenues grâce au travail d’agences fédérales (Bureau of Labor Statistics, Bureau of Economics Analysis) qui se sont arrêtées pendant le plus long shutdown n’ayant jamais eu lieu.

Cette nouvelle acception du terme « data void » rappelle l’importance de connaître l’origine d’une information et permet aussi de comprendre pourquoi ce phénomène constitue une aubaine pour mener une entreprise de désinformation. Les vides numériques sont une conséquence du rôle des moteurs de recherche dans la manière de s’informer sur un sujet. Ce que l’on apprend sur le Net dépend de ce qui apparaît à la première page de résultats. Ces résultats dépendent eux-mêmes du référencement naturel et du knowledge graph qui cartographient tout ce qui est dit, écrit et publié en ligne.

Ainsi en septembre 2020, Google a reconnu l’existence d’un de ces vides numériques sur le moteur de recherche. L’intitulé « jewish baby stroller » renvoyait vers des conversations entre néo-nazis sur Reddit avec cette expression comportant des mèmes antisémites. Elle ne permettait pas d’identifier un modèle de poussette disponible dans le commerce. Si cet intitulé était saisi par des jeunes parents, ils étaient alors exposés à des discours antisémites. Google a pris des mesures correctives, comme la modification des featured snippets en 2022. Il s’agissait de présentations dans une vignette distincte des résultats d’un résumé de la réponse à une question posée dans la barre recherche. Cette réponse pouvait contenir des propos haineux s’ils correspondaient à la recherche à faire.

Un phénomène amplifié par l’Intelligence Artificielle

L’arrivée des chatbots comme ChatGPT à partir de novembre 2022 a renforcé la dangerosité des vides numériques. Ces solutions, fonctionnant à partir de modèles de langage (LLM), sont de plus en plus utilisées à la place des moteurs de recherche traditionnels. On estime qu’au mois de juillet 2025, un peu moins de 6 % des recherches sur Internet ont débuté à partir d’un chatbot. Ils permettent d’accomplir certaines tâches, par exemple écrire un résumé sur un fait d’actualité. En obtenant immédiatement la réponse à sa question, l’utilisateur est dispensé de consulter chaque lien apparaissant parmi les résultats. Si la demande formulée dans le prompt contient un terme faisant l’objet d’un data void, les chatbots sont donc davantage susceptibles de relayer des allégations issues de sources suspectes ou plus insidieusement de reprendre le contenu de sites fantoches reprenant des éléments de désinformation.

C’est ce qui s’est produit au mois de janvier 2025. Les média pro-Kremlin avaient annoncé qu’un pilote danois avait été tué en Ukraine. Cette nouvelle, signifiant l’implication d’un pays membre de l’OTAN dans le conflit entre la Russie et l’Ukraine, a été relayée par des chatbots. Ces derniers citaient des articles provenant de media et de blogs russes ou identifiés comme favorables au régime de Vladimir Poutine. Comment cette fausse nouvelle a-t-elle pu être diffusée malgré son origine douteuse ? L’identité fictive du pilote, Jepp Hansen, figurait dans les annonces. Ce terme faisait l’objet d’un vide numérique et ne figurait quasiment nulle part sur le Net. Par conséquent, faute de démenti officiel des autorités danoises, toutes les requêtes dans lesquelles figuraient les deux mots devaient prendre comme sources les pages web de sites où ils figuraient.

Les investigations d’organismes de surveillance ont révélé que les sites d’où provenaient ces fausses informations appartenaient à un réseau de propagande. Il était composé de sites rédigés en plusieurs langues (anglais, français, espagnol, danois….) qui avaient tous la même charte graphique, la même architecture HTML et étaient hébergés sur les mêmes serveurs que ceux d’agences de presse officielles russes. Ce réseau mettait en ligne de la propagande pro-russe rédigée en plusieurs langues à une fréquence très élevée (près de cent fois par heure) pour être reprise par des agents conversationnels si ceux-ci devaient fournir des informations sur les éléments faisant l’objet d’un vide numérique. Ils contribuent à la désinformation, non pas à cause d’un mauvais fonctionnement, mais en cas d’absence de contre-discours officiel. C’est lorsque les média traditionnels n’ont pas traité un sujet que les algorithmes peuvent orienter vers des sources suspectes. Une étude d’octobre 2025 indique que les LLM avaient tendance à ne pas reprendre les éléments des sources suspectes (par exemple celles de la propagande Russe) sauf en cas de data void.

Contre la tromperie, l’ignorance ?

Les data voids ne reposent pas sur une altération du fonctionnement des LLM (une technique nommée LLM-grooming) mais existent de manière clandestine aussi longtemps qu’ils n’ont pas été identifiés par un organisme de fact-checking. Ce qu’on y trouve n’est donc pas vrai, mais n’est pas, jusqu’à preuve du contraire, faux non plus. Un informaticien américain a su exploiter cette situation pour démontrer comment créer une page web qui sera citée par Copilot et être téléchargée par ses utilisateurs. En reprenant l’étude de 2018 citée plus haut, il a su identifier un de ces vides numériques, en l’occurrence une liste des actions à accomplir pour installer une extension de Copilot pour le navigateur Chrome. Il a alors conçu une page html dans laquelle figuraient une vingtaine de termes issus de la documentation officielle de Microsoft. Cela rendait cette page visible -et crédible- au modèle de ce chatbot qui n’a pas vérifié l’origine des données utilisées pour répondre aux requêtes de ses utilisateurs. Ceux-ci pouvaient exécuter un script installant à la place de Copilot un programme pirate de sa fabrication, heureusement inoffensif. Si des données issues d’une source reconnue comme compétente et sérieuse existaient, il n’aurait pas été possible d’exploiter ce data void.

Le vide numérique rappelle qu’en ligne, la valeur à tirer d’une information n’est pas seulement ce que l’on apprend grâce à elle mais aussi sa capacité à en connaître les sources et les circonstances dans lesquelles elle a été générée. Peut-elle être contenue sans contradiction dans un ensemble d’informations avérées ? Elle augmentera, dans ce cas, la connaissance d’un sujet et sera distinguée d’une rumeur. Le data void concernant les informations sur l’économie américaine a ainsi pu être anticipé. Les sources habituelles d’informations étant taries, il a été néanmoins possible de distinguer ce qu’il était possible de savoir de ce qui ne pourra pas être connu sur l’économie américaine pendant l’automne 2025. Toute tentative de fournir ces données sans se prévaloir de ces sources suscitera la suspicion.

Un autre enseignement à tirer des data voids est l’importance de l’annonce d’une information. L’intérêt du public pour un sujet fluctue. Être le premier ou le seul à annoncer une information qui en fait l’objet, c’est disposer d’un avantage. Les data voids reposent sur l’impossibilité de confronter plusieurs sources sur un même sujet. Dans cette dynamique de l’attention, les affabulations prennent la forme de révélations. Opérer un travail de fact-checking, c’est interroger la légitimité qu’a celui qui s’exprime à avoir l’exclusivité d’une information. Est-il possible de réitérer son travail d’investigation ? Est-il le seul à pouvoir accéder aux faits et aux documents qui confirment ce qui est annoncé ? Se poser ces questions, c’est exiger une vérification de l’information et refuser de se contenter d’une seule source. Plutôt qu’à un vide, les data void peuvent être comparés à une disette. La quantité d’informations y est insuffisante pour permettre une réelle connaissance. La lutte contre la désinformation consiste toutefois à rendre le public capable de s’adapter à cette disette pour ne jamais se contenter de la becquée.