Nos données de recherche Google dans la nature ? Le compte à rebours est lancé !

Google forcé de partager toutes les infos liées aux requêtes sur son moteur de recherche à la concurrence ? Un projet antitrust de la Commission européenne qui a tout de la fausse bonne idée, que ce soit en termes cyber ou au regard du respect de la vie privée des internautes. Si l’UE se dit prête à écouter les critiques, le temps presse pour remettre sur les rails un programme dangereux.

La date est passée presque inaperçue, noyée dans le flux réglementaire bruxellois. Et pourtant, elle compte. Le 1^er mai 2026 à 23 h 59, la consultation publique sur le projet de partage des données de recherche de Google dans le cadre du DMA (Digital Markets Act) sera officiellement close. La décision finale sera imposée à Google le 27 juillet 2026. Derrière ce calendrier technocratique, c’est un bouleversement qui se profile, aux conséquences considérables : l’obligation pour le moteur dominant de partager une partie de son carburant le plus précieux – les données de recherche des Européens.

À croire que l’UE ne souhaitait pas vraiment que l’on mette le nez dans cette affaire, la consultation s’est ouverte le 16 avril et a fait surface dans les médias qu’à l’occasion d’un communiqué de presse diffusé le 15 avril. La Commission y explique vouloir « améliorer les services » des concurrents du principal moteur de recherche en leur donnant accès aux données que Google utilise pour affiner ses résultats. Comme souvent, l’enfer est pavé de bonnes intentions : casser l’asymétrie informationnelle qui permet à Google de conserver une avance écrasante sur ses rivaux. Un nouveau dispositif antitrust, en somme. Dans les faits, l’outil choisi est explosif.

Le dispositif repose sur l’article 6(11) du DMA. Il impose au géant américain de partager avec des moteurs concurrents – y compris des chatbots intégrant une fonction de recherche – des données sur les requêtes, les clics, les vues et le classement des résultats. La Commission le résume elle-même : il s’agit de partager « les classements, requêtes, clics et vues » utilisés pour optimiser les services. En clair, Google doit partager avec la concurrence ce qui fait le cœur de son modèle économique.

« Des données liées aux secrets les plus intimes des utilisateurs »

Les documents techniques vont plus loin. Ils indiquent qu’« Alphabet partagera les données de recherche quotidiennement et au niveau de l’enregistrement », via API, à des informations incluant requêtes, horodatage, langue, type d’appareil, point d’accès (Chrome, Android, Assistant, etc.), interactions (clics, scroll, absence de clic) et ordre des résultats affichés. Autrement dit, la société doit fournir à ses concurrents non pas un tableau de bord statistique, mais une cartographie comportementale fine de la navigation des utilisateurs européens. Bien sûr, la Commission affirme que ces données seront anonymisées, encadrées contractuellement et soumises à des audits de sécurité. Pourtant, c’est précisément là que le vernis commence à craquer.

Tout d’abord, comme l’indique clairement la proposition de la Commission et comme le souligne Lukasz Olejnik, expert en cybersécurité, la proposition « ne se contente pas d’ouvrir l’accès à des statistiques abstraites ou à des données de marché agrégées ». Elle expose des flux décrivant ce que les gens cherchent, voient et cliquent. Lukasz Olejnik rappelle que « les requêtes de recherche constituent des données profondément privées, souvent liées aux secrets les plus intimes des utilisateurs. »

Ce constat est central. Contrairement à ce qu’implique l’EU dans sa communication, il ne s’agit pas de redistribuer une ressource neutre. Une requête implique souvent une confidence, traduit une inquiétude, une trace de vulnérabilité. Les documents de travail de la Commission reconnaissent eux-mêmes que les utilisateurs confient à Google des informations sensibles.

« Des protections de la vie privée dangereusement inefficaces »

Clare Kelly, responsable juridique chez Google, le rappelle dans une déclaration citée par Reuters : « des centaines de millions d’Européens font confiance à Google pour leurs recherches les plus sensibles – y compris des questions privées concernant leur santé, leur famille et leurs finances – et la proposition de la Commission nous obligerait à remettre ces données à des tiers, avec des protections de la vie privée dangereusement inefficaces. »

L’argument ne peut être écarté d’un revers de la main au motif que Google est juge et partie dans l’affaire. En effet, l’anonymisation repose sur un mécanisme fragile. Le système envisagé filtre les éléments de requête selon leur fréquence, mais comme le souligne Olejnik, « il n’y a pas d’obligation à ce que la requête complète ait été émise par plusieurs utilisateurs ». Autrement dit, une requête unique peut passer si chacun de ses composants est fréquent. Ainsi, un nom propre commun comme « Dupond » et un terme médical courant comme « cancer » vont-ils individuellement passer les seuils, mais peut-être que leur combinaison est unique et pourtant, elle pourrait être transmise. « Le système confond la fréquence d’un composant avec la sécurité de la confidentialité de la requête complète », résume le chercheur. C’est une erreur conceptuelle, pas un simple défaut d’implémentation.

Un risque qui en entraîne mécaniquement un autre, qui, là encore, vient battre en brèche les assurances que donne la Commission sur l’anonymat des données transmises : la réidentification par recoupement.

Multiplier les copies, c’est multiplier les vulnérabilités

Là encore, le scénario ne dépend même pas du contenu explicite de la requête ou du nom d’utilisateur. Il suffit de croiser les données partagées – URL cliquée, horodatage, zone géographique, type d’appareil – avec d’autres sources, comme les logs dont dispose n’importe quel site web, pour relier un clic à un utilisateur réel. Une fois encore, ce n’est pas un bug, c’est une fonctionnalité.

Et comme si les dangers liés au respect de la vie privée des utilisateurs ne suffisaient pas, le projet est une bombe en matière de cybersécurité, offrant aux attaquants potentiels une surface d’attaque de la taille d’un continent. En effet, il ne se contente pas d’extraire des données sensibles, il les distribue de manière continue à de nombreux acteurs, via des API. Certes, ce n’est pas open-bar, puisque la Commission impose chiffrement, contrôle d’accès, MFA et audits ISAE 3000, mais un partage « quotidien et au niveau de l’enregistrement » constitue clairement une ligne rouge en matière de cybersécurité. Multiplier les copies, c’est multiplier les vulnérabilités. Un acteur mal sécurisé, un sous-traitant compromis, un accès détourné et c’est tout l’écosystème qui devient poreux. Le modèle repose sur une confiance aveugle dans les bénéficiaires et dans les flux. Or, c’est précisément ce que la cybersécurité cherche à éviter. Le Zero Trust n’était-il pas le thème central du Forum INCYBER 2025 ?

Et ce ne sont là que les dangers les plus directs liés à ce projet. Parlant de ses bénéficiaires, justement, les failles potentielles sont béantes. En effet, le texte prévoit explicitement que les chatbots IA disposant d’une fonction de recherche puissent accéder aux données.

« La plus vaste base de surveillance distribuée du continent »

Une catégorie qui comprend des acteurs émergents, parfois peu régulés, parfois dépendants de financements opaques, souvent implantés hors de l’Union. Comme le dénonce l’eurodéputée Virginie Joron, que nous avions interrogée sur les dérives liberticides de l’UE, « L’Europe, vassalisée technologiquement, est devenue un simple terrain de jeu pour les Big Tech US ».

Et ceci sans même évoquer l’intérêt d’un tel flux de données pour les entreprises comme les États : « Un service hostile pourrait créer ou financer une société-écran formellement conforme, comme un wrapper de recherche IA ou un produit de recherche régional » qui aurait alors un accès légitime à ces flux de données sensible, souligne Lukasz Olejnik. « Le point de blocage, c’est de la paperasserie », résume-t-il. Le scénario n’a rien de fantasmatique. Dans le monde du renseignement économique ou étatique, c’est une pratique courante. La vraie question n’est pas de savoir si cela arrivera, mais quand. Le dispositif est-il capable d’empêcher une telle dérive ? Rien ne l’indique, dans l’univers technocratique européen où la conformité à une norme administrative vaut habituellement blanc-seing.

Est-il complotiste de souligner le danger de la surveillance de masse, qui agite le plus certains observateurs sur les réseaux sociaux ? Quand le compte X Kruptos parle de « la plus vaste base de surveillance distribuée du continent », il touche pourtant un point sensible. Le projet ne crée certes pas une base centralisée accessible aux États, en open-bar pour les services de police, de renseignement ou de l’UE.

En termes cyber, tout est à revoir

La menace est plus subtile : le projet crée un réseau de flux de données, alimentés en continu, décrivant les comportements précis de recherche. Nous l’avons vu, un tel flot permet avec un peu de travail de suivre des personnes, des lieux ou des événements à faible coût. Si ce n’est évidemment pas une intention affichée par la Commission, c’est une capacité réelle, et les capacités finissent toujours par trouver un usage.

Alors que faire ? Abandonner toute ambition de favoriser la concurrence ? Si l’objectif demeure légitime en soi, le respect des règles de cybersécurité et de l’anonymat imposerait de changer radicalement de fonctionnement.

La première famille de correctifs concerne les contenus analysés et tout impliquerait tout d’abord d’interdire le partage de requêtes complètes tant qu’elles ne sont pas réellement fréquentes. Un seuil qui ne doit pas seulement concerner leurs composants, mais leur combinaison. Sans cela, l’anonymisation reste illusoire. Il en est de même pour les recherches comprenant des éléments tels que la voix ou des images de l’utilisateur, ainsi que les métadonnées.

Pour garantir cette anonymisation réelle des données, il conviendrait aussi d’adopter une granularité géographique bien plus large que celle qui est actuellement prévue. La proposition prévoit une cellule couvrant au moins 1 000 utilisateurs connectés et une surface minimale de 3 km². C’est bien trop fin pour certains contextes : zones rurales, institutions sensibles, quartiers administratifs, sites militaires, hôpitaux, tribunaux, entreprises stratégiques.

Le texte prévoit aussi une mini-sessionisation : les enregistrements d’un même utilisateur peuvent être groupés chronologiquement avec un identifiant aléatoire commun. Même limitée, cette logique est dangereuse : une séquence de recherches révèle beaucoup plus qu’une requête isolée et facilite l’identification de l’internaute.

Changer radicalement de modèle de distribution

Enfin, il conviendrait d’exclure par défaut les requêtes sensibles, même si elles sont courantes. Le dispositif pourrait prévoir une liste inspirée du RGPD, avec blocage automatique des recherches portant sur des thèmes tels que la santé, la sexualité, la justice, les finances, les mineurs ou les questions politiques.

La seconde série de correctifs est plus proprement cyber. Le texte prévoit un rapport d’assurance initial, puis un rapport annuel ISAE 3000 ou équivalent. C’est mieux que rien, mais à flux quotidien, supervision quotidienne par Google et les autorités de protection compétentes. Toute extraction inhabituelle ou usage non conforme devrait entraîner une suspension automatique de l’acteur fautif.

Acteurs qui devraient eux-mêmes être triés sur le volet : les wrappers IA, prototypes, agents conversationnels expérimentaux et structures sans historique opérationnel devraient être exclus au moins dans la première phase et les entreprises qui auraient été validées devraient être surveillées et exclues à la première incartade.

Finalement, à supposer qu’il soit réellement pertinent de soumettre les données de recherche Google des citoyens européens à la curiosité d’acteurs non européens, ne serait-il pas plus simple de changer radicalement de modèle de distribution ? Pas de flux API quotidien, pas de copies multiples, mais un environnement dans lequel les acteurs pourraient travailler sans extraire les données. En somme, ne pas partager d’informations hypersensibles, mais la capacité à les exploiter. Si cette solution porterait en elle son propre risque cyber, celui du « pot de miel » attirant les hackers comme des mouches, elle permettrait au moins de suivre une règle de bon sens : on ne multiplie pas les copies d’un secret, on en limite les accès.

Au vu du calendrier imposé par l’EU pour corriger le tir, il est hélas à craindre que les dés ne soient déjà jetés.