L’OSINT à l’épreuve de l’IA : explorer, mesurer, vérifier

L’essor de l’intelligence artificielle redéfinit les pratiques de l’OSINT sans en bouleverser les principes. Utilisée comme outil d’exploration et d’objectivation, l’IA permet de traiter des volumes de données inédits. À condition de rester strictement encadrée par des méthodes humaines de vérification et de contrôle.

L’OSINT repose sur l’exploitation méthodique de sources ouvertes afin de produire de l’information vérifiable et contextualisée. Selon le dernier rapport publié par Global Market Insights, le marché mondial de l’OSINT était évalué à 12,7 milliards de dollars en 2025. Il devrait passer de 15,9 milliards de dollars en 2026 à 133,6 milliards de dollars en 2035, avec un taux de croissance annuel composé de 26,7 %. L’arrivée de l’intelligence artificielle modifie en profondeur cette pratique, non pas en redéfinissant ses principes, mais en étendant ses capacités opérationnelles. En facilitant le traitement de volumes importants de données hétérogènes et en aidant à structurer des corpus complexes, l’IA permet d’intervenir en amont du travail d’enquête, comme outil d’exploration et de hiérarchisation des pistes.

Pour Camille Pettineo, Rédactrice en chef adjointe, chargée de l’exploitation éditoriale de la data au sein de l’INA (Institut National de l’Audiovisuel), l’IA constitue un levier d’objectivation des très nombreuses données dont dispose l’INA via son portail data.ina.fr. Lancée en 2024, cette plateforme met à disposition du grand public des données issues de centaines de milliers d’heures d’archives audiovisuelles françaises. Elle exploite des outils d’intelligence artificielle comme Whisper et TextRazor (outil d’analyse sémantique basé sur l’IA) pour transcrire, analyser et extraire les métadonnées de contenus TV et radio, permettant d’explorer des tendances médiatiques via des visualisations interactives. Couvrant plus de cinq ans d’historique, le site data.ina.fr stocke à ce jour plus de 27 millions d’heures d’émissions.

Analyser finement la couverture médiatique de thématiques clés

Parmi les thèmes que suit de près Camille Pettineo, celui de la parité femmes-hommes dans les médias en fait partie. En s’appuyant sur les outils de data.ina.fr, la data-journaliste documente précisément la répartition de ces prises de parole. « La parité femme-homme ne peut pas se limiter à des chiffres déclaratifs publiés chaque année par les chaînes ou les autorités de régulation. Dire qu’une chaîne fait s’exprimer tant de femmes et tant d’hommes ne suffit pas pour décrire la réalité des pratiques. Nous sommes allés voir concrètement quand la parole est donnée et dans quels moments éditoriaux. L’analyse fine des créneaux horaires révèle des écarts marqués, par exemple le dimanche à 19 heures, où les femmes n’ont représenté que 23 % des intervenants au mois de novembre 2025 », déclare Camille Pettineo lors d’une table ronde organisée lors du Festival OSINT 2025 à Paris.

Autre exemple, celui des violences sexistes et sexuelles. Camille Pettineo décrit dans un article de La revue des médias (INA) la couverture médiatique du sujet faite par 16 médias audiovisuels français sur la période 2019-2024. « L’enseignement qui se dégage est très net : entre janvier 2019, quelques mois après la naissance du terme #MeToo, et fin juillet 2024, jamais il n’a été autant question de #MeToo que depuis le début de l’année 2024 ! C’est bien simple : sur le premier semestre 2024, le terme a déjà été davantage prononcé sur les antennes des 16 médias étudiés que sur la totalité de chacune des années précédentes, avec un rapport qui va du simple au double », analyse la Rédactrice en chef adjointe.

Source : data.ina.fr – * Mentions en tours de parole dans lesquels le terme « MeToo » est mentionné au moins une fois. ** Les chaînes concernées sont TF1, France 2, France 3, Arte, M6, BFM TV, LCI, CNews, France Info (radio et TV), Europe 1, France Culture, France Inter, RMC, RTL et Sud Radio.

L’IA aide à chercher une aiguille dans une botte de foin

Un autre témoignage vient compléter celui de Camille Pettineo : celui de Manon Romain, Data journaliste aux Décodeurs (Le Monde). Dans son quotidien, Manon Romain utilise l’IA avant tout comme un levier d’efficacité technique, notamment pour la génération de code. Elle rappelle que son métier l’amène à programmer en permanence, que ce soit pour produire des visualisations, traiter des données complexes ou développer des outils internes à destination de la rédaction. Sur ce terrain, l’IA apporte un gain de temps tangible, en particulier via des systèmes d’auto-complétion avancée. « Je passe beaucoup de temps à coder et l’IA constitue une énorme aide dans ce domaine », précise-t-elle. Elle cite l’exemple d’outils comme Cursor, un IDE (Environnement de Développement Intégré) capable d’anticiper des modifications à plusieurs centaines de lignes de distance.

Un autre usage largement partagé concerne la transcription automatique des interviews, avec un outil interne reposant sur Whisper. « La rédaction en fait un usage massif, parce que cet outil fonctionne extrêmement bien », souligne-t-elle, en comparant ce dispositif aux solutions précédentes jugées moins fiables. À côté de ces usages établis, Manon Romain mentionne également des expérimentations plus ponctuelles, notamment pour explorer des corpus de réactions politiques à l’échelle européenne ou pour suivre les débats relatifs au budget à l’Assemblée nationale ou au Sénat. Ces démarches restent marginales et encadrées, sans devenir des pratiques routinières au sein de la rédaction.

Manon Romain insiste sur une distinction centrale : l’IA peut aider à explorer un corpus, jamais à établir une preuve journalistique. Elle utilise une métaphore parlante pour qualifier cette fonction exploratoire. « L’IA présente de nombreuses caractéristiques pour nous aider à ‘chercher une aiguille dans une botte de foin’. L’IA peut suggérer une piste, proposer une hypothèse ou faire émerger un motif récurrent, à condition que le journaliste conserve la maîtrise de la validation finale ». Dans le cas de travaux sensibles, comme l’analyse de discours politiques ou la constitution de corpus de messages, elle décrit un processus systématique de contrôle manuel des résultats. « L’IA nous a fait gagner du temps en apparence. Mais après avoir tout vérifié, je ne sais pas quel est le temps réellement gagné », reconnaît-elle. Cette remarque résume bien sa position : l’IA accélère certaines étapes, mais elle ne dispense jamais du travail de vérification, qui reste au cœur de la pratique journalistique.

« Vérité terrain » : comparer résultats automatisés et travail humain

Un avis que partage entièrement Camille Pettineo. Avant la mise en ligne des données du site data.ina.fr, plusieurs garde-fous méthodologiques sont mis en œuvre. L’un d’entre eux consiste à comparer les résultats automatisés et le travail humain. « Nous faisons ce que nous appelons de la ‘vérité terrain’. Nous comparons le résultat produit par les IA avec le résultat qui aurait été produit par des humains, en partant du postulat que l’humain est parfait, qu’il a la note de vingt sur vingt. Ensuite, nous établissons ce que nous appelons un taux de confiance du différentiel entre les deux résultats », explique Camille Pettineo.

Cette confrontation, qui permet d’identifier les écarts, ne cherche pas forcément à les corriger artificiellement. « Nous ne voulons pas ajouter un biais humain au biais algorithmique », insiste-t-elle. Ces anomalies deviennent au contraire un support pédagogique pour le public. Lorsqu’un résultat est considéré comme « fragile », il est signalé et contextualisé. « Nous invitons l’internaute à venir cliquer sur un picto orange afin de comprendre quelle IA s’est trompée, l’impact sur les données affichées et les perspectives de correction. L’objectif reste constant : faire de l’acculturation aux biais, appuyée par une documentation méthodologique détaillée », conclut Camille Pettineo.

Pour en savoir plus, rendez-vous à l’OSINT Day le 1er avril 2026 (à l’occasion du Forum INCYBER)