Avec l’IA, quelques secondes suffisent pour cloner une voix

Les progrès accomplis en IA générative permettent de reproduire de plus en plus fidèlement la voix humaine. Une usurpation d’identité utilisée dans les arnaques au président ou au faux conseiller bancaire. Deux startups françaises, Label4.ai et Whispeak, se proposent de démasquer ces deepfakes vocaux.Comme tout à chacun, vous avez certainement dû vivre cette expérience pénible. Vous recevez un appel d’un numéro inconnu. Vous vous dites qu’il s’agit certainement d’une société de démarchage téléphonique. Dans le doute, vous décrochez. Personne à l’autre bout du fil, vous parlez dans le vide avant de raccrocher. Cet « appel muet » avait peut-être pour but de vous soutirer un de vos biens précieux : votre voix. Muni de votre identité vocale, le cybercriminel peut désormais abuser de vos collègues ou vos proches afin de leur soutirer des informations précieuses voire de l’argent.

Selon une étude de McAfee datant de 2023, seulement trois secondes d’audio sont nécessaires pour cloner la voix d’un individu. Pas besoin de passer par cette technique de l’appel muet, les chercheurs de l’éditeur de cybersécurité rappellent que plus de la moitié des adultes partagent leur voix en ligne, avec ces fameux « vocaux » sur les réseaux sociaux. Un fléau qui n’est pas sans conséquence. 77 % des victimes d’arnaques vocales par IA ont perdu de l’argent.

La technique du « zero-shot voice cloning »

Cette technique dite « zero-shot voice cloning » tire profit des progrès de l’intelligence artificielle. À partir d’un très court extrait audio et sans entraînement spécifique, elle permet de reproduire un profil vocal. Pré‑entraîné sur un très grand nombre d’échantillons sonores, un modèle de type RVC (Retrieval-based Voice Conversion) va identifier les attributs vocaux d’un individu tels que le timbre, le rythme, l’intonation. À partir de cette identité vocale, un vocodeur générera un flux audio imitant la voix cible selon le script prédéfini (text-to-speech).

Des progrès bluffants qui laissent sans… voix, à des années-lumières des voix robotisées qui jusqu’à peu servaient de voix « off » aux vidéos ou pour orienter les usagers dans l’arborescence des serveurs vocaux interactifs (SVI) des centres d’appels. « Les deepfakes audio deviennent de plus en plus naturels, imitant même les tics de langage, ce qui rend la détection humaine particulièrement difficile », observe Anthony Level, cofondateur et Chief Strategic Officer de Label4.ai, une startup spécialisée dans la détection de contenus générés ou manipulés par IA.

Le clonage ne nécessitant plus de longs enregistrements audios de la victime, il devient aussi plus accessible et, ce, sans qu’il n’émette le moindre consentement. Une requête sur un moteur de recherche permet de tomber rapidement sur des outils de clonage de la voix édités par ElevenLabs, ou HeyGen. Pour 129 dollars par mois, FraudGPT propose de créer de fausses voix et, plus généralement, « tout type de contenu sans limitations éthiques ni filtres de sécurité ».

Des IA pour détecter des contenus générés par IA

Si une oreille avertie détectera un manque d’intention et d’émotion dans la voix synthétique, celle-ci trompera la vigilance du plus grand nombre. « En passant une communication téléphonique de piètre qualité, via une messagerie de type WhatsApp, et en créant un faux sentiment d’urgence, un cybercriminel peut aisément duper son interlocuteur », avance Corinne Naturel, senior scientist chez Label4.ai. Face à un contenu audio possiblement contrefait, elle déconseille de demander à ChatGPT ou consort de le vérifier. « À moins qu’il s’agisse d’un contenu généré par elle-même et qu’elle a elle-même marqué, l’IA ne pourra distinguer le vrai du faux ».

Les particuliers ne sont pas les seuls concernés par des attaques de type faux conseiller bancaire. L’arnaque au président touche, bien sûr, les grandes entreprises, mais les PME, souvent moins protégées, peuvent aussi faire l’objet de traquenards téléphoniques. Cofondateur et CEO de Whispeak, startup lilloise spécialisée dans la biométrie vocale et la détection de voix de synthèse, Florent Van Calster évoque le cas d’employés fictifs qui se font recruter en « visio » puis travaillent à 100 % en télétravail, sans que leur employeur ne les voit physiquement. « En quelques mois, ils peuvent soutirer des informations confidentielles, comme des brevets, à des entreprises sensibles de la tech ou de la défense. »

Pour détecter les deepfakes, Whispeak entraîne ses modèles de deep learning sur des corpus publics et des panels de voix pour leur apprendre à distinguer une voix authentique d’une voix de synthèse. « L’analyse forensic permet de déterminer si tout ou partie d’un fichier audio a été trafiqué et, si c’est le cas, quels sont les modèles d’IA qui ont été utilisés pour le générer », poursuit Florent Van Calster. Il se compare à un éditeur d’antivirus qui, dans un processus d’amélioration continue, doit sans cesse améliorer ses modèles pour tenir compte des progrès réalisés par les faussaires de voix.

L’AI Act rend obligatoire le marquage des contenus

Whispeak qui emploie une dizaine de collaborateurs, dont des chercheurs en doctorat (PhD), travaille notamment pour les secteurs de la défense ou des médias. Sa technologie peut aider à lutter contre les campagnes de manipulation de masse et l’ingérence et équiper les services de « fact checking » des grands médias.

La startup travaille sur une version embarquée de sa solution et sur la détection en temps réel. « Un opérateur télécom pourra intégrer notre technologie pour lutter contre l’usurpation d’identité », estime Florent Van Calster. La détection « live » est également un axe de R&D pour Label4.ai. « Lors d’une session en visioconférence, il s’agit d’analyser en continu les voix des participants et de remonter immédiatement des alertes », avance Corinne Naturel.

Label4.ai a été créée en décembre 2024 par des chercheurs de l’Inria et du CNRS et des anciens de TF1 et de Qwant. Basée à Rennes et Paris, la jeune pousse s’est spécialisée, outre la détection de deepfakes, dans le tatouage numérique de tout type de contenu généré par IA de manière à pouvoir plus facilement les détecter une fois en ligne.

Ce « digital watermarking » « repose sur l’injection contrôlée de micro-signaux dès la génération, sous forme de modulations infimes des composants statistiques, spatiales ou fréquentielles du contenu, explique Label4.ai sur son site. Ces variations créent une empreinte d’origine, unique et indissociable de la source. »

L’ajout de ces filigranes imperceptibles « à l’oreille nue » est appelé à se généraliser. Jusqu’alors laissé à la libre appréciation des créateurs d’IA, le marquage virtuel va bientôt devenir obligatoire. À partir du 2 août 2026, l’article 50 de l’AI Act imposera aux fournisseurs de systèmes d’IA générative d’appliquer cette traçabilité à tout contenu audio, image, vidéo ou texte synthétique généré ou accessible au sein de l’Union européenne.

On ne change pas de voix comme de mot de passe

Comme Label4.ai, Whispeak a un autre métier : la biométrie vocale. La startup s’adresse cette fois aux centres d’appels ou aux acteurs de la bancassurance. La voix sert de moyen d’authentification permettant de s’assurer que c’est bien leur client qui est au bout du fil. Dans l’automobile, la voix permet d’assurer un accès sécurisé au véhicule et aux commandes vocales. Le démarrage du moteur, la navigation GPS ou la gestion des appels ne peuvent être contrôlés que par le locuteur légitime, et non ses enfants assis à l’arrière.

Cette biométrie vocale a vocation à s’inscrire dans un cadre multilingue. « Un utilisateur peut créer une signature vocale dans sa langue maternelle puis s’authentifier dans une autre, explique Florent Van Calster. Même en cas de rhume, les caractéristiques vocales d’un individu restent immuables. »

La voix reste toutefois une donnée personnelle particulièrement sensible. Contrairement à un mot de passe, on ne peut pas en changer en cas de compromission. Certifié ISO/IEC 27001:2022, conforme au RGPD et aux recommandations de la Cnil qui interdit toute centralisation des données biométriques, Whispeak ne stocke pas la voix en clair, mais une représentation de la voix chiffrée de bout en bout. Sa solution est proposée en mode SaaS ou on-premise.

Pour revenir sur les deepfakes audio, Florent Van Calster redoute que les prochaines élections françaises, à commencer par les municipales de mars, soient marquées par des campagnes de manipulation et d’ingérence comme ce fut le cas en Roumanie ou plus récemment en Irlande. Dans ce dernier pays, une vidéo truquée montrait la candidate favorite annonçant son retrait du scrutin (voir la vidéo sur le site de la RTBF). Elle a été largement visionnée et partagée avant qu’elle ne soit retirée des réseaux sociaux plusieurs heures après.