Data Mining et IA : le non-débat autour de l’IA Act, du droit d’auteur et de l’exception sur la fouille de texte et de données

23.01.25

MIN

L’extraction de texte et de données (Text and Data Mining ou “TDM”) est une technique essentielle pour entraîner des intelligences artificielles (IA). Pourtant, dans l’Union européenne, les règles liées aux droits d’auteur et les nouvelles obligations imposées par l’IA Act sont susceptibles de complexifier son utilisation. Alors que les États-Unis et la Chine misent sur un accès plus libre aux données, l’Union européenne risque-t-elle de prendre du retard, en offrant une protection juridique aux propriétaires de droits de propriété intellectuelle ? En conciliant innovation et responsabilité, l’Union européenne veut devenir un leader d’une IA éthique et compétitive. Le débat autour des droits de propriété, l’innovation et l’IA Act masque en réalité des problématiques géopolitiques, démocratiques et éthiques plus complexes.

L’extraction de données : une opportunité freinée par des règles strictes

Le Text and Data Mining, ou TDM, consiste à analyser automatiquement de grandes quantités de textes ou de données pour identifier des tendances, des modèles ou des informations utiles. Cette méthode est indispensable pour développer et entraîner des IA.

En Europe, la directive sur le droit d’auteur de 2019 (appelée aussi directive 2019/790) a créé deux exceptions pour permettre certaines activités de TDM :

Pour la recherche scientifique : les universités et instituts de recherche peuvent utiliser légalement des contenus protégés pour des projets d’analyse, à condition d’avoir un accès autorisé aux données.
Pour un usage commercial limité : les entreprises peuvent également utiliser cette méthode, sauf si les détenteurs des droits (comme les créateurs ou éditeurs) l’interdisent explicitement.

Cette dernière exception, facultative, dépend des décisions de chaque pays de l’Union européenne, ce qui crée des règles différentes selon l’endroit où l’on se trouve. Par exemple, en France, certaines démarches administratives peuvent être nécessaires, alors qu’en Allemagne, les règles sont plus souples. Résultat : les entreprises européennes, surtout les petites et moyennes entreprises (PME), doivent naviguer dans un cadre juridique complexe et coûteux.

Pendant ce temps, d’autres pays, comme les États-Unis, utilisent des lois plus flexibles, comme le fair use, qui permet de réutiliser des données sans autorisation préalable dans certaines situations. En Chine, l’État favorise un accès illimité aux données pour stimuler l’innovation.

L’IA Act et le droit d’exclusion dit “Opt-out » : un nouvel obstacle à l’innovation IA ?

L’IA Act, adopté en 2024, vise à réguler l’utilisation des intelligences artificielles en Europe pour garantir leur transparence et leur éthique. Parmi ses nouvelles règles, un point clé affecte directement le TDM : le droit d’exclusion, appelé opt-out.

Les créateurs (comme les écrivains, photographes ou musiciens) peuvent interdire l’utilisation de leurs œuvres pour entraîner des IA. Par exemple, un auteur peut signaler que son livre ne peut pas être analysé par des algorithmes.

Ce mécanisme pose plusieurs problématiques potentielles pour l’innovation :

Moins de données disponibles : si de nombreux créateurs optent pour l’exclusion, cela réduit considérablement le volume de données exploitables pour développer des IA en Europe.
Des démarches complexes pour les entreprises : les développeurs doivent vérifier quels contenus peuvent être utilisés, ce qui demande du temps et de l’argent.
Un avantage pour les grandes entreprises : les géants de la technologie, qui disposent de ressources considérables, peuvent surmonter ces obstacles, mais les petites entreprises ont plus de mal à suivre.

Ces restrictions, bien qu’introduites pour protéger les droits d’auteur, risquent de ralentir l’innovation dans l’Union européenne, alors même que la concurrence mondiale s’intensifie en matière d’IA.

L’IA Act et le droit d’auteur : le non-débat qui minimise en réalité des problématiques sensibles pour le bien-être de nos sociétés

En réalité, le débat de l’IA ne se situe pas réellement dans le droit d’auteur mais dans l’accès plus généralisé à des données. Mr Galloux, professeur à l’université de Paris 2 nous dit qu’il “(…) faut laisser les auteurs tranquilles. Les personnes qui veulent consommer des productions générées par l’IA par choix en consommeront et ceux qui veulent consommer un travail humain paieront pour un consommer des créations humaines (…) (l’utilisateur final devrait être informé de la différence de entre ces œuvres). L’inspiration par rapport aux oeuvres des autres a toujours existé, mais à l’ère numérique, elle s’est amplifiée, complexifiée avec l’IA. […] Mais cela ne veut pas systématiquement dire contrefaçon.”. Le véritable enjeu de la fouille de texte et de data tient plus compte de ce que l’on appelle la souveraineté numérique et des barrières à mettre en place pour protéger les données et les droits fondamentaux de nos populations européennes.

De plus, réguler ne veut pas dire freiner l’innovation, nos deux experts nous le rappellent : en effet, opposer innovation et protection de la propriété intellectuelle est un débat biaisé souligne Mme Lorimy, directrice générale du Syndicat des éditeurs de la Presse Magazine (SEPM) « toute activité économique licite est fondée sur le respect de la propriété d’autrui. Il en est ainsi dans tous les domaines marchands et penser qu’une activité innovante pourrait durablement se fonder sur l’appropriation non consentie et non rémunérée, le vol du travail d’autres acteurs économiques est un non-sens. Le règlement IA consacre cette évidence et c’est une bonne chose. Il pose également les principes indispensables de transparence sur les contenus servant à entrainer les modèles. Cet enjeu est absolument majeur pour deux raisons. D’une part, la transparence permettra effectivement aux différents acteurs qui créent ou financent les contenus de savoir que ceux-ci sont utilisés et de faire valoir leur droit de propriété, et développera ainsi un marché de licence sur les contenus et évitera que faute de financement, la création artistique et intellectuelle en Europe ne se tarisse. D’autre part, la transparence des entraînements constitue une garantie d’honnêteté du débat public dans nos démocraties, elle donne au citoyen les clefs de compréhension des informations qui lui sont transmises ».
Il n’y a donc pas de contradiction entre régulation et innovation. L’innovation sert à développer des secteurs d’activités. Et lorsqu’un secteur d’activité se transforme, il faut nécessairement adapter les régulations, jusqu’à lors applicables, pour les rendre plus transparentes à mesure qu’elles se complexifient. La transparence est la clé de la démocratie.

La question du non-débat sur le droit d’auteur, lorsque l’on creuse, permet de soulever des problématiques bien plus importantes notamment :

La question de savoir si l’IA Act constitue une protection suffisante pour les données européennes. À ce titre, on peut questionner le recours à l’exception “Opt-out” du texte européen qui suppose une action positive des citoyens pour la protection de leurs droits, ainsi que la question de l’extraterritorialité de l’IA Act. “Concernant la fouille de texte dans l’IA Act, on peut questionner le mécanisme d’opt out : va t-il véritablement y en avoir en pratique, et est ce que ce mécanisme sera sollicité par les acteurs économiques ? Quid de l’opt out à l’échelle mondiale, que se passe-t-il si la fouille de texte est réalisée par une entreprise située en dehors de l’Union européenne ? L’effet extraterritorial semble relativement limité avec l’IA Act et le contexte géopolitique influe beaucoup à l’heure actuelle.” nous dit M.Galloux, professeur à l’Université de Paris 2.
La question de savoir si l’IA Act nous permet de protéger efficacement nos démocraties. L’IA informe, mais comment ? Quelles sont les sources et les raisonnements sur lesquels elle se base. L’IA, ce n’est pas le jeu des erreurs. C’est un véritable outil massivement utilisé, qui permet de diffuser des informations au public “à terme les IAG (intelligence artificielle générative) pourraient mettre gravement en péril nos démocraties en opacifiant et en intermédiant l’information de façon massive. Il faut impérativement que soient mises en œuvre pour les IAG non seulement les devoir de transparence prévus dans l’IA Act mais également les principes élémentaires de la responsabilité civile et pénale que l’on impose à d’autres acteurs du marché de l’information du public (…) et à la presse notamment” nous indique Mme Lorimy qui estime qu’une réflexion sur le pluralisme des sources d’entrainement est, en matière d’information, également indispensable.
La question de savoir si l’IA Act nous permet de protéger réellement la propriété. Sans protection des données efficace face à des acteurs majeurs comme les États Unis ou la Chine ou de transparence générale sur l’entraînement et les sources utilisées par les modèles IA, il est impossible de valablement protéger les droits fondamentaux de nos citoyens, car il est impossible de les exercer en pratique.
La question de savoir quels sont les enjeux géopolitiques qui ont justifié une adoption si rapide d’un texte qui prévoit une collecte massive de données sociétales, comportementales, sensibles, et personnelles. Est-ce que cette stratégie est réellement suffisante pour alimenter nos IA européennes ? Est-il pertinent de collecter toutes les données ? Quelles seront les limites à observer lors de la fouille de texte et de données ? Est ce qu’à l’instar du RGPD, la fouille doit être proportionnée et objective ? Quelles sont les limites pour garantir une utilisation raisonnée de l’IA dans nos sociétés ?

Sources :

https://cms-lawnow.com/en/ealerts/2024/10/ai-and-copyright-exploring-exceptions-for-text-and-data-mining?format=pdf&v=20

https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri=OJ:L_202401689

https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri=CELEX:32019L0790

https://www.usine-digitale.fr/article/droits-d-auteurs-les-industries-creatives-et-culturelles-europeennes-reclament-une-application-significative-de-l-ai-act.N2221936

https://www.europarl.europa.eu/RegData/etudes/BRIE/2018/604942/IPOL_BRI(2018)604942_EN.pdf

https://openfuture.eu/wp-content/uploads/2023/09/Best-_practices_for_optout_ML_training.pdf