De Google Books à l’IA : l’histoire numérique repasse les plats.

Contrairement à ce que pouvait écrire Céline, l’histoire, numérique en tout cas, repasse parfois les plats. A fortiori lorsque ceux-ci ont un goût amer. Au début des années 2005, j’ai suivi, chroniqué et établi l’un de mes terrains de terrain de recherche sur la manière dont le projet Google Books allait (et aujourd’hui, avait) définitivement modifié et remodelé à son avantage non seulement l’entièreté des « métiers du livre » (librairie, édition, bibliothèque), mais aussi initié et accompagné toutes les mutations ayant donné lieu à de nouveaux standards dans l’ensemble des industries culturelles. Vous trouverez trace de nombre de ces réflexions dans la rubrique éponyme de ce blog, ou bien dans cette version (qu’il faut que j’actualise) d’un cours que je donne sur le sujet à mes étudiantes et étudiants.

Je vous résume l’histoire en quelques mots.

Google débarque en 2005 avec un projet assez dingue de numérisation massive d’ouvrages du domaine public pris dans les bibliothèques avec leur accord, et en prenant tous les frais (colossaux) à sa charge. Au fur et à mesure on découvre qu’il n’a pas seulement numérisé des oeuvres libres de droits mais aussi des ouvrages sous droits et des oeuvres dites « orphelines » (oeuvres toujours sous droits mais commercialement épuisées et dont les ayants-droits ne se font pas connaître). Qu’il a fait tout cela en loucedé mais avec l’accord de certaines bibliothèques, accord couvert par des clauses de non-divulgation léonines. Et que toute sa stratégie était de venir concurrencer ses grands rivaux de l’époque (dont Amazon) en se positionnant rapidement sur la vente de livres numériques, mais aussi (et surtout) de prendre une colossale avance dans le domaine de l’IA en entraînant ses algorithmes sur ce que l’on ne nommait pas encore un « large modèle de langage » mais qui de fait, en était l’un des tous premiers et l’un des plus massifs. Après plein d’étapes et de rebondissements, de tentatives d’accord à l’amiable (et à grands coups de valises de billets), de coups fourrés y compris entre les plaignants où certains grands groupes éditoriaux firent cavalier seul pour négocier en direct avec Google, et après 10 ans de procès aux USA mais également en France, le verdict fut finalement rendu en faveur de Google au nom de l’argument du « Fair-Use », le juge américain considérant en effet que :

« Le but de la copie est hautement transformatif, l’affichage pour le public du texte est limité, et les passages ne fournissent pas un substitut aux œuvres originales protégées. La nature commerciale de Google et ses motivations lucratives ne permettent pas de rejeter l’argument du Fair Use. »

En 2010, lors de la sortie de l’excellent documentaire « Google and the world brain« , Amit Singhal (qui a rejoint Uber au début de l’année 2017) était interviewé en tant que grand chef de l’algorithmie chez Google et déclarait ceci : « Google Search is going to be assisted intelligence and not artificial intelligence.« Une intelligence « assistée » par l’immensité d’un corpus construit dans la temporalité du procès. Alors que presque tous les regards étaient tournés vers l’exploitation d’un marché du livre numérique et les questions de droit d’auteur, la firme travaillait en réalité aussi et surtout sur l’optimisation de son immense corpus de textes dans l’optique du TALN (traitement automatique du langage naturel). L’invention de la technologie dite des « Transformers » en 2017 par huit chercheurs de Google dans l’article « Attention Is All You Need » allait métamorphoser ce corpus immense en l’un des tout premiers large modèle de langage et donner à Google un avantage concurrentiel colossal que l’on mesure aujourd’hui avec son modèle Gemini qui s’affirme comme l’un des plus puissants.

Et le rapport avec l’IA aujourd’hui?

Aujourd’hui (décembre 2024) des universités, les mêmes qui avaient initialement contractualisé avec Google pour le projet Google Books en 2005, Harvard en l’occurrence, mettent de la même manière gratuitement à disposition, non plus des corpus de livres papier pour qu’ils soient numérisés, mais des corpus de livres numérisés pour qu’ils puissent « entraîner des IA ». Quelques mois plus tard, en Mars 2025, Sam Altman (CEO d’Open AI) déclare que si sa boîte n’a pas le droit de s’entraîner comme elle le veut et sans rien demander à personne sur d’immenses corpus de textes (y compris protégés par le droit d’auteur), que si tout cela n’est pas reconnu comme du « Fair Use », alors la course à l’IA est terminée côté américain et que les Chinois et les Russes prendront la place (et gagneront la course). Quelques mois plus tard encore, en Septembre 2025, c’est la société Anthropic (dont nous reparlerons) qui, pour échapper à un procès initié par des auteurs sur le pillage et l’utilisation sans consentement de leurs oeuvres, sort le chéquier et débourse 1,5 milliard de dollars pour éviter l’action en justice. Pour vous donner un effet d’échelle, à l’époque du procès Google Books (démarré en 2005), la firme avait proposé aux plaignants (les auteurs et éditeurs) un dédommagement de 45 millions de dollars en échange de l’abandon de toute poursuite. Une somme qu’à l’époque tout le monde considérait comme « folle ». Nous étions alors en 2008. Moins de 20 ans plus tard, les 45 millions de dollars sont devenus 1,5 milliard. C’est bien plus que vertigineux.

Hier en plein procès Google Books la firme fixait aux auteurs et autrices un ultimatum pour retrouver et déclarer les oeuvres leur appartement et numérisées sans leur accord et soit réclamer leur retrait soit accepter un dédommagement et renoncer à poursuivre l’action en justice. On appelait ça le « règlement Google ».

Aujourd’hui en plein procès Anthropic on fait face à un scénario … rigoureusement identique au mot près.

Hier. A l’époque des débuts de la numérisation massive lancée par Google (2005 donc) et jusqu’à assez tard (2010 et au-delà) on trouvait fréquemment dans le moteur de recherche des ouvrages dont les informations de catalogage (date de parution notamment) étaient absolument fantaisistes et erronés. Comme la collecte de ces infos n’était pas faite par des gens (bibliothécaires) et de manière structurée mais par des algorithmes qui scannaient le texte et récupéraient ce qu’ils pouvaient, il était fréquent que Google Books vous indique que Notre Dame de Paris avait été écrit au 16ème siècle ou que Baudelaire était l’auteur du célèbre ouvrage « les fleurs et leurs parfums ». On y trouvait aussi, dans ces rayonnages numériques algorithmisés, tout un tas d’ouvrages pas du tout rangés au bon endroit, comme si un bibliothécaire fou ou rigolo avait décidé de ranger Le Château de Kafka au rayon moyen-âge, Les fleurs du mal au rayon horticulture, et Mein Kampf au rayon jeunesse (ce qui pour le coup n’est pas très rigolo j’en conviens). Et tout un tas d’autres erreurs qui pourraient prêter à rire s’il n’était pas question de forger des référents culturels stables.

Aujourd’hui. Et aujourd’hui dans les bibliothèques américaines des gens viennent chercher des livres qui n’existent pas. Qui n’existent pas parce que c’est ChatGPT ou l’un de ses copains qui a fabriqué de toute pièce ici un titre, ici une collection, ici un auteur, ici un mix des trois ne reposant sur rien d’autre de réel que le besoin de satisfaire le besoin de celui ou celle qui l’interrogeait. Dans le même genre et à l’instar des fausses dates de publication ou des fausses dates de naissance que le Google Books des années 2005-2015 attribuait parfois aux auteurs et autrices référencées, le Google de 2025 dopé à l’IA se met à citer des auteurs et des pages dont … l’IA de Google et l’auteur. Cela peut représenter (selon le type de requête) parfois plus de 10% des 100 premiers résultats organiques. Précisons que Google conteste les résultats de cette étude et présente des chiffres d’autres études qui situent plutôt cette proportion autour de 2 à 3,5%.

Google Books en 2005 ou Google Gemini en 2025, le problème n’est pas tant que la numérisation d’hier ou l’artificialisation d’aujourd’hui soient sources d’erreurs ; le problème tient dans le « statut » de ces erreurs, dans notre capacité à les identifier en tant que telles, et dans la possibilité effective qu’elles soient de nouveau traitées comme des informations fiables par des IA devenues autophages et plus souvent infra-visées que réellement supervisées.

La propriété (intellectuelle) c’est ce qui peut être volé.

Je raconte souvent à mes étudiantes et étudiants la manière dont la bibliothèque d’Alexandrie s’est largement construite sur un mode confiscatoire. On récupérait toutes les oeuvres qui se trouvaient dans la cargaison des navires rentrant au port, si on en avait le temps, on en faisait une copie pour le musée et la bibliothèque d’Alexandrie puis on rendait tantôt l’original tantôt la copie, et si on n’avait pas temps, on gardait l’original. Tout cela parce qu’à l’époque déjà, en tout cas dans l’esprit de Ptolémée, la culture était une arme, et que faire collection c’était faire légion.

Rien de très étonnant donc à constater que de la même manière que Google Books vint littéralement piller des collections entières de livres ou d’articles de journaux pour alimenter et constituer son moteur de recherche aspirant à l’IA, ce sont aujourd’hui les IA contemporaines qui à leur tour viennent piller tout le savoir disponible sans le moindre égard pour le respect de la propriété intellectuelle.

Rien ou presque n’a changé depuis la bibliothèque d’Alexandrie : officiellement il s’agit d’en faire des « copies » pour hypothétiquement les rendre ensuite aux détenteurs des droits s’ils s’en aperçoivent et les réclament ; en réalité il s’agit de constituer un corpus confiscatoire sur lequel on appliquera des droits de propriété intellectuelle au seul bénéfice de la firme extractiviste qui l’a constitué par prédation. Concrètement ? Là encore l’histoire bégaie.Comme le révélait une enquête de The Atlantic, récemment reprise par Mediapart, « pour entraîner son modèle d’intelligence artificielle, la maison mère de Facebook a téléchargé illégalement, dès 2022, les ouvrages accumulés par le site pirate LibGen. Mediapart révèle l’implication centrale de Guillaume Lample, devenu l’un des patrons de Mistral AI, l’entreprise française phare de l’IA. » Le site pirate LibGen est loin d’avoir été le seul à être pillé. Et il faut rappeler que s’il est un site « pirate » c’est parce qu’historiquement 4 grands acteurs détiennent à eux seuls l’ensemble des revues scientifiques et y exercent un pouvoir de contrainte et de vérouillage tel, qu’il fallut le courage de gens comme Aaron Swartz ou Alexandra Elbakyan pour ramener, dans l’espace public et citoyen, des connaissances scientifiques produites sur fonds publics et qui à ce titre, appartiennent à toutes et tous et n’auraient jamais du en sortir au seul bénéfice d’éditeurs prédateurs jouant de leur monopole pour restreindre l’accès aux connaissances. En 2010 donc, Aaron Swartz téléchargea illégalement près de 5 millions d’articles scientifiques hébergés chez l’éditeur JSTOR pour les remettre dans l’espace public. Poursuivi par la justice et « pour l’exemple », il fit face à une amende de plus d’un million de dollars et à une peine de 35 ans de prison (sic). Face à un acharnement judiciaire sans précédent, il se suicida 3 ans plus tard.

Après Aaron Swartz qui le fit pour libérer l’accès au savoir, voici donc Guillaume Lample chez Meta puis chez Mistral AI qui vient cette fois piller et voler pour permettre à la firme qui l’emploie de dépasser rapidement la concurrence. Il vole, il pille, mais il ne le fait pas pour détruire un monopole, il le fait pour en créer un nouveau. Et il est malheureusement loin d’être le seul.

Mais aujourd’hui, l’état du droit a changé et ce sont des firmes à la trésorerie presqu’infinie que l’on poursuit plutôt que des individus isolés dont on cherche à faire un exemple. A l’époque où Aaron Swartz libéra ces 5 millions d’articles scientifiques, près de 70 GB de données, il fut poursuivi et menacé de 35 ans de prison et de plus d’un million de dollars d’amende. Aujourd’hui dans le procès « Kadrey VS Meta », du nom d’un auteur (Kadrey) s’opposant à l’utilisation sans consentement de ses oeuvres par la forme Meta pour alimenter son modèle d’IA, le juge n’a pas menacé Meta de 35 ans de prison et d’une amende à la hauteur de son chiffre d’affaire. Car entre Aaron Swartz et ce procès, il y eut un autre procès, celui qu’aux Etats-Unis la Guilde des Auteurs et l’association américaine des éditeurs intenta en 2005 à Google qui numérisait alors également à tout va et également sans consentement. Et le verdict de ce procès, en 2015, qui donna raison à Google considérant que les copies et usages produits à partir des oeuvres originales était « hautement transformatif » et donc conforme à la doctrine du Fair-Use en droit américain, y compris dans le cadre de la stratégie pourtant clairement commerciale de Google. Nous voici en 2025, dix ans après la fin de ce qui fut le plus grand procès de l’histoire des industries culturelles autour du droit d’auteur et de la numérisation, et dix ans plus tard, Meta (et Guillaume Lample) s’en tirent sans aucune condamnation, la justice estimant que là encore, la copie réalisée sur la base de ces plus de 80 GB de données de livres piratés, était « hautement transformative » (puisqu’elle permettait aux outils d’IA générative de recracher des textes … différents) et donc là encore conforme au Fair-Use en droit américain.

Les ennuis de Meta et de Zuckerberg ne sont pas pour autant terminés puisqu’il existe d’autres actions en justice initiées de la même manière, mais cette fois non plus sur des livres mais sur des films, plus précisément des films pour adultes. Un producteur de ces films accuse le groupe Meta d’en avoir téléchargé via Bittorrent pour alimenter les modèles de ses IA, le groupe Meta tente d’éviter d’aller au procès en arguant que des films ont certes été téléchargés sur les serveurs de la firme mais que c’était « pour des usages privés et personnels » (sic).

Les IA génératives s’attaquant à l’ensemble des industries culturelles (livre, film, musique, radio, télévision, jeux vidéo) ce sont autant de fronts ouverts en termes de batailles juridiques. Et là encore le passé jouera un rôle précieux d’analyse. Lorsqu’en Mars 2025 en France, le syndicat national de l’édition (SNE), la société des gens de lettres (SGDL), et le syndicat national des auteurs et compositeurs (SNAC) intentent un procès contre Méta au motif qu’ils y ont trouvé des oeuvres utilisées sans leur autorisation et permettant d’alimenter et d’entraîner les IA de la firme, c’est, à l’exception de la participation du SNAC, l’exacte redite du procès intenté par l’éditeur La Martinière en 2006 contre Google, qui fut ensuite rejoint par le SNE et la SGDL. Même procès, mêmes raisons d’aller en justice, mêmes acteurs et plaignants. Le résultat du procès de 2005 côté français fut que les auteurs et éditeurs renoncèrent aux poursuites contre Google, préférant des accords de gré à gré, et une avancée du droit dans les contrats d’éditions qui doivent aujourd’hui obligatoirement intégrer un volet sur l’exploitation numérique des oeuvres. Pendant qu’aux USA, le même procès (auteurs et éditeurs américains contre Google) se termina donc à l’entier bénéfice de Google, considérant que la copie produite était hautement transformative et s’inscrivant dans le cadre du Fair-Use. Un procès américain qui eut, en droit français sa traduction dans la directive pour l’exception « TDM (Text and Data Mining) » qui « autorise toute personne à procéder à des fouilles, quelle que soit la finalité, sous réserve que l’auteur n’ait pas exprimé son opposition de manière appropriée« , donnant ainsi aux firmes d’IA la possibilité d’accéder légalement à l’ensemble des oeuvres et documents disponibles quelque soit l’écosystème dans lequel elles sont hébergées et consultables, sauf si leurs auteurs et autrices s’y sont explicitement et « de manière appropriée » opposés. Autant vous dire que la plainte du SNE, de la SGDL et du SNAC est certes importante et courageuse mais qu’en l’état du droit, elle apparaît aussi totalement vaine. Mais il est vrai qu’indépendamment des intérêts des plaignants, certaines plaintes ont aussi pour vocation première de faire évoluer l’état du droit en multipliant les jurisprudences. Espérons qu’il en soit alors ainsi même si j’en doute profondément au moment où j’écris ces lignes.

Dans la série des procès qui se rejouent avec des similarités plus que troublantes à 15 ou 20 ans d’intervalle, après « l’AFP contre Google News » en 2005, voici aujourd’hui « les éditeurs de presse contre l’IA de Google« , une plainte venant en effet d’être déposée en Février 2026, à Bruxelles, par le European Publishers Council (EPC) sur la base du droit de la concurrence. Comme rappelé par Isabelle Szczepanski sur le site Electronlibre, « Les éditeurs dénoncent une captation de leurs contenus « sans autorisation, sans mécanismes de retrait effectifs et sans rémunération équitable », et alertent sur un risque structurel pour l’économie de la presse. Le conflit entre éditeurs européens et géants du numérique franchit un nouveau cap, du fait d’une urgence économique, puisque selon les dernières données, le trafic issu de Google vers les sites de presse a chuté d’un tiers à l’échelle mondiale entre novembre 2024 et novembre 2025. »

Prenez la plupart des titres de presse des années 2005 et ajoutez simplement IA devant les noms de grandes firmes technologiques, et vous aurez l’exact équivalent des titres de presse des années 2025 s’interrogeant sur le devenir de l’IA et son utilisation par ces firmes dans leur arsenal de services. En 2005 on se demandait sur Google News allait tuer le journalisme, en 2025 on s’interroge pour savoir si « L’IA de Google est-elle en train de tuer le journalisme ? » Vingt années on passé. Les prédateurs sont identiques. Les modes de prédation également. A croire que vingt années ne nous ont rien appris, ou si peu.

Autre exemple de procès cette fois centré sur une possible distorsion de concurrence autant que sur le respect du droit d’auteur, celui que la commission européenne a ouvert contre Google accusé de piller des contenus de créateurs sur Youtube pour alimenter son IA « Veo 3 ». Comme rappelé sur le site Presse-Citron :

« En ce qui concerne le moteur de recherche, la Commission européenne va examiner dans quelle mesure les aperçus IA de Google et les réponses de l’AI Mode reposent sur les contenus des éditeurs, “sans compensation appropriée et sans possibilité pour les éditeurs de refuser sans perdre l’accès à Google Search”, alors que le moteur de recherche est une source de trafic majeur pour ces éditeurs. En ce qui concerne YouTube, la Commission explique que “les créateurs de contenu qui publient des vidéos sur YouTube ont l’obligation d’autoriser Google à utiliser leurs données à différentes fins, notamment pour l’entraînement de modèles d’IA générative”, que ceux-ci ne sont pas rémunérés, et que Google interdit pourtant ses concurrents d’utiliser le contenu YouTube pour entraîner leurs modèles d’IA. »

Là encore et comme dans l’ensemble des procès que la firme a jusqu’ici déjà traversés, l’accusation d’abus de position dominante n’est pas une dérive, c’est une marque.

Alors certes au fur et à mesure que l’histoire avance et que les mêmes procès de rejouent avec pour l’essentiel les mêmes catégories d’acteurs, l’époque change, et la chaîne de valeur se modifie. Ce qui hier était l’intérêt premier de la presse dans un monde informationnel certes connecté mais non encore numériquement préempté, ce qui valait pour une économie des médias, vaut aujourd’hui pour un écosystème nouveau dans lequel la valeur d’une information n’est plus premièrement sa capacité à être certifiée comme vraie mais plutôt la garantie virale et circulatoire d’une information assemblée et produite industriellement.

Bibliothèques pirates et entreprises corsaires.

J’ouvre une petite parenthèse. Dans l’histoire du web et des industries culturelles, et dès lors que son usage – celui du web – devînt massif, il a toujours existé des sites pirates (qui venaient historiquement compenser l’absence d’une offre légale) et des bibliothèques également pirates qui se constituaient principalement pour lutter contre des monopoles empêchant, entravant ou monnayant à l’excès et pour leur seul bénéfice la circulation des connaissances, notamment scientifiques. Parmi ces bibliothèques pirates on peut notamment citer LibGen, Z-Library (qui commença par être un site miroir de LibGen) mais aussi l’extraordinaire Sci-Hub fondé par la non moins extraordinaire Alexandra Elbakyan. On trouve aussi l’archive d’Anna qui est, pour faire simple, un moteur de recherche de bibliothèques clandestines, donnant accès l’une des plus grandes collections d’ouvrages numérisés du domaine public principalement. Si ces bibliothèques pirates ont souvent mauvaise presse dans nos contrées, il ne faut jamais perdre de vue l’immensité du rôle scientifique et intellectuel qu’elles jouent dans des pays qui n’ont ni la chance ni les moyens d’être des démocraties garantissant l’accès aux savoirs et aux connaissances.

Et dans l’histoire des technologies numériques, donc pour faire simple dans le dernier quart de siècle que nous venons de traverser, il est tout à fait frappant et sidérant de voir comment ces bibliothèques pirates, après avoir été criminalisées par les monopoles qu’elles combattaient, sont aujourd’hui instrumentalisées par d’autres monopoles (souvent les mêmes) qui agissent en corsaires au bénéfice d’intérêts économiques et géo-politiques devenus majeurs dans la course à l’armement que représente le développement des outils dits d’intelligence artificielle. Voici par exemple Nvidia qui se trouve prise la main dans le pot de confiture, en train de négocier avec l’archive d’Anna pour accéder à des millions de livres numériques et combler son retard dans l’entraînement de ses modèles. Là encore, l’ombre et la mémoire de l’enfant d’internet sont tristement pesantes et présentes.

Panama (destructive) Papers.

Vous vous souvenez de l’affaire des Panama Papers ? Ok bah rien à voir 😉 Par contre je vais vous parler du Projet Panama de la société Anthropic. Que j’ai découvert dans la formidable enquête du Washington Post, reprise et résumée notamment par le site Actualitté. Avant cela je vais vous rappeler, qu’historiquement la numérisation a toujours eu comme un de ses principaux objectifs de protéger, via une copie numérique, des ouvrages anciens et fragiles tout en les offrant à la consultation d’un public bien plus large.

Le projet Panama consiste, lui, à s’adresser à des libraires, bouquinistes, et à des bibliothèques, je cite, « sous-financées », pour récupérer d’énormes volumes d’ouvrages, lesquels seraient ensuite désossés pour n’en récupérer que les feuillets qui seraient ensuite envoyés sur des bancs industriels de numérisation, numérisation permettant donc d’entraîner l’IA d’Anthropic, à la suite de quoi tout ce papier serait soit détruit (sic) soit recyclé. Au début y’avait un livre. Après y’a plus rien. Ce projet allie et synthétise à la fois tout le cynisme et la crapulerie dont ces acteurs industriels sont capables. Comme c’est trop compliqué ou trop long d’entrainer légalement des IA sur des corpus suffisamment denses, on n’a qu’à jouer l’appât du gain auprès d’acteurs dans le besoin pour récupérer des livres en loucedé et les détruire après désossage et numérisation. Et au passage nourrir l’IA maison en mode Chronos dévorant ses enfants.

Petite parenthèse ici nécessaire. La numérisation d’ouvrages dispose de modalités différentes. On peut numériser « en mode image » ou numériser « en mode texte » (c’est à dire ajouter sur la numérisation en mode image un logiciel de reconnaissance optique de caractère – OCR – qui nous permettra de chercher à l’intérieur du document). Mais on peut aussi faire de la numérisation « destructive » ou « non-destructive ». Et en général on prend l’option « non-destructive ». Mais la numérisation non-destructive est beaucoup plus coûteuse que la numérisation destructive. Et il existe (en gros) trois types de machines pour réaliser la numérisation d’ouvrages. Les machines « manuelles » dans lesquelles c’est un opérateur humain qui va tourner les pages avant chaque « flash » de numérisation (par exemple pour les ouvrages abîmés ou anciens ou fragiles) ; les machines automatiques dans lesquelles c’est un robot automate (sorte de bras articulé) qui va vernir tourner plus ou moins rapidement les pages à numériser. Et enfin les machines « bancs de numérisation » dans lesquelles défilent des pages préalablement découpées et qui va donc beaucoup plus vite (il est par ailleurs possible de « réassembler » les livres une fois ainsi numérisés). A l’époque du procès Google Books, on avait beaucoup parlé de ces techniques de numérisation. Celles de Google restaient secrètes mais dans les grands centres de numérisation qu’il faisait construire pour accomplir sa tâche, les bibliothèques envoyaient des livres, certains précieux, certains anciens, d’autres plus « banals », mais en aucun cas la numérisation « destructive » n’était pratiquée. Cette dernière est d’ailleurs réservée à certains ouvrages à gros tirage, certains secteurs de l’administration ou à certains documents par exemple commerciaux dont la « forme livre » importe peu.

Je le redis donc ici, le projet Panama d’Anthropic est l’exemple parfait de tout le cynisme et la crapulerie dont sont capables des acteurs industriels uniquement soucieux de construire ou de préserver un avantage concurrentiel. Et ceci est pourtant l’une de leurs moindres saloperies au regard de – par exemple – ces mêmes acteurs emploient ou plus exactement exploitent de manière dissimulée des travailleurs pauvres à l’autre bout de la planète, qu’ils exposent délibérément à des contenus d’une violence extrême, pour affiner et entraîner leurs larges modèles de langage.

L’acte de lire dans l’impensé.

Un autre des grands enjeux du premier grand procès des industries culturelles, le procès Google Books, était celui de la mise en danger et de la fin programmée de la confidentialité de l’acte de lecture. Un argument qui avait notamment été porté par l’EFF (Electronic Frontier Foundation) et d’autres militants des libertés numériques, et que le juge en charge avait reconnu comme « effectivement important » mais non suffisant pour permettre à lui seul de rendre une décision favorable aux plaignants dans l’affaire. Et pourtant. Et pourtant la confidentialité de l’acte de lecture est au fondement même de nos démocraties. Sans même parler des dictatures, il suffit de voir ce que chaque gouvernement autoritaire fait du choix et de la place des livres dans les premières mesures qu’il prend.

En 2005 on s’alarmait (insuffisamment) du fait que l’avènement du livre numérique propriétaire et d’une consultation sur le modèle du streaming, concentrée entre les mains de quelques plateformes hégémoniques, allait leur donner un pouvoir infini pour à la fois orienter mais surtout documenter chacun de nos choix de lecture et les retenir ensuite comme potentielles preuves à charge.

En 2025 c’est le New-York Times qui dans le cadre d’une plainte déposée en 2023, attend que ChatGPT lui fournisse le contenu de 20 millions de conversations avec le générateur de texte, pour prouver que l’IA a porté atteinte aux droits d’auteur du journal (en mobilisant sans les référencer ni les citer, de larges extraits de ses articles pour alimenter lesdites conversations). La confidentialité de nos conversations avait pourtant déjà été mise à mal dans les nombreuses affaires autour des enceintes connectées qui, même éteintes, continuaient d’enregistrer tout ce que nous disions pour ensuite le scripter et là encore, alimenter (notamment) différents modèles algorithmiques. Mais avec la capacité de ChatGPT et des autres à se nourrir de textes et donc de lectures pour en produire d’autres qui ne soient pas simplement des usages de lecture mais des composants structurels et structurants de chaque interaction simulée avec chacun et chacune d’entre nous, la confidentialité de l’acte de lecture est en quelque sorte mise à mal … au carré.

Comment tout cela va (probablement) finir.

Sur le plan juridique, certains tentent aujourd’hui d’éviter que les procès de 2025 ne se terminent tous comme celui de 2005, c’est à dire avec une décision favorable aux grandes entreprises de l’IA à qui l’on accorderait, nonobstant la prédation extractiviste torcheculatoire pour le droit d’auteur à laquelle elles se livrent, la reconnaissance d’un « usage équitable » (Fair Use) établi sur des copies (génératives) considérées comme « hautement transformatives ». Et pour ce faire, ils et elles essaient d’inverser la charge de la preuve en défendant un texte dans lequel, puisqu’il est impossible pour un auteur de prouver que son travail a été repris et utilisé par des IA, on considérerait que « Sauf preuve contraire, l’objet protégé par un droit d’auteur (…) est présumé avoir été exploité par le système d’IA, dès lors qu’un indice afférent au développement ou au déploiement de ce système ou au résultat généré par celui-ci rend vraisemblable cette exploitation ». Ce serait donc aux sociétés qui développent des IA de faire la preuve qu’elles n’ont pas pillé des oeuvres et des auteurs sans leur accord. Juridiquement cela tient la route. Et il existe d’ailleurs d’autres approches intéressantes qui visent à prouver que ces IA sont capables de réécrire certaines oeuvres presqu’intégralement et littéralement, ce qui rend la notion d’usage uniquement transformatif compliqué à défendre :

Pour Alexandra Bensamoun, professeure de droit à l’université Paris-Saclay et experte du droit d’auteur des IA, « cette étude apporte des éléments empiriques décisifs » pour les contentieux en cours dans ce domaine. Des éléments qui mettent en évidence une « absence de transformation [qui] pourrait exclure le bénéfice du fair use aux Etats-Unis, et en Europe, de l’exception TDM [fouille de textes et de données], laquelle suppose une utilisation aux fins d’analyse, et non de reproduction/stockage en vue de restitution », juge-t-elle.

Mais au vu de ce que je me suis efforcé de vous raconter dans cet article, je suis tout sauf optimiste sur les chances d’un tel texte et d’une telle approche d’aboutir aujourd’hui (ou demain). Car même si « une large coalition de représentants des auteurs, de la presse, du cinéma, de l’édition ou du disque ont salué l’initiative« , ils ont en face d’eux, en plus des acteurs de la tech, le gouvernement français et la commission européenne qui dans la roue des acteurs de la tech voit officiellement cette mesure comme un frein à l’innovation (sic).

Le scénario le plus probable ressemblera à mon avis trait pour trait au jugement rendu dans l’affaire Google Books après 10 ans de procès. C’est à dire que sur le plan juridique, le Fair Use et l’argument de copies hautement transformatives l’emportera. Ce qui, là encore comme dans l’affaire Google Books, n’empêchera pas, au contraire même, des accords de gré à gré entre les parties, accords qui comporteront à la fois des volets de compensations financières (comme les 1,5 milliards déjà versés par Anthropic) et d’autres davantage partenariaux (notamment avec les éditeurs de presse). La question qui qui reste ouverte est celle de l’évolution des usages et des pratiques (ainsi que du droit) que cela aura, dans l’intervalle, permis de sanctuariser.

Je veux conclure en trois temps.

D’abord avec les mots de Bruce Schneier qui dans une tribune à propos de l’affaire Anthropic parue dans le San Francisco Chronicle et reprise sur son blog, écrit :

« Aaron Swartz avait compris que l’accès au savoir est une condition préalable à la démocratie. La manière dont nous traitons le savoir – qui peut y accéder, qui peut en tirer profit et qui est puni pour le partager – est devenue un test de notre engagement démocratique. »

« Un test de notre engagement démocratique. » Qui prend des allures de crash-test. Derrière ces questions de propriété intellectuelle, de copie transformative, d’usage équitable, de rémunération de la création, qui font la Une des journaux et sont le principal angle de traitement de ces sujets, il y a des enjeux beaucoup plus fondamentaux qui touchent à la transformation et à la réingénierie permanente d’une matière vivante que l’on appelle tantôt la culture, tantôt la connaissance, tantôt la création, tantôt l’information, tantôt tout cela à la fois. Une matière vivante qui définit ce que nous savons autant que ce que nous croyons, et une manière vivante qui à force de copies hautement transformatives (ou non) de ce qu’elle est, peut nous rendre davantage enclins à faire sécession qu’à faire société.

Ensuite en rappelant que ces questions aujourd’hui posées se posaient déjà dans l’esprit de l’un des pionniers visionnaires de l’internet et du Web, Ted Nelson, notamment connu pour avoir « inventé » le terme hypertexte mais qui dès avant qu’ils soient opérants (le web et l’hypertexte) réfléchissait à la question du « versioning ».

Définition courte : « Le versioning désigne l’ensemble des manières de gérer, indépendamment de tout niveau d’échelle, les procédures permettant de rattacher différentes versions d’un même document à un (des) auteur(s), tout en permettant à chacun de s’approprier tout ou partie des documents produits par d’autres ou par eux-mêmes, et en assurant un suivi des différentes modifications apportées. » (définition extraite du chapitre de ma thèse consacré au sujet, thèse disponible ici).

Définition un peu plus longue : « Le versioning désigne l’ensemble des manières de gérer, à l’échelle de l’hypertexte planétaire, les procédures permettant de rattacher un texte à un auteur (ou à un collectif d’auteurs), tout en permettant à chacun de s’approprier – de se ré-approprier – tout ou partie de documents produits par d’autres ou par eux-mêmes afin, premièrement, de limiter la prolifération « bruyante » des versions différentes d’une même information sur le réseau et deuxièmement, d’identifier la nature et les origines de ces modifications dans l’optique d’une gestion cohérente de l’ensemble des documents électroniques actuellement disponibles, indépendamment de leur format, de leur statut et en dehors de tout institution centralisée. Autant dire que plus qu’une problématique, il s’agit là d’un véritable « idéal ». » (définition toujours extraite du chapitre de ma thèse, toujours disponible ici).

Définition à rapprocher de celle qu’il [Ted Nelson] propose pour le terme document : « Un document est une collection arbitraire de versions disposant d’un nom propriétaire et de limites.«

Les IA génératives sont essentiellement une version totalement dérégulée et spéculative de ce « versioning ». L’attachement aux textes et aux oeuvres, n’est rien, ou si peu, sans la possibilité de leur rattachement, à des auteurs, des époques, des contextes, des courants, des dynamiques ancrées dans le temps et dans l’espace dont certaines ont par ailleurs réussi à s’affranchir. Sans ces rattachements possibles, c’est toute une part forte de notre attachement aux oeuvres qui n’ayant plus d’objet, se dispense de la possibilité d’exprimer des subjectivités de lecture, d’analyse ou de compréhension qui soient en tant soit peu fécondes.

Enfin, loin, très très loin de la stratégie de Lisbonne définie au début des années 2000 et qui sanctuarisa l’idée mortifère d’une « économie de la connaissance » érigée en objectif, il aurait fallu se donner les moyens et les cadres pour bâtir non une économie mais une écologie de la connaissance (et par exemple creuser le sillon ouvert en 1972 par Bateson avec son écologie de l’esprit). Nous avons pris un chemin différent qui nous conduit aujourd’hui, pour toute la connaissance, la culture et l’information, qu’elles soient scientifiques, littéraires, ou de toute autre nature, à n’avoir comme possibilité que celle d’affronter économiquement des acteurs dont le coeur de métier est dépendant de leur capacité de prédation, d’extractivisme et de mépris des lois (ou de rapprochement avec celles et ceux qui les font). Dès que nous aurons fini nos réunions de Quichotte et nos atermoiements de pleureuses, peut-être nous concentrerons-nous sur les luttes et moyens d’action, légaux ou nécessaires, pour une écologie de la connaissance qui ne peut-être autre chose que désormais pleinement radicale.

Aaron Swartz l’avait payé de sa vie, mais il nous avait clairement montré le chemin.

De Google Books à l’IA : l’histoire numérique repasse les plats.