Les lignes (de code) de la recherche (du temps retrouvé)

Google et son/ses algorithme(s). La bibliothèque du congrès. Le code civil et le code pénal. Facebook. Notre génome. A la recherche du temps perdu (de Proust). Microsoft Windows. Wikipédia. En admettant qu'il soit possible de traduire et d'imprimer sur du papier chacun d'entre eux, dans quel ordre de grandeur se classeraient-ils à votre avis ?

Je vous laisse le temps de réfléchir un peu et …

Voyelles-rimbaud

Voici la solution :

  1. Bibliothèque du congrès. 165 milliards de lignes (de texte). Soit 33 millions de volumes.
  2. Google. 2 milliards de lignes (de code). Soit 400 000 volumes.
  3. Wikipédia (ensemble des versions). 300 millions de lignes (de texte). Soit 60 000 volumes.
  4. Génome individuel. 56 millions de lignes. Soit 11 200 volumes.
  5. Facebook. 50 millions de ligne. Soit 10 000 volumes.
  6. Microsoft Windows. 45 millions de lignes. Soit 9 000 volumes.
  7. Le code civil + le code pénal. 300 000 lignes. Soit 60 volumes.
  8. A la recherche du temps perdu. 230 000 lignes. Soit 46 volumes.

(précisions : pour établir ce calcul de correspondances je suis parti des moyennes suivantes : 7 mots par ligne, 25 lignes par page, 200 pages pour un ouvrage moyen).

Pourquoi ce calcul et ces correspondances a priori aberrantes ?

Et bien parce que j'avais été frappé par une information déjà relativement ancienne où plusieurs articles mentionnaient le fait que Google était bâti sur deux milliards de lignes de code (article initial de Wired, repris notamment par Abondance). L'annonce de ce nouveau chiffre s'inscrivant dans l'imaginaire numéraire du numérique, j'ai donc essayé de "visualiser" à quoi pouvaient correspondre ces 2 milliards de lignes de code. Et de trouver des équivalents.

Donc si un ouvrage moyen compte 200 pages composées chacune de 25 lignes, "La recherche" de Proust comprendrait 46 volumes et Google en compterait 400 000.

D'où sortent ces chiffres ?

Pour Wikipédia, je me suis appuyé sur le projet de Michael Mandiberg. "Imprimer" la version anglophone de Wikipédia représenterait en effet environ 7 473 volumes de 700 pages en version papier. Soit 130 Millions de lignes (130 777 500 exactement). Au moins le double si l'on additionne les différentes versions dans différentes langues. Disons 300 millions de lignes donc. Pour notre génome, je suis parti de l'hypothèse que s'il était imprimé, il serait l'équivalent de 800 dictionnaires. Sachant que le Petit Robert fait en gros 2800 pages, cela nous donne environ 56 millions de lignes. Pour Facebook j'ai trouvé le chiffre dans cet article (qui soulève d'ailleurs le débat de savoir si la ligne de code est, ou non, la meilleure unité de mesure d'un projet informatique, mais pour les besoins de la démonstration, ben on va dire qu'en tout cas elle n'est pas moins valable que d'autres …) Pour Microsoft Windows, l'info a été donnée sur la page Facebook officielle de … Windows. Pour la bibliothèque du Congrès, on sait qu'elle compte 33 millions d'ouvrages (très exactement "38 millions books and other print materials"). Pour Google donc, de l'article de Wired et de tous ceux qui ont suivi. Pour "La Recherche" de Proust c'est le camarade Dominique Cardon qui m'a filé un tuyau. Pour le code pénal et pour le code civil, j'ai récupéré les infos dans la fiche technique de l'éditeur Dalloz (code pénal, code civil).

OK, super. So what ?

Et bien d'abord une relative sensation de vertige. Vertige de la représentation. Et vertige de la représentativité. Que valent les 300 000 lignes de notre code civil et de notre code pénal face aux 2 milliards de lignes de Google ? Et que valent les 2 milliards de lignes de Google face aux 165 milliards de la bibliothèque du Congrès ?

Ensuite un vertige de la correspondance. En millions de lignes imprimées notre génome est à peu près l'équivalent du code nécessaire au fonctionnement de Facebook ou de Microsoft Windows. Étonnant non ? En plus d'être un document, l'homme est un réseau social et un OS comme les autres …

Et puis, aussi, un vertige des usages. Les 165 milliards de lignes de la bibliothèque du Congrès sont servies par 3200 personnes (les personnels de la bibliothèque) à 1,6 millions d'usagers par an. Sans compter bien sûr les ressources accessibles depuis le site de la bibliothèque. Ou celles dépendant d'un affichage dans les pages de résultat elles-mêmes fabriquées par une petite partie des deux milliards de lignes de Google.

165 milliards de lignes de la bibliothèque du Congrès servies par 3200 personnes à 1,6 millions d'usagers par an et en face 2 milliards de lignes de code accessibles à 25 000 ingénieurs (de chez Google) et desservant 1200 milliards de requêtes par an (100 milliards par mois).

Et Proust, bien sûr. Combien de personnes ont lu "La Recherche" ? Et qu'en ont-ils fait ?

2 milliards de lignes qui disent quoi ? Pour faire quoi ?

Deux milliards de lignes de codes pour une gigantesque cathédrale du calcul, une "Summa Theologica" libertarienne, une église avec ses "Chief Evangelist", un catéchisme algorithmique auquel les plus brillants cerveaux de notre siècle commencent pourtant à adresser une prière : prière de réfléchir, prière de s'interroger sur la capacité d'une intelligence artificielle capable d'exterminer l'espèce humaine, prière de ralentir. Une prière bien singulière. Car quoi de moins artificiel que le calcul ?

Deux milliards de lignes pour faire quoi ? Traiter des requêtes dans le cadre d'une régie publicitaire ? Nous rappeler des dates d'anniversaire oubliées ? Conduire des voitures autonomes ? Battre des champions du monde du jeu de Go ? Et écrites par qui ???

Contre Pour Sainte-Beuve.

Des lignes, des textes, des oeuvres, des commandes, des instructions, des programmes, des algorithmes. Et des changements. Des lignes dont la lecture change nos vies. Leur donne un sens. Des lignes d'instruction. Qui instruisent. Et d'autres. Des lignes d'instructions, plurielles, au pluriel. Des lignes d'instructions dont l'itération permet tout aussi bien de traiter des requêtes dans le cadre d'une régie publicitaire que de conduire des voitures autonomes ou de battre des champions du monde du jeu de Go. Derrière ces instructions. Qui est instruit ? Et qui en est l'instrument ? Des lignes dont l'itération change nos vies. Mais ces lignes là, ces lignes algorithmiques, qui les lit vraiment ? Et qui les écrit ?

Vfgx4d0vgihc9r79opes(Source : Gizmodo)

Derrière chacune des 135 milliards de lignes de la bibliothèque du Congrès il y a un auteur. Que nous connaissons. Ou que nous apprendrons à connaître. Mais qui sont les auteurs des 2 milliards de lignes de Google ? Les ingénieurs de Google bien sûr. Mais est-on capable de tous les connaître ? D'établir ce que chacun d'entre eux a apporté à cette "oeuvre" ? Et au-delà de leur apport, que sait-on de leur vie ? En lisant "La Recherche" nous connaissons ou nous découvrirons l'homosexualité de Proust. En lisant le Voyage au bout de la nuit nous connaissons l'anti-sémitisme de Céline. Que savons-nous de la sexualité, des opinions politiques, du racisme ou de l'anti-sémitisme de ceux qui écrivent l'oeuvre de Google ? De Facebook ? Est-il utile que nous en ayons connaissance ? Vous pensez que non ? Vraiment ? Est-il vraiment inutile de comprendre pourquoi certains employés de Facebook par exemple sont effectivement racistes ? Ce "racisme" est-il sans effet sur l'oeuvre du code de Facebook ? Sur ce que permet, sur ce qu'autorise, sur ce que donne à lire le code de Facebook ? Bien sûr que non. L'oeuvre ne raconte pas l'homme mais la vie de l'homme éclaire certaines parties de son oeuvre. Renier le Contre Sainte-Beuve.

Deux milliards de lignes sans auteur, 400 000 volumes "anonymes par excès d'auteur", une oeuvre dont nous ne savons rien des auteurs, et que nous sommes incapables de lire, de déchiffrer. Mais qui à chaque instant accompagne, oriente, modifie nos vies, nos décisions, notre rapport aux autres, notre accès à l'information. Est-ce bien cela que nous voulons ?

Au Contre Sainte-Beuve de Proust il nous faut écrire un "Pour Lessig". Oui, Lawrence Lessig. Auteur de "Code is Law". Dans lequel, dès Janvier 2000, il y a 15 ans, il nous mettait en garde contre ces oeuvres algorithmiques anonymes par excès d'auteur.

"Le code régule. Il met en place certaines valeurs plutôt que d'autres. Il rend possible ou interdit certaines libertés. Il protège la vie privée ou favorise la surveillance. Des gens choisissent la manière dont le code effectue tout cela. Des gens écrivent ce code. Dès lors le choix n'est pas de savoir si les gens pourront choisir la manière de réguler le cyberespace. D'autres gens – les codeurs – le feront. Le seul choix est de savoir si nous jouerons collectivement un rôle dans leurs choix – et si nous pourrons alors déterminer la manière dont ces valeurs se régulent – ou si nous autoriserons collectivement ces codeurs à décider de ces valeurs à notre place."

Le problème de ces 2 milliards de lignes de code est qu'elles dirigent déjà des pans entiers de nos vies. Le problème de ces 2 milliards de lignes de code est qu'elles sont impossibles à auditer. Le problème de ces 2 milliards de lignes de code est qu'elles engendreront nécessairement des bugs. Que l'essentiel de ces bugs nous sera indolore. Mais que quelques autres causeront de formidables et d'irréparables pertes. 

Ces 2 milliards de lignes de code pour Google, ces 50 millions de lignes de code pour Facebook constituent une oeuvre, leur écriture est porteuse de sens, d'intentionnalité ; une oeuvre et un discours, de l'ordre du discours-programme, véhiculant des valeurs, une forme d'éthique ou de déontologie au travers des dizaines de millions de choix qu'elles rendent possible, qu'elles autorisent ou qu'elles interdisent, et qu'elles transcrivent littéralement. Le code de Google c'est 2 milliards de lignes. La loi des hommes c'est trois-cent mille lignes. Si le code c'est la loi, alors la loi fait 2 milliards de lignes et les 300 000 du code civil et du code pénal ne sont plus qu'un code suranné, obsolète.

En voiture Simone.

Des voitures autonomes équipées de logiciels "tricheurs". Des voitures autonomes piratables à distance. Des voitures autonomes impliquées dans des accidents. Trois fois la même question. Qui est responsable ? Trois fois le même corrélat : comment établir cette responsabilité ? Si c'est "le code" qui est responsable, alors qui est responsable du code ? Qui est l'auteur de ces 2 milliards de lignes ? Qui prend la décision de laisser "le code" prendre des décisions ? Et pour chaque décision prise par le code, comment et par qui est bâtie la hiérarchie et l'itération de contraintes, de variables, de paramètres qui conduiront à cette décision ?

La plus grosse partie de la réponse à cette question se trouve dans les 300 000 lignes de lois du code pénal et du code civil. 300 000 lignes supposées répondre aux 2 milliards de lignes de code de Google. Une infime mais pourtant essentielle partie de la réponse se trouve probablement aussi dans quelques-unes des 165 milliards de lignes de la bibliothèque du congrès, dans des travaux de philosophie, de morale, d'éthique, de sociologie, de mathématique, d'informatique …

D'un côté un code, alphabétique, parfaitement lisible. Des auteurs. Et donc des responsabilités. De l'autre un code, algorithmique, parfaitement illisible. Sans auteur. Sans responsable.

Et l'intelligence. "Assistée" plus que réellement "artificielle" elle sera, elle est déjà de plus en plus présente. A chaque interaction. A chaque décision. De la plus triviale à la plus essentielle. Comme la "direction assistée" est devenue la norme dans les habitacles de nos véhicules, l'intelligence assistée est en passe de devenir la norme dans la conduite de nos vies.

Il y a eu deux âges du code.

Au premier âge, nous avons appris ce code. HTML. Quatre lettres et la promesse d'une abolition. Celle des intermédiaires. Celle des filtres éditoriaux. "L'imprimerie a permis au peuple de lire. Internet va lui permettre d'écrire." Entre nous et le monde, rien d'autre que la possibilité d'écrire par la volonté du code. Ecrire. Créer des liens.

Puis vînt le deuxième âge du code. Au sein de plateformes et d'écosystèmes toujours plus concentrés, régulés par le marché publicitaire de l'attention, ce 2ème code vînt s'interposer entre nous et le monde. C'est aujourd'hui ce code qui éditorialise, qui filtre, qui choisit ce qui mérite d'être vu, et donc d'être lu. Mais de ce nouveau code nous ne savons rien. Car nous ne savons rien de ceux qui oeuvrent à le bâtir. De ceux qui en sont les auteurs. A défaut "d'autorités" il nous reste un autoritarisme de circonstance : ceci sera publié, ceci ne le sera pas.

C'était il y a longtemps de cela … "Science sans conscience n'est que ruine de l'âme". Et code sans auteur … ?

Un commentaire pour “Les lignes (de code) de la recherche (du temps retrouvé)

  1. Qui est responsable du code ? A priori, je dirais que c’est l’entreprise qui m’a vendu l’objet sur lequel tourne le code.
    Je ne vois pas tellement pourquoi il faudrait traiter avec les dysfonctionnement logiciels différemment qu’avec les dysfonctionnements matériels.
    Les plombs chez moi ont un algorithme : si il y a une surtension, ils coupent l’électricité. Il y a des vies qui se jouent réellement sur cet algorithme directement implémenté dans du matériel ad hoc depuis des décennies
    Pour le piquant, j’ajouterais que ces disjoncteurs implémentent la première loi de la robotique : refuser d’obéir à un ordre (utiliser un appareil électrique) si ça met en danger un humain.
    Cela fait donc très longtemps que des algorithmes dirigent nos vies (au sens strict); que ces algorithmes soient traités par des machines de Turing plutôt que du matériel dédié est récent.
    Bref, ma question est : quoi de nouveau ? Pourquoi faudrait-il un arsenal juridique réellement nouveau pour traiter les conséquences de bugs informatiques ? En quoi un bug informatique ne peut-il pas être classé dans la catégorie des « défauts de fabrication » ?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut