La promesse de milliards de pages. Fatrasie de mots, pléthore de contenus. Mémoire documentaire externe de l'humanité tout entière. Il y a le rêve de connaissances et d'informations universellement disponibles. Le web comme nouvelle métaphore de la bibliothèque d'Alexandrie.
Ceux qui ont rendu ce rêve possible. Ceux qui l'ont rendu accessible. Un moteur. Google. Devenu métonymie du web tout entier. Comme si chercher dans Google était chercher dans le web.
Ce que l'on sait. Ou plutôt ce que l'on devine. Ces milliards de pages ne sont finalement que peu de choses. Plus personne ne sait ni n'est capable de dire de combien de pages est fait le web. Plus personne ne sait ni n'est capable de dire de combien de pages est constitué l'index de Google.
De basses approximations que nous tenons en haute estime : Google et les autres moteurs n'indiquent plus depuis longtemps le nombre de pages qu'ils indexent. S'ils nous suffisent c'est d'abord au nom de leur suffisance. A revers des unités constituées de savoir et d'information, les livres, les journaux, qui furent l'unité documentaire suffisante des bibliothèques, à cette nouvelle échelle où chaque bribe, où chaque fragment, où chaque profil est également documenté, où chaque bribe, chaque fragment, chaque profil fait document, la représentativité des informations et des connaissances indexées et accessibles, n'a plus qu'un sens algorithmique. Le choix de retenir ceci ou cela n'est plus celui de l'appartenance à une classification mais relève uniquement des itérations d'un algorithme se rêvant auto-suffisant.
La cassure, le changement de paradigme entre la connaissance potentiellement utile et l'information effectivement disponible. Personne jamais nulle part ne fut en mesure de stocker et de donner accès en un même lieu à toute la connaissance potentiellement utile, fût-elle disponible. Personne jamais nulle part de sera en mesure de stocker et de donner accès en un même lieu à toute l'information effectivement disponible, fût-elle utile. L'utopie et sa fracture pragmatique : stocker et donner accès à suffisamment de connaissance utile ; stocker et donner accès à suffisamment d'information disponible.
A la grande époque des études pour mesurer la taille ou le diamètre du web, les estimations donnaient le résultat suivant : Google n'indexait que 0,005% de l'information effectivement disponible. Peut-être pousser jusqu'à 1%.
Big Data for Small Web.
De plus en plus de données. Big Data. Mais de moins en moins de contenus. Less is More. More or Less.
Sur BoingBoing, Cory Doctorow se fait l'écho d'une étude récente publiée par un Daniel Seng, un juriste de Stanford qui a analysé en détail les différentes demandes de retrait de contenu au nom du DMCA (Digital Millenium Copyright Act). Les résultats sont édifiants. En 4 ans, les demandes de retrait ont progressé de … plus de 700% !! Sans surprise ce sont les contenus musicaux et pornographiques, suivis des contenus audiovisuels (films) qui font l'objet du plus grand nombre de demandes. A noter également la partie "logicielle" avec, parmi les acteurs à l'origine des demandes, la 4ème place de Microsoft.
Chaque demande envoyée par chaque société contient une liste d'URL à déréférencer. Là encore l'augmentation est stupéfiante : nous sommes passés d'une moyenne de 47 adresses à plus de 124 adresses par demande.
Le site le plus ciblé par ces demandes est de très très très très très loin Google, suivi de très très très très très loin par Twitter. Là encore une intéressante photographie instantanée des usages, avec l'absence assez notable et étonnante de Facebook, nouvelle preuve du régime d'internalités caractéristique de la plateforme ainsi que de l'efficience de ses milices algorithmiques, à moins qu'il ne s'agisse de son approche "frictionless".
Plus étonnante – et plus flippante – est la liste des services de Google à l'intérieur desquels les demandes de retrait s'appliquent : à côté des annonces publicitaires, des services du "cloud" (Google Docs), des blogs (Blogger) et des contenus de Google Play, on trouve aussi … Gmail.
Autre enseignement de l'article, qui est une confirmation, l'essentiel des demandes de retrait s'effectue directement d'algorithme à algorithme. Et ce depuis 2005, date à laquelle les "bots" ont fait leur apparition, automatisant la recherche et le signalement de contenus contrevenant au copyright, jusqu'à couvrir actuellement près de 60% des demandes de retrait. Les milices du code. Les robocopyright à l'oeuvre.
We Are 99%
Nous sommes les 99% qui accèdent au 1%. Peut-être est-il temps de se demander si ce web là a encore quelque chose à voir avec sa promesse originelle. Pas juste celle d'y exister, pas juste celle d'y publier, mais aussi celle d'y apparaître. La promesse du disparate plutôt que celle du disparaître.
Peut-être est-il temps, de bâtir enfin cet index indépendant. Peut-être que cela ne sera pas suffisant. Mais il ne fait plus aucun doute que c'est désormais nécessaire. Nécessaire pour tout un tas de raisons.
Parce que "le numérique facilite la construction de l'identité culturelle d'un individu" et "parce que la culture doit créer une forme de dépendance heureuse". Et parce que pour certains le numérique est déjà (avec la télé …) la seule forme de construction d'une identité culturelle. Et qu'il n'est pas acceptable que cette identité là se construise dans l'alcôve de manoeuvres algorithmiques qui ne sont plus que le bras armé des ayants droits. Parce que pour ce que l'on appelle la "culture" comme pour ce que l'on appelle la "démocratie" il est presque déjà devenu impossible de savoir si on nous manipule. Et comment.
Rappel : en 2004, Google avait 6 ans et indiquait alors indexer "3,307,998,701 web pages", avec mon camarade Gabriel Gallezot nous écrivions ceci :
"Quand nous consultons une page de résultat de Google ou de tout autre moteur utilisant un algorithme semblable, nous ne disposons pas simplement du résultat d'un croisement combinatoire binaire entre des pages répondant à la requête et d'autres n'y répondant pas ou moins (matching). Nous disposons d'une vue sur le monde (watching) dont la neutralité est clairement absente. Derrière la liste de ces résultats se donnent à lire des principes de classification du savoir et d'autres encore plus implicites d'organisation des connaissances. C'est ce rapport particulier entre la (re-)quête d'un individu et la (re-)présentation d'une connaissance qui était présente dans les bibliothèques de la Haute-Egypte, pour en être évacuée avec l'arrivée des principes de classement alphabétiques.
Une nouvelle logique se donne à lire. Moins « subjective » que les principes classificatoires retenus par une élite minoritaire (clergé, etc.) elle n'en est pas moins sujette à caution. Les premières étaient douteuses mais lisibles, celles-ci le sont tout autant parce qu'illisibles[2], c'est-à-dire invisibles : l'affichage lisible d'une liste de résultats, est le résultat de l'itération de principes non plus seulement implicites (comme les plans de classement ou les langages documentaires utilisés dans les bibliothèques) mais invisibles et surtout dynamiques, le classement de la liste répondant à la requête étant susceptible d'évoluer en interaction avec le nombre et le type de requêtes ainsi qu'en interaction avec le renforcement (ou l'effacement) des liens pointant vers les pages présentées dans la page de résultat."
Onze ans plus tard, Google a 17 ans, il n'affiche plus le nombre de pages qu'il indexe, et la démonstration du dernier bouquin de Bruce Schneier est édifiante.
La parabole à l'index.
Matthew Rosenberg a récemment lancé une expérience passionnante. Pour tester les crawlers de Google, il a créé un site pour lequel il n'a fait aucune publicité autre que celle du bouche à oreille. La suite nous est racontée par Nicolas Aguila :
"Le site en question disposait donc d’une fonction lui permettant de vérifier, 24 heures sur 24, sa présence ou non sur le moteur de recherche de Google. À l’instant où le site a détecté sa propre présence sur Google, il était programmé pour s’effacer entièrement, ainsi que les éventuels commentaires de visiteurs. Il n’en reste aujourd’hui plus aucune trace, bien qu’il soit resté en ligne durant près de 22 jours avant que Google l’indexe dans ses pages."
Le projet s'appelle "Unindexed" et son code est disponible sur Github. Voilà la logique. Voilà la parabole. Voilà ce qu'il reste des 1%.
Anarchy in The UX
Anarchy in the UX (= "User Experience"). A la fin de son article, Daniel Seng renvoie à une citation d'Eric Schmidt :
"The [I]nternet is the first thing that humanity has built that humanity doesn’t understand, the largest experiment in anarchy we’ve ever had."
"Internet est la première chose bâtie par l'humanité et que l'humanité ne comprend pas, la plus vaste expérimentation de l'anarchie qui ait jamais existé". S'il était besoin de rappeler que Google et les Sex Pistols sont deux approches différentes de l'anarchie. Anarchy, non pas "in the UK", mais "in the Silicon Valley". A la mode de la Silicon Valley. Rarement phénomène anarchique aura été si bien contrôlé … Rien de moins anarchique que l'expérience utilisateur de la consultation d'un page de résultats de Google.
Le web comme une peau de chagrin. Dans laquelle Balzac justement écrivait "quand le despotisme est dans les lois, la liberté se trouve dans les moeurs et vice et versa". Et que l'on pourrait adapter ainsi : "quand le despotisme est dans le code, la liberté se trouve dans les usages et vice et versa". Le même Balzac qui dans la même Peau de chagrin nous offre peut-être une perspective heureuse :
"La liberté enfante l'anarchie, l'anarchie conduit au despotisme et le despotisme ramène la liberté".
A l'évidence nous sommes au milieu du gué. Et n'avons pas le cul sorti des ronces. Peut-être qu'1% des internautes suffirait à rendre disponible 99% des connaissances. Va savoir … Va comprendre.