De la page au cerveau : le grand récit algorithmique.

Bloomberg vient de sortir une interview très commentée de Greg Corrado, Mister "intelligence artificielle" chez Google, dans laquelle il est question de le mise en place, il y a quelques mois de cela, d'un "nouvel algorithme" baptisé "RankBrain". Et comme à chaque annonce concernant la firme, les commentaires sont nombreux. Permettez que j'y ajoute le mien, non pour décrire la réalité technique de cette nouveauté (c'est déjà très bien fait ici ou ), mais pour la remettre en contexte à l'aune du "grand récit algorithmique" propre à la firme.

Au commencement était la formule.

Google s'est construit sur une formule mathématique "simple" et publique : celle de son premier algorithme, le "PageRank".

Pagerank-formule-initiale

Voilà donc le Pagerank. Nul ne sait encore réellement si ce nom renvoie – hypothèse la plus probable – au simple principe de classement (ranking) de "pages" (web) ou – hypothèse la plus séduisante selon moi – au nom de son principal développeur, à savoir Larry "Page".

Suffisante en 1998 pour enterrer la concurrence et instaurer un nouveau paradigme dans le monde des moteurs de recherche, cette seule formule s'est enrichie, à sa périphérie, par une liste de plus en plus étoffée de différents "critères", "paramètres" et autres "variables" qui constituent, désormais, le coeur de l'algorithmie du géant de Mountain View. Le "PageRank" d'aujourd'hui n'a, hormis la formule mathématique initiale, plus grand chose à voir avec le PageRank initial.

Et l'on apprend que désormais Google introduit de l'intelligence artificielle, plus exactement du "machine learning" dans son algorithmie : nom de code "RankBrain".

Le bestiaire algorithmique.

La totalité des critères et des routines algorithmiques qui composent l'algorithmie "globale" de Google sont regroupés au sein de sous-ensemble algorithmiques dédiés, disposant chacun de leur propre toponymie (algonymie ?) comme rappelé dans cet article d'Arobasenet :

"RankBrain fait partie de l'algorithme global Hummingbird ou Colibri (…) Et précisons qu'Hummingbird contient également d'autres filtres ou algorithmes dont les noms sont familiers pour ceux qui exercent dans le domaine du référencement, tels que Panda qui pénalise le contenu de faible qualité, Penguin qui lutte contre les liens factices, Payday conçu pour lutter contre les requêtes spammy, ou encore Pigeon visant à améliorer les résultats locaux, Mobile-Friendly, et Pirate destiné à lutter contre la contrefaçon en ligne."

Du "Pagerank" au "RankBrain" en passant par la ménagerie des colibris (HummingBird), des pingouins (Penguin), des "Panda(s)", et autres "Pigeon(s)", sans oublier "Payday", "Mobile-Friendly", "Pirate".

Penguin-Panda-Hummingbird-PigeonLe bestiaire algorithmique de Google (Source)

A tout cela il faut ajouter quelque chose que l'on pourrait appeler des "composantes algorithmiques fonctionnelles dédiées", par exemple le Knowledge Graph, premier pas de Google sinon vers le web sémantique, du moins vers une sémantisation enrichie et automatique des requêtes. Ces composantes fonctionnent par "couplage" avec des bases de données externes à la firme (Freebase), et permettent (grâce à l'algorithme donc) de générer des informations structurées et sémantisées liées à différents types de requêtes.

Ajoutons enfin que les différents écosystèmes de service qui gravitent autour de Google peuvent avoir des algorithmes "dédiés" (c'est par exemple le cas de Google News) ou bien ré-agencer dans un ordre différent et avec des échelles de pondération également variables tout ou partie des – nombreux – critères qui composent le Pagerank : ainsi Google n'indexe pas de la même manière et ne donne pas accès en fonction des mêmes règles à sa base d'images (Google Images), de vidéos (Youtube), aux post publiés sur son réseau social (Google +), etc.

En résumé dans le "grand récit algorithmique" de Google nous avons donc :

  • 1 formule mathématique "simple et publique"
  • une liste de plusieurs centaines de critères dont la pondération et la hiérarchisation varie chaque année, et de manière plus significative lors de chaque nouvelle mise à jour algorithmique importante ("Google Dance")
  • des ajustements algorithmiques (appelons-les des facettes) qui permettent au moteur de s'adapter à la variété des contenus à indexer (images, vidéos, etc …)
  • un bestiaire (pandas, pingouins, colibris, etc) qui permet de cibler tel ou tel type de pratique et/ou de contenus et d'assigner un volet algorithmique dédié à leur traitement
  • et des briques fonctionnelles dédiées (Knowledge Graph) reposant en partie sur des banques de données externes

Et le tout est périodiquement remixé dans le grand shaker des célèbres Google Dance ou à l'occasion de l'introduction d'un nouveau composant algorithmique.

Et donc désormais la sortie de "RankBrain".

Si, pour ce nouvel algorithme "RankBrain", Google n'a pas choisi de continuer à alimenter la toponymie de son bestiaire et s'il a plutôt fait le choix de reprendre la notion de Ranking en l'associant à celle du cerveau, c'est peut-être pour poser, de manière sémantique autant que symbolique, un véritable jalon, une étape décisive de sa mue : du PageRank au RankBrain. De l'organisation à l'organe, à l'organique.

Il n'est plus ni suffisant ni satisfaisant d'ordonner, de classer des pages. Il faut confier à une entité désignée comme organique, "cérébrale", le soin de mettre en ordre le monde dans la perception médiée par le numérique qui nous en est offerte au travers de l'écosystème de services de Google, à commencer par son moteur de recherche. Un cerveau classant et glaçant.

Car si le "Rankbrain" s'appuie sur une ingénierie parfaitement documentée autour du machine-learning, mais comment ne pas y voir, en écho, la touche sémantique de l'idéologie transhumaniste de Kurtzweill (qui est, rappelons-le, à la tête de l'entité Google X) ?

Un cerveau : pourquoi faire ?

(extrait de l'excellentissime documentaire "Google And The World Brain". Ici Amit Singhal qui est – en gros – LE monsieur qui veille sur l'algorithme et affine sans cesse sa "pertinence" et qui dit : "Google Search is going to be Assisted Intelligence, not Artificial Intelligence".)

La dimension "intelligence assistée" derrière les techniques de machine-learning utilisées par le RankBrain poursuit plusieurs objectifs.

Il s'agit d'abord de permettre d'adresser (et donc de répondre), par inférence, à des requêtes "non-standard", c'est à dire inédites dans la gigantesque archive des questions déjà posées au moteur et qu'il est capable de mobiliser en activant "simplement" sa mémoire cache pour nous resservir les pages y répondant (en adaptant bien sûr la réponse en la personnalisant).

"Ce nouvel algorithme lancé il y a quelques mois est capable d’apprendre de nouvelles choses, de nouveaux mots, de nouvelles expressions, etc. et de les intégrer automatiquement dans sa base de données. Son objectif est de mieux comprendre le sens des mots se trouvant dans les pages web mais aussi les expressions spécifiques à chaque langue et les synonymes des mots. RankBrain est également capable de proposer aux internautes des pages qui ne contiennent pas les mots de leur requête mais qui traitent du sujet, il se base pour cela sur les connections entre les mots. Ce système ultra perfectionné se charge déjà de traiter les requêtes encore jamais vues par Google, celles-ci sont au nombre de 450 millions par jour." (Presse-Citron)

450 millions "soit 15% des requêtes quotidiennes." (A lire ailleurs)

<incise> Ce seul chiffre et ce seul objectif est à lui seul hallucinant. Car ce dont nous parlons ici n'est rien d'autre que le récit de la bibliothèque universelle de Borges, sauf qu'il ne s'agit plus de "livres" mais de "requêtes", requêtes dont la longueur moyenne ne cesse par ailleurs d'augmenter, et continuera de la faire avec l'essor des requêtes "vocales". Ce que Google constitue n'est rien d'autre que la bibliothèque universelle de l'ensemble des questions/requêtes formulables et de la liste des sites permettant d'y répondre. Et à la différence du récit de Borges, qui postule l'existence de cette bibliothèque dans laquelle la totalité des "livres" composés de la totalité des mots organisés dans la totalité des possibilités combinatoires existantes, à la différence du récit de Borges, Google est, lui, réellement en train de constituer cette bibliothèque universelle de requêtes ; Google, ou plus exactement le composant algorithmique "RankBrain", est en train de déployer une technologie permettant de construire la bibliothèque de toutes les questions possibles, de les comprendre, et d'y apporter des réponses. Ses réponses. C'est vertigineux. Même si Marguerite Duras avait déjà tout deviné : "il n'y aura plus que des réponses." Nous y sommes. </incise>

"Et de tous les signaux (plusieurs centaines, selon Google) entrant en ligne de compte pour organiser les résultats lors d’une requête, RankBrain se classe en troisième place par ordre décroissant d’importance. C’est considérable." (Numérama)

L'autre intérêt de cette technologie (et la dimension fascinante qui vient alimenter le grand récit algorithmique) est celui qui permet faire un pas de plus, là encore par inférence, dans ces algorithmes de la routine : "IF ça va ? THEN Oui et toi ?". Ainsi la fonctionnalité de Gmail, baptisée "Smart Reply" et lancée le 3 novembre 2015, va permettre, pour certains mails, de vous proposer des réponses pré-rédigées. Le but ici poursuivi est assez proche du célèbre test de Türing, au moins dans son ambition première : il s'agit de s'attaquer au langage (grâce au Machine Learning et au Deep Learning) mais dans sa dimension conversationnelle. Ce qui est beaucoup plus complexe à mettre en place que les "simples" réponses proposées par Google Suggest qui s'appuient sur un processus de requêtage déjà très formatté. 

"Dans le cas de Smart Reply, les ingénieurs de la société n’ont pas écrit des lignes et des lignes de codes informatiques pour tenter de prévoir les innombrables scénarios possibles – une tâche presque impossible à accomplir. Ils ont au contraire bâti un algorithme capable de déterminer tout seul les réponses à proposer en fonction des mots contenus dans le message reçu." (Le Monde)

"RankBrain pourrait également permettre une meilleure compréhension des requêtes vocales complexes." (Presse-Citron) Un domaine dans lequel il va falloir disposer très rapidement de marges de progression significatives tant les interfaces vocales semblent avoir vocation à supplanter à moyen terme le recours à l'écrit.

La grande question du grand récit.

Comme tous les grands récits, le grand récit algorithmique pose une question majeure, une question morale. Cette question est tout entière contenue dans cette citation :

"Dans le cas de Smart Reply, les ingénieurs de la société n’ont pas écrit des lignes et des lignes de codes informatiques pour tenter de prévoir les innombrables scénarios possibles – une tâche presque impossible à accomplir. Ils ont au contraire bâti un algorithme capable de déterminer tout seul les réponses à proposer."

Cette question n'est pas celle du fantasme de l'émergence d'une "intelligence artificielle" qui pourrait un jour nous devenir hostile. Cette question est liée à l'article fondateur de Lessig en 2001 : "Code is Law". Un texte dans lequel on peut lire ceci :

"Si c’est le code qui détermine nos valeurs, ne devons-nous pas intervenir dans le choix de ce code ? Devons-nous nous préoccuper de la manière dont les valeurs émergent ici ? En d’autres temps, cette question aurait semblé incongrue. La démocratie consiste à surveiller et altérer les pouvoirs qui affectent nos valeurs fondamentales, ou comme je le disais au début, les contrôles qui affectent la liberté. En d’autres temps, nous aurions dit « Bien sûr que cela nous concerne. Bien sûr que nous avons un rôle à jouer."

Oui les programmes informatiques (les algorithmes donc) véhiculent des "valeurs", oui un algorithme peut être "de gauche", ou "de droite", ou "raciste", ou "empathique" si son programmeur l'est lui-même. Mais à l'heure où, grâce au Machine Learning, les algorithmes "apprennent" seuls, comment les contrôler ? Comment ces "méta-règles" d'apprentissage peuvent-elles encore, ou non, être corrélées à une chaîne de "valeurs" qui sont autre chose que de simples "variables" ? Et en cas d'abus ou de bug manifeste, qui pourra en répondre ? Sera-t-on seulement encore capable de le détecter ?

2 commentaires pour “De la page au cerveau : le grand récit algorithmique.

  1. bonjour,
    comme vous le citez ici, et qu’il ne me semble pas avoir lu ça sur ce site, avez-vous vu passer la bibliothèque de babel sur le web ?
    https://libraryofbabel.info/
    dans ‘about’ ils expliquent qu’elle n’est pas complète mais : At present it contains all possible pages of 3200 characters, about 10[puissance]4677 books.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut