Extended Memories : les 3 figures du Memex (et l’avenir du search)

Mémoire associative

D'abord il y a la figure historique. Celle de l'article de Vannevar Bush. Le Memex comme fondement théorique sur lequel tant d'ingénieurs, de chercheurs allaient ensuite bâtir ce qui deviendrait internet et le web. Nous sommes alors en 1945 et Vannevar Bush publie "As we may think", un court article dans The Atlantic Monthly dans lequel il énonce l'idée révolutionnaire selon laquelle il faudrait parvenir à singer le fonctionnement de l'esprit humain, c'est à dire permettre à une "machine" de fonctionner "par association". Plus précisément :

"Un memex, c’est un appareil dans lequel une personne stocke tous ses livres, ses archives et sa correspondance, et qui est mécanisé de façon à permettre la consultation à une vitesse énorme et avec une grande souplesse. Il s’agit d’un supplément agrandi et intime de sa mémoire." (…)

"Une étape s’avère indispensable au classement par association, dont le principe reposerait sur un système permettant à tout article d’en sélectionner immédiatement et automatiquement un autre. C’est ce processus reliant deux articles l’un à l’autre qui caractérise le memex."

<Mise à jour> Une version française est disponible, traduite par Anthony Masure. </mise à jour>

Memex

Mémoire pervasive.

Début 2015 c'est la DARPA (déjà très impliquée dans les premiers développements du réseau internet) qui lance un nouveau projet baptisé … Memex (toutes les sources figurent à la fin de ce billet). Il s'agit d'un moteur de recherche permettant d'indexer … tout ce que Google ne permet pas d'indexer, c'est à dire, contrairement aux idées reçues, une masse colossale d'informations et de documents (dans l'argumentaire de la DARPA et des initiateurs du projet Memex, les moteurs généralistes n'indexeraient que 5% du web, j'avais moi-même calculé – il y a 10 ans – une proportion beaucoup plus faible ; la réalité se situe probablement entre les 2).

De ce que j'ai pu en comprendre, ce projet aurait en fait plusieurs volets et plusieurs ambitions : il s'agirait à la fois  – et en première intention – d'un outil à destination des forces de police et de justice visant à lutter (entre autres) contre différentes formes de trafic d'êtres humains, de réseaux pédo-pornographiques, ou de piratage (même si cette dernière question n'est pas explicitement abordée dans les différents articles, on imagine assez bien l'intérêt qu'elle représente aux USA), mais également d'une technologie de recherche, "un google sous stéroïdes" dit l'un des acteurs du projet, qui pourrait être reprise ou mise à disposition de différents secteurs et acteurs industriels ou gouvernementaux.

On sait encore peu de choses de ce moteur d'un nouveau genre mais les faits suivants semblent acquis :

  • la baseline du projet se résume à la formule suivante : "comment rendre visible l'invisible"
  • il passerait outre les instructions du fichier robots.txt
  • il indexerait les sites "hors-réseau" comme ceux du réseau TOR
  • il indexerait également les "publicités" et autres "annonces sexuelles" (= les pages habituellement exclues de l'index de Google) pour en tirer des données d'usage géolocalisées (pour – par exemple – répondre à la question "qui a regardé des publicités pour des escorts girls et dans quelle ville ?" ou "qui cherche une Milf Anal Interracial au Texas")
  • il disposerait de fonctionnalités très puissantes liées à la reconnaissance d'images (de "patterns" – motifs plus exactement), probablement en lien avec – notamment – des technologies de reconnaissance faciale
  • il irait également fouiller dans le Dark Web mais aussi dans les protocoles du Dark Net.
  • il intégrerait un module de visualisation en graphe (un peu à la manière de Gephi) et serait capable de représenter sur le même graphe à la fois des pages web mais aussi les numéros de téléphone ou emails des utilisateurs les ayant consulté
  • il ne serait pas du tout en lien avec la NSA (bon là d'accord c'est assez peu crédible, d'autant que parmi les 17 partenaires connus du projet – dont bon nombre d'universités – on trouve Sotera Defense Solutions, un des fournisseurs officiels de technologie de la NSA, cette société ayant, sur le projet Memex, fourni le logiciel assurant la partie "navigateur")
  • le projet restera en phase "bêta" pendant 2 ans avant d'être – peut-être – partiellement ouvert au (grand ?) public
  • le développeur principal en charge du projet est Christopher White, spécialiste du Big Data et cheville ouvrière de "l'Open Governement" de l'ère Obama.
  • le tout pour un budget estimé entre 10 et 20 millions de dollars.

Memex2_0-1024x515

D'après la DARPA elle-même, le Memex fonctionne en utilisant, je cite :

"advanced web crawling and scraping technologies, with a dose of Artificial Intelligence and machine learning, with the goal of being able to retrieve virtually any content on the Internet in an automated way."

Jusqu'ici, la difficulté pour les rédacteurs de pages web – soucieux de leur référencement – était de comprendre de quelle manière un "spider" ou un "crawler" était capable de "voir" la page créée. L'approche de la DARPA est exactement l'inverse et à ce titre résonne de manière particulière avec le texte fondateur de Bush qui voulait "imiter le fonctionnement de l'esprit humain en établissant des liens associatifs."

"Notre approche pour résoudre ce problème est de construire un système qui verrait plutôt le web de la même manière qu'un utilisateur dans son navigateur, et qui se comporterait également comme un utilisateur humain parcourant le web, jusqu'à être capable de faire défiler une page ou de survoler un objet dans la page pour révéler davantage d'information … Nous apprenons au système comment se comporter comme un être humain consultant n'importe quelle page à n'importe quelle fin. D'une certaine manière notre système pourrait devenir comme une armée de robots internes qui trouveraient pour vous des choses intéressantes sur le web, pendant que vous faîtes d'autres choses plus importantes comme regarder des vidéos de chats."

Mémoire allusive.

Dans l'analyse de notre rapport à la mémoire, ou plus précisément aux externalités mémorielles qu'autorise le numérique, Google occupe naturellement une place de choix (voir notamment ce que j'écrivais ici ou ). Il incarne à la fois notre principale prothèse mémorielle d'usage, il fut, dans son ingénierie originelle (le PageRank) le tout premier artefact abouti permettant d'exploiter la richesse "associative" de l'hypertexte, et il reste, dans l'imaginaire populaire, le représentant d'une métonymie symbolique aussi puissante qu'erronée consistant à prendre l'infime partie des pages indexées pour la totalité des pages existantes.

Une étude récente de chercheurs en psychologie expérimentale, "How The Internet Inflates Estimates of Internal Knowledge" dont on trouvera un compte-rendu sur le toujours excellent Pixels du Monde, sont partis de l'hypothèse selon laquelle :

« Les études suggèrent qu'Internet peut devenir partie prenante d'une mémoire transactive**, observe l'étude en préambule : les gens se reposent sur des informations qu'ils savent pouvoir trouver en ligne et donc cherchent la mémoire externe (qui connaît la réponse) mais ne retiennent pas la mémoire interne (la réponse elle-même). »
Ils ont alors pu démontrer que :
"les utilisateurs d'Internet sont plus confiants en leurs propres connaissances que les autres, et tendent à faire la confusion entre le savoir à portée de clic et leur propre savoir. « Après avoir utilisé Google pour trouver des réponses à des questions, les gens semblent croire qu'ils ont trouvé les réponses tout seuls ; ils montrent un niveau plus élevé d'« estime de soi cognitive », une mesure de la confiance qu'a une personne en sa propre capacité à identifier et mémoriser une information, et anticipent des niveaux de résultat plus élevés sur des quiz à réaliser sans accès à Internet. »
Pour autant qu'il s'agisse d'une bonne nouvelle, ce renforcement d'une "estime de soi cognitive" qu'autorise l'usage de Google comme nouvelle figure du Memex ne doit en aucun cas faire oublier qu'il s'agit fondamentalement d'un leurre et d'une délégation temporaire directement corrélée à la nature et aux types de réponses fournies par le moteur dont la "neutralité" ou "l'objectivité" est  – doux euphémisme – de plus en plus sujette à caution.

** mémoire transactive : Forme de mémoire collective dans laquelle les souvenirs sont répartis entre les différents partenaires ayant partagé une même expérience. La mémoire transactive reflète donc une sorte de division du travail entre les membres d’un groupe ou d’un couple dans l’encodage, le stockage et la récupération de souvenirs, chaque personne devant être capable de savoir qui sait quoi.

J'ai plus de souvenirs que si j'avais 1000 ans téra-octets.

De la mémoire associative du Memex original en passant par la mémoire "pervasive" et de plus en plus invasive du nouveau Memex de la Darpa jusqu'à la mémoire transactive et allusive qu'installe Google dans notre rapport à l'information, au-delà donc de ces bouleversements mémoriels qui interrogent à la fois notre manière de faire société, de nous inscrire dans une historicité souvent déconnectée de l'Histoire mais qui soulèvent également un grand nombre d'interrogations et d'inquiétudes sur l'emprise de ces externalités mémorielles et les logiques de surveillance qu'elles autorisent, au-delà de tout cela, il semble de plus en plus clair que la "normalisation" des moteurs généralistes (et de Google en particulier), combinée à l'essor des réseaux alternatifs (Dark Web et Dark Net) et au mûrissement de technologies de recherche permettant de les explorer pour, à terme, les faire entrer dans la partie émergée du web (en les sortant du web dit "invisible"), il semble de plus en plus clair que nous nous acheminons vers une "fin de règne" du géant de Mountain View, lequel devra nécessairement muter pour s'inscrire et continuer prétendre pouvoir continuer de régenter des usages pour l'instant "alternatifs" mais qui seront demain de plus en plus "mainstream".

Le rapport à la "mémoire", aux mémoires individuelles, communautaires ou plus largement collectives est un élément structurant de l'écosystème numérique dans son ensemble.

Avec l'arrivée de l'internet des objets, et peut-être demain avec celui le web de l'ADN, ce sont d'inédits rapports mémoriels qui vont s'installer. Prenons l'exemple de l'internet des objets.

Mémoire sans objet(s).

"Objets inanimés avez-vous donc une âme ?" écrivait Lamartine. "Objets connectés, de quoi garderez-vous mémoire ?" pourrait-on écrire aujourd'hui.

Il y a, dans la question d'une "mémoire des objets" à l'ère de "l'internet des objets", une dimension de controverse assez métaphoriquement semblable à celle qui entoure la question de la mémoire de l'eau chez Benvéniste. Littéralement : un objet, qui aura été en contact avec certaines données pourra-t-il conserver une empreinte de certaines propriétés de celles-ci alors même qu'elles ne s’y trouveront statistiquement plus ? Ou plus prosaïquement, comment implémenter la mémoire des objets ? Comment faire en sorte qu'en plus de se souvenir de "mon" dosage de café matinal, ma cafetière se souvienne aussi de celui de cet ami exceptionnellement de passage chez moi alors que je ne disposais pas encore de cette cafetière connectée lors de son dernier passage ?

Pour les primo-webs que furent celui des documents puis des profils, la question était à la fois de savoir "quelle quantité" (de documents, de profils) il était possible d'indexer, et avec quel(s) niveau(x) de granularité pour quels recoupements ensuite possibles, autorisés, "pertinents". Du côté des usagers les questions s'inversaient en se demandant "jusqu'où" accepter de confier à ces externalités mémorielles des traces permettant de documenter différents aspects de nos vies. "Jusqu'où" mais également avec quel coût cognitif, et pour quel ratio entre gain (de temps) et perte (d'autonomie) ou risque (de surveillance). L'arbitrage fut jusqu'à maintenant donné largement en faveur du gain de temps et de la facilité de "partage" ou d'échange. Progressivement, avec l'essor des technologies du "Cloud", nos pratiques culturelles et nos habitudes de travail dans leur ensemble furent entièrement refaçonnées, jusqu'à nous installer dans une confortable bien que paradoxale "estime de soi cognitive".

Au-delà de nos frigos, de nos cafetières, de nos voitures, avec l'internet des objets, avec l'horizon de ces 50 milliards de capteurs passifs en 2020, de plus en plus près de notre corps, de plus en plus transparents dans notre environnement, nous allons inaugurer de nouvelles manières "d'étager", de "sédimenter" notre rapport à nos mémoires de travail, à nos mémoires affectives, à nos mémoires "collectives". De la même manière que Google, que Wikipédia, que le "cloud computing" nous ont permis de nous libérer de routines cognitives et mémorielles au profit de technologies d'automatisation du recall, du "souvenir", ces 50 milliards de capteurs passifs vont à la fois profondément restructurer nos habitus mémoriels en même temps qu'ils vont façonner l'émergence d'un nouveau marché reposant sur de nouvelles technologies du "recall" parmi lesquelles les anciennes technologies du "search" risquent de passer au second plan.

Le prochain marché sera celui du "recall" et non du "search".

Car si tout est "searchable", "cherchable", si tout est "adressable", si le moindre objet dispose de son "adresse" physique, alors le processus de constitution d'un gigantesque index sera – relativement – simple à mettre en oeuvre (il faudra tout de même d'abord parvenir à normaliser, à harmoniser un certain nombre de protocoles de nommage et d'adressage). Et si tout est "cherchable", si cet index "adressé" est constitué alors … il n'y aura plus que des réponses. Et s'il n'y a plus que des réponses, alors l'innovation côté marché sera du côté des technologies du "recall", du rappel, du souvenir, et non plus du "search". Nous aurons besoin de technologies assurant le rôle de prothèses mémorielles comme nous plébiscitons aujourd'hui les technologies qui se présentent comme autant de prothèses dans l'aide à la formulation de requêtes (l'autocomplétion sur les moteurs de recherche constituant un excellent exemple).

Mais pas le rappel ou le "souvenir" tel qu'il nous est jusqu'ici donné à voir.

Si Wikipédia nous a permis d'avoir la légèreté d'oublier un certain nombre de faits historiques ou anecdotiques avec la possibilité offerte de pouvoir à coup sûr et de presque partout les "retrouver", si nos smartphones nous ont permis d'oublier les numéros de téléphone de nos proches pour en confier le souvenir à nos cartes SIM, si nos agendas connectés nous rappellent l'heure et l'ordre du jour de de différentes réunions programmées, si Facebook en a fait de même avec les dates d'anniversaire, quels seront les pans mémoriels affectés en priorité par l'internet des objets ?

Notre cafetière se souviendra de notre dosage préféré et du nombre de sucres à ajouter à notre café matinal, notre frigo connecté nous allégera probablement du coût cognitif présidant à l'établissement de la sacro-sainte liste des courses, nos puces RFID sous-cutanées nous rappelleront l'imminence de la prise de tel ou tel médicament quand elles ne permettront pas de nous en injecter directement une dose à heures fixes. Voilà pour quelques enjeux "pratiques". Mais quelle sera alors la part du "search" tel que nous le concevons aujourd'hui et qui se vit essentiellement non pas comme la possibilité de réellement "chercher" quelques chose de nouveau mais de beaucoup plus trivialement "retrouver" quelque chose de déjà connu, de déjà su, de déjà aperçu ? Tout étant "adressé", l'essentiel de nos interactions avec le numérique sera de l'ordre du "rappel". Est déjà de l'ordre du "rappel". Une "soupe mémorielle" à l'image de la soupe primitive que les prochains leaders de la prochaine économie numérique devront s'efforcer de structurer, dans laquelle ils devront s'efforcer de mettre de l'ordre, préalable indispensable à la possibilité de lui donner du sens.

A l'échelle de ces technologies et de ce marché du "recall", la question de la pertinence se posera sur une échelle différente de celle à laquelle il est possible de l'analyser pour les technologies du "search". Prenons l'exemple des deux classiques que sont le taux de rappel et le taux de précision.

Le taux de rappel est constitué du ratio entre le nombre de documents pertinents trouvés lors d'une recherche documentaire et le nombre total de documents pertinents existant dans le système. C'est un indicateur de mesure du silence.

Le taux de précision est constitué du ratio entre le nombre de documents pertinents trouvés lors d'une recherche documentaire et le nombre total de documents trouvés en réponse à la question. C'est un indicateur de mesure du bruit.

S'il ne s'agit plus de "trouver" (au sens de "chercher") mais de "retrouver" (au sens de "se souvenir" ou de réactiver un mode mémoriel particulier permettant le déclenchement d'un souvenir), alors le taux de rappel pourrait être constitué du ratio entre ne nombre de souvenirs pertinents dans le cadre d'un contexte de tâche donné et le nombre total de souvenirs pertinents existant dans le système. Et serait un indicateur de mesure de l'affinité, ou à tout le moins de la valeur affinitaire rattachée au dit souvenir à l'échelle de la communauté relationnelle concernée. Le taux de précision serait, lui, constitué du ratio entre le nombre de souvenirs pertinents dans le cadre d'un contexte de tâche donné et le nombre total de souvenirs existant dans le système. Et serait un indicateur de mesure de l'affect, ou à tout le moins de la valeur affective rattachée au dit souvenir.

"As we may remember"

Souvenons-nous maintenant du projet "Memex" de Vannevar Bush. Son ambition était de singer le fonctionnement "par association" de l'esprit humain. Ce projet donna naissance aux technologies du "search" à l'échelle de ce que nous appelons aujourd'hui le web. La prochaine étape, celle des technologies du "recall" sera probablement une poursuite du projet originel de Bush : ce fonctionnement "par association" étant désormais reproductible au travers de différentes ingénieries algorithmiques (le Pagerank pour faire simple et pour prendre la plus connue), il va falloir s'atteler à trouver les ingénieries capables non plus seulement de fonctionner "par association d'idées" (ingénieries linguistiques et relationnelles) mais celles capables de singer et de suppléer l'étape suivante qui est celle de la construction et de la fabrique d'un souvenir, à partir d'une ou plusieurs associations initiales. L'article fondateur de Bush avait pour titre "As We May Think". La prochaine révolution viendra peut-être de la publication d'un article intitulé "As We May Remember".

A moins naturellement que cette prochaine révolution ne soit déjà là, déjà installée. Notre rapport au "search" ayant déjà pour l'essentiel basculé du côté du "recall"**. Ce qui est une autre manière de poser la question du devenir d'une société qui a depuis déjà plus de 10 ans fait le choix à la fois conscient et contraint de confier l'essentiel de ses mémoires à des sociétés pour l'essentiel privées. A moins que le Memex de la Darpa ne soit la préfiguration du renouvellement attendu de ces technologies du "search" en réaction à ces ingénieries du "recall" qu'elles sont essentiellement devenues. Et ne réaffirme l'urgence de bâtir un index mémoriel relevant de la sphère publique, seule garantie que la mémoire des peuples demeure … un bien commun.

** A ce titre il serait passionnant de pouvoir analyser en diachronie l'essentiel de nos requêtes Google depuis 10 ou 15 ans, perspective théoriquement possible depuis la récente possibilité offerte par Google de récupérer cet historique de recherche, a ceci près que cette récupération s'effectue au travers d'une multitude de fichiers .Json très difficilement exploitables. Je lance d'ailleurs un appel : si quelqu'un dispose d'un moyen de rendre lisibles et exploitables lesdits fichiers Json en les "nettoyant" des infos parasites pour ne garder que les requêtes qui les composent, je m'engage à commencer ce travail patient d'analyse 🙂 (bon en fait c'est pas très compliqué, je suppose qu'il faudrait juste une espèce de Macro sous Word ou Excel mais je sais pas faire et j'ai la flemme). <AYÉ> L'outil existait en fait déjà, merci à Alex en commentaires pour son signalement. </AYÉ>

Google et le dieu Theuth.

Il y a quelque chose d'écrit au fond de la caverne :

"Très ingénieux Theuth, tel homme est capable de créer les arts, et tel autre est à même de juger quel lot d’utilité ou de nocivité ils conféreront à ceux qui en feront usage. Et c’est ainsi que toi, père de l’écriture, tu lui attribues, par bienveillance, tout le contraire de ce qu’elle peut apporter. [275] Elle ne peut produire dans les âmes, en effet, que l’oubli de ce qu’elles savent en leur faisant négliger la mémoire. Parce qu’ils auront foi dans l’écriture, c’est par le dehors, par des empreintes étrangères, et non plus du dedans et du fond d’eux-mêmes, que les hommes chercheront à se ressouvenir. Tu as trouvé le moyen, non point d’enrichir la mémoire, mais de conserver les souvenirs qu’elle a. Tu donnes à tes disciples la présomption qu’ils ont la science, non la science elle-même. Quand ils auront, en effet, beaucoup appris sans maître, ils s’imagineront devenus très savants, et ils ne seront pour la plupart que des ignorants de commerce incommode, des savants imaginaires au lieu de vrais savants."

Le passage est connu, c'est la première "attaque" contre les dangers de la "technique" (l'écriture en l'occurrence) et le risque que nous "perdions" notre mémoire (et notre capacité de raisonnement) en nous reposant sur cette externalité que constitue l'écrit. Plus loin dans Phèdre on peut lire ceci :

"Socrate – Ainsi donc, celui qui croit transmettre un art en le consignant dans un livre, comme celui qui pense, en recueillant cet écrit, acquérir un enseignement clair et solide, est vraiment plein de grande simplicité. Sans contredit, il ignore la prophétie d’Ammon, s’il se figure que des discours écrits puissent être quelque chose de plus qu’un moyen de réveiller le souvenir chez celui qui déjà connaît ce qu’ils contiennent. (…)

Là pour le coup nous sommes en plein dans "l'estime de soi cognitive" de l'étude évoquée plus haut et sur les stratégies de "recall" qui constituent l'un de nos principaux usages des moteurs de recherche comme autant de béquilles cognitives. Le texte de Platon se poursuit ainsi (je souligne) :

Socrate – C’est que l’écriture, Phèdre, a, tout comme la peinture, un grave inconvénient. Les oeuvres picturales paraissent comme vivantes ; mais, si tu les interroges, elles gardent un vénérable silence. Il en est de même des discours écrits. Tu croirais certes qu’ils parlent comme des personnes sensées ; mais, si tu veux leur demander de t’expliquer ce qu’ils disent, ils te répondent toujours la même chose. Une fois écrit, tout discours roule de tous côtés ; il tombe aussi bien chez ceux qui le comprennent que chez ceux pour lesquels il est sans intérêt ; il ne sait point à qui il faut parler, ni avec qui il est bon de se taire.

Si le rapport à l'écriture (et à la mémoire) qu'inaugure Google est assimilable à la querelle du Phèdre de Platon, la différence radicale se trouve dans le passage surligné par mes soins : Google ne répond pas toujours la même chose. Et Google sait, lui, à qui il faut parler (et de quoi) et avec qui il est bon de se taire (ou ce qu'il est bon de taire, quelles qu'en soient les raisons). C'est dans ce presqu'imperceptible glissement que doit aujourd'hui être réétudié et peut-être réécrit le discours du Phèdre. A la lumière, et en mémoire des deux millénaires qui nous en séparent.

______________________________________________

Toutes les informations sur le projet Memex de la Darpa viennent des articles suivants : 

3 commentaires pour “Extended Memories : les 3 figures du Memex (et l’avenir du search)

  1. Olivier, ravi d’avoir pu vous aider par ma modeste contribution, et au plaisir de vous lire, ici ou ailleurs.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut