Des immédiasphères à l’indexation orientée-objet : l’homme est un appareil comme les autres.

Première transformation : le passage au world Live web.
Jusqu'à il y a peu de temps encore, le web se définissait d'abord comme un espace. Un espace que les moteurs de recherche cherchaient désespérément à embrasser dans sa totalité. Puis, serveurs et algorithmie aidant, l'essentiel de cet espace fut indexé, même si une notable partie (le web dit "invisible") restait encore une terra incognita. Cette illusion de complétude "spatiale" pour les usagers, ajoutée à la course économique que se livraient les mêmes moteurs et aux bouleversements en cours de l'industrie de la presse, tout cela introduisit avec une force inattendue le paramètre de la temporalité comme premier et essentiel. La fréquence de rafraîchissement des index devînt un critère de différenciation capital pour les moteurs. Et puis le web "social", "contributif" arriva. Il fallut alors l'indexer en "temps réel". Ce fut là le désormais célèbre passage du World Wide Web au World Live Web (pour une remise en perspective un peu plus "fouillée" de cette évolution, voir le billet "Bienvenue dans le World Live Web").

Seconde transformation : le tempo des immédiasphères.
Le web, en tout cas le reflet que les moteurs nous en montrent, est aujourd'hui au moins autant caractérisé par son immensité spatiale (faite de densités et de dispersions – les éternels "Hubs et Authorities") que par sa dimension temporelle, dont la dernière déclinaison est l'immédiateté, l'instantanéité. Là encore un sujet sur lequel je m'étais déjà attardé en soulignant l'importance d'une omni-synchronisation comme dernière étape de la dérive des continents documentaires. La seconde transformation dont je parle est celle qui déporte cette instantanéité vers l'ensemble des 3 médiasphères (micro-méso-macro) et non plus seulement vers les seuls contenus de type "blogs" ou "sites d'information" (news)

Donc nous en sommes là.
Indexer le web. Tout le web. En temps réel. En rendant transparente la synchronisation de l'ensemble dans les interfaces d'accès (agrégateurs, moteurs …). Et en offrant, avec le web synchronisé, une post-synchronisation de l'ensemble de nos interfaces d'accès personnelles (laptops, smartphones, services en ligne avec identifiants personnels).

A y regarder attentivement …
… on peut aujourd'hui avoir l'impression que sur l'ensemble de ces transformations, Google contrôle l'ensemble. Avoir l'impression que le web est Googleformé à la manière dont les planètes inhabitables pour l'homme sont terraformées dans les récits de science-fiction. De fait Google est celui qui indexe la part la plus large de l'espace du web, il est celui qui mixe le plus habilement les différentes médiasphères, il est celui qui fait la course en tête dans l'indexation temps-réel, il est celui dont l'écosystème de services (et les récentes ambitions en terme d'OS) lui permet de maîtriser l'ensemble des flux désormais vitaux de la synchronisation. D'autant qu'il est un autre sujet dont on parle nettement moins (sauf peut-être chez Jean-Marie) et qui est pourtant également décisif : ce sont les capacités multilingues de Google. De Google traducteur. Des capacités de traduction automatique là encore immédiates, parfaitement synchrones.

Tout le web. Tout de suite. Dans toutes les langues. De chaque langue à chaque autre. Pour chaque langue. Et la Babel mythique de presque atteindre le ciel.

Avoir l'impression donc, que rien n'échappe et ne peut échapper à Google tant il semble anticiper avec une précision millimétrée les moindres mouvement du corps pourtant sans cesse changeant du web, tant il dispose d'une manne financière lui permettant d'absorber ou de racheter les rares soubresauts lui ayant échappé.

Au vu de ce tableau, que reste-t-il encore à indexer ?
Il y a pourtant un petit village planétaire qui résiste encore à l'indexation (de Google et des autres). Ce village, c'est celui des images. L'indexation image a toujours été un sujet extrêmement compliqué, que l'on a longtemps seulement su résoudre en indexant uniquement le texte décrivant les images (balise "Alt" en HTML, ou nom donné au fichier image). L'indexation image a aujourd'hui fait de considérables progrès, elle commence à intégrer la reconnaissance de formes (patterns) permettant ainsi de naviguer à partir d'une image vers des images semblables, mais l'indexation image est encore loin de pouvoir passer à l'ère industrielle dans laquelle est entrée l'indexation texte depuis la fin des années 80.

Troisième transformation : le web texte-image.
Or le web est aujourd'hui au moins autant un média d'images (fixes et animées) qu'un média de texte. Le volume des vidéos diffusées est littéralement hallucinant (tant en nombre qu'en terme d'infrastructure technique nécessaire à son encodage et à son acheminement). Avec l'arrivée de l'indexation temps réel, c'est là probablement LE grand bouleversement du web comme média, de l'Internet comme médium. A compter du moment où ce qui était à l'origine un média textuel déployé dans l'espace (celui de l'architecture client-serveur initiale) devient un media texte-image et temps-réel, les cadres d'analyse changent nécessairement. Pourtant nombre d'entre nous (dans lesquels je m'inclue bien volontiers) analysent les transformations du web de seconde génération avec en tête le cadre théorique qui présidait à l'analyse du web de première génération.

Et donc ??
Et donc, sur l'ensemble des points jusqu'ici traités dans ce billet, la dernière interview de Marissa Mayer dans le Guardian (rappel : Marissa Mayer est blonde ET Vice-Présidente "of search product and user experience" chez Google) apporte un très grand nombre de significatifs éclairages qui sont autant de confirmations. Particulièrement sur l'indexation image : 

  • "For voice, language is language. Sometimes a new word crops up and
    then you have to figure out how to recognise that. With images, the
    problem is fundamentally changed. Twenty years ago, all you needed to
    do was be able to recognise the million celebrities who are likely to
    show up on the evening news. Now, with the dawn of YouTube and digital
    photography and 100bn images being uploaded to the web every year, you
    actually need to be able to identify all 6 billion people. The problem
    is that in those 6 billion people there's an awful lot of people who
    look a lot like Tony Blair or Cindy Crawford." What's also lost
    in a still photo is the contextual information – movement, location,
    voice – that reality offers. "With a still image all you have are the
    pixels, and those pixels might look a lot like a photo of someone else,
    so I do feel for the image recognition people because their problem has
    become significantly harder in the internet age. We're not getting
    closer to a solution. The solution just moves further away.
    "

On le voit, la question de la reconnaissance faciale (chantier par ailleurs ô combien stratégique, notamment dans le domaine de la sécurité civile et militaire) préoccupe énormément Google et ce depuis longtemps. Probablement parce qu'elle est le prochain "Next Big Thing" des technologies de l'indexation, et donc le prochain avantage concurrentiel déterminant. 
TSI : Texte. Son. Image.

Google contrôle l'indexation du texte. Dans toutes les langues. De chaque langue vers toutes les autres (ou presque).  Google contrôle également l'indexation du son. Google cherche à contrôler l'indexation image. Mais là n'est pas, loin s'en faut, la seule préoccupation de Google. Et là n'est pas non plus l'intérêt principal de l'interview de Marissa Mayer.
Au-delà du textes, des textes dans toutes les langues, des sons et des images (fixes et animées), que peut-il bien rester à indexer ?? Ou plus exactement, qu'est-ce qui, aujourd'hui, pourrait permettre d'augmenter significativement la qualité d'indexation des sons, des textes et des images en enrichissant simultanément l'expérience utilisateur résultant de ladite indexation améliorée ?? Et bien c'est l'indexation orientée-objet.

Quatrième transformation : l'indexation orientée-objet.

Indexation orientée-objet. Comme l'on parle de programmation et de langages informatiques "orientés-objet." Pour comprendre de quoi il s'agit, il faut faire un rapide détour par un autre grand changement annoncé (et en cours) des usages du web, une quatrième transformation, celle de l'internet des objets. Des objets, des lieux, des supports, tous "communiquants", au moyen – par exemple – de puces RFID ou par le biais de la géolocalisation.
Or si on connaissait déjà le goût et l'intérêt des moteurs pour la géolocalisation, on je ne visualisai pas encore très bien en quoi les promesses de l'internet des objets rejoignaient les préoccupations des maîtres de l'indexation. Après lecture de l'interview de Marissa, cela m'apparaît beaucoup plus clairement. L'internet des objets intéresse les moteurs pour optimiser leur approche de l'indexation, parce que cela leur permettra de mieux "capter" la manière dont chacun d'entre nous caractérise les objets (et donc les potentiels sujets de ses requêtes) de son environnement proche, en synchronie, en mouvement et en temps réel.

Juste une précision avant de passer aux exemples : rappeler le rôle déterminant que joue aujourd'hui l'indexation "sociale". Les Folksonomies en sont une partie importante mais loin d'être exclusive. Ainsi même Google, qui ne met pas spécialement "en avant" l'indexation humaine – son crédo et son confiteor étant l'indexation "machinique" – même Google fait de l'indexation humaine et collaborative : chacune de nos requêtes couplée à chacun de nos clics sur tel ou tel résultat issu de cette requête équivaut littéralement à une qualification humaine du résultat de la requête, qualification qui sera ensuite intégrée dans l'ensemble des paramètres algorithmiques permettant, pour l'utilisateur identifié et/ou pour l'ensemble des requêtes semblables déposées, de faire varier ll'ordonnancement des résultats. Dit autrement, le couple "requête / activation d'un lien de la page de résultat" équivaut exactement à la procédure qui, dans les folksonomies, fait correspondre un ou plusieurs mots-clés librement choisis à une page web. L'indexation à l'ère industrielle est donc nécessairement "sociale". Et maintenant nos exemples (enfin ceux de Marissa …) :

  • "The first stage of search involved text on web pages; the second stage,
    which we're in now, does involve humans, who are helping identify
    images and adding context to web pages, which makes the web appear
    knowledgeable
    ." Voici la confirmation de l'importance stratégique de la prise en compte de l'indexation "humaine" par Google, prise en compte qui est la condition sine qua non d'un web "knowledgeable", c'est à dire pas tout à fait un web sémantique ou sémantisé (cela renvoie à d'autres technologies), mais bel et bien un web "connaissable", un web dans lequel l'indexation peut permettre d'aller au-delà des informations indexées, jusqu'à idéalement pouvoir en inférer d'autres (ce qui est aussi l'objectif du web sémantique … mais la voie choisie par Google apparaît ici diamétralement différente, l'approche est plus "pragmatique" et en tout cas plus proche d'un web socio-sémantique)

L'homme est un appareil comme les autres.
"But there's a potential third form of search, she explains, which uses
the sensors built into devices around us. "I think that some of the
smartphones are doing a lot of the work for us: by having cameras they
already have eyes; by having GPS they know where they are; by having
things like accelerometers they know how you're holding them.
" Voilà la clé du problème. L'homme était déjà devenu un document comme les autres, il est désormais, un appareil, un dispositif (" a device") comme les autres, il est porteur de ces appareils et dispositifs qui enrichissent l'indexation du monde réel, en temps réel. L'homme est un crawler comme les autres.

Et Twitter dans tout ça ?
Si Twitter intéresse Google comme paradigme de service temps réel, si Google s'intéresse de si près à ce micro-net, à cette statusphère conversationnelle en perpétuel mouvement et aux unités de publication toujours plus atomiques, toujours plus fragmentées, c'est uniquement pour la globaliser, c'est à dire pour lui permettre d'en faire émerger des motifs ("patterns"), motfis qui viendront corriger l'indexation du monde en temps réel, comme autant de variables d'ajustement :

  • "We think the real-time search is incredibly important and the
    real-time data that's coming online can be super-useful in terms of us
    finding out something like, you know, is this conference today any
    good? Is it warmer in San Francisco than it is in Silicon Valley? You
    can actually look at tweets and see those sorts of patterns, so there's
    a lot of useful information about real time and your actions that we
    think ultimately will reinvent search.
    "

6 milliards de puces RFID géolocalisées. Et moi, et moi et moi. 

  • "We think the real-time search is incredibly important and the real-time data that's coming online can be super-useful"

Real-time search. Real-time data. Real-time web. Real-time dataweb. Dataweb. Web des données. Données immédiates du web. Webmédia des données. Websearch. Datasearch. Google c'est "la" base de donnée. Le monde, tel qu'il se donne à lire quotidiennement en ses différents capteurs, ambiants et mobiles, c'est l'autre banque de données. Dualisme. Dualité. L'une est l'internalité, l'autre son externalité. Les deux faces d'un même ruban. Industrielles engrammations. Industrieuses programmations. Google géolocalise le monde. Il met la carte à l'échelle du territoire. Non pas "une" carte à l'échelle "du" territoire, mais autant de cartes que le nécessite ma mouvante territorialité. Google indexe tout et tout de suite. Dans toutes les langues. A tous les niveaux de granularité. Dans toutes les médiasphères.

Pour réunir en une même sphère d'indexabilité les informations relevant du public, du privé et de l'intime, il avait besoin que l'homme devienne un document comme les autres. Pour indexer le réel il a maintenant besoin que l'homme devienne un "appareil" comme les autres. 6 milliards. 6 milliards d'êtres humains demain ou après-demain tous équipés d'autant de téléphones, smartphones et autres ordinateurs portables ou objets communiquants. 6 milliards de puces RFID, toutes synchrones avec le monde dans lequel elles évoluent, toutes synchrones avec les informations qu'elles produisent et consomment. Toutes synchrones avec les images qu'elles captent, voient ou diffusent.

Et dans l'imaginaire tangible de la firme de Mountain View … toutes reliées à Google.

Source initiale de ce billet : l'interview de Marissa Mayer dans le Guardian, également disponible en version "intégrale".

2 commentaires pour “Des immédiasphères à l’indexation orientée-objet : l’homme est un appareil comme les autres.

  1. Impressionnant. Le fondateur de Facebook voulait modéliser les relations sociales entre l’ensemble des individus. Il semblerait que Google soit beaucoup plus proche de ce but. Sauf que…
    Sauf que… les presque 7 milliards d’humains (on devrait franchir le seuil début 2012, peu avant la prochaine élection présidentielle française) n’auront jamais tous un ordinateur qui leur est propre. C’est matériellement, physiquement impossible avec les technologies actuelles : il faut 300 à 500 kilogrammes de matières premières pour fabriquer un seul ordinateur (l’essentiel étant du charbon, que l’on brûle pour obtenir l’électricité nécessaire au processus de fabrication des semi-conducteurs). Et comme le mode dominant de production d’électricité dans le monde, c’est le charbon, et que cela n’est pas prêt de changer (contraintes de réserves obligent), la fabrication de ce même ordinateur émet (et émettra encore longtemps) près d’une tonne de CO2 dans l’atmosphère, c’est-à-dire autant que ce qu’émet une petite voiture qui roule 5000 ou 6000 kilomètres…
    Les efforts actuels du “green IT”, pour méritoires qu’ils soient, ne sont pas à l’échelle des contraintes physiques qui nous entourent : ils ne font que réduire la consommation d’énergie des nouveaux ordinateurs en fonctionnement, et ce dans un ordre de grandeur bien trop faible (-10% ou -15% d’énergie est une goutte d’eau. Pour être dans les bons ordres de grandeur, il faudrait arriver à diviser au moins par 5 ou 10, mais ça, c’est une autre paire de manches, et pour cela, les utilisateurs vont sans doute devoir abandonner certaines fonctionnalités qu’ils considèrent comme acquises aujourd’hui). Enfin, les promoteurs du “green IT” oublient souvent de se préoccuper de l’énergie consommée par la fabrication des systèmes électroniques, qui, pourtant, est tout aussi conséquente que celle consommée par leur utilisation…

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut