Quand on s'intéresse aux moteurs de recherche, aux différentes migrations et bouleversements numériques qu'ils occasionnent, tant dans nos pratiques quotidiennes qu'au niveau de l'économie de l'information en général et de celle des biens culturels en particulier, le plus délicat est de disposer d'une vue d'ensemble permettant d'apprécier et d'analyser l'ensemble de l'écosystème en question.
Au cours d'une pérégrination sur le web, je suis retombé sur cette ancienne diapositive, utilisée lors de mon intervention au séminaire INRIA de 2008, (article complet disponible) laquelle diapositive, moyennant quelques explications textuelles, me semble être une grille de lisibilité assez "juste" des thématiques de recherche que je creuse depuis quelques années.
Comme dans une autre histoire célèbre, tout commence avec la soupe primitive, ici nommée "océan des données".
OCEAN DES DONNEES : Le web est d'abord, originellement constitué d'une immensité de données éparses, parfois transparentes, parfois insondables ("web invisible"), parfois statiques, parfois générées dans l'instant et pour un instant seulement, personnelles ou impersonnelles, éphémères ou pérennes. Ces données brutes vont des tout premiers bouts de codes HTML jusqu'aux étiquettes et autres microformats du web sémantique. Cet océan peut être exploité d'au moins deux manières :
- soit par des techniques industrielles de linguistique de corpus (pour les données essentiellement textuelles, du contenu des oeuvres libres de droit disponibles en ligne en passant par nos documents privés – notes, rapports – et jusqu'à nos courriers électroniques les plus "intimes").
- soit par des techniques d'extraction de type "data-mining", une fouille de données dont aiment se repaître les différentes organismes collecteurs que sont les moteurs de recherche et autres agrégateurs, portails ou annuaires dits "sociaux".
A cette couche "profonde" du web, se surajoute une dimension à peine moins dense.
LA MER DES PRATIQUES. Composée, comme son nom l'indique, de l'ensemble de nos pratiques connectées, elle s'organise selon deux modalités distinctes :
- soit en associant "nos" données à/dans des services leur conférant une valeur ajoutée ou marquant leur évolution vers une nouvelle strate documentaire (= un niveau documentaire plus "riche" ou plus "enrichi") ;
- soit en s'appropriant "d'autres" données (qui peuvent également être les données "des autres") et en les conjuguant, là encore, à/dans des services leur conférant une valeur ajoutée ou marquant leur évolution vers une nouvelle strate documentaire ;
Comme toute milieu marin, le brassage est ici permanent. A la différence de l'océan des données, exploitable à l'aide d'outils de text/data-mining (c'est à dire littéralement, de technologies de forage), la mer des pratiques offre une grande résistance à toute extraction. Elle se prête en revanche parfaitement à une exploitation dynamique, à la manière des centrales hydro-électriques ne captant de l'eau "que" sa force motrice.
Deux mécanismes sont ici à l'oeuvre, réunis derrière une même vocable : celui de l'indexation.
INDEXATION. Deux mécanismes donc :
- d'abord l'indexation au sens littéral, qui extrait données brutes, données d'usages mais aussi données comportementales, soit directement de l'océan des données, soit de la mer des pratiques (voir ci-dessous : indexation > moteurs > résultats)
- ensuite l'indexation comme force, comme dynamique qui se nourrit en priorité d'éléments contextuels, profilaires, géo-localisés pour mieux qualifier la remontée littérale des données sus-mentionnées (voir ci-dessous : indexation > moteurs > monétisation)
Pour le dire autrement, l'indexation, la remontée des données depuis l'océan dans lequel elles gisent, concerne principalement un processus quantitatif, quand l'évaporation des données de surface (mer des pratiques) permet de les retravailler et de les enrichir de manière qualitative.
MOTEURS. Omni-présents et surplombant l'ensemble, ce n'est pas un hasard s'ils sont ici représentés sous forme de "nuages" (en référence au "cloud computing"). Nous y reviendrons.
Indexation > moteurs > résultats. La partie évaporée des données collectées (flèche vers la droite) est à nouveau "condensée" dans l'index des moteurs, condensation qui s'effondre et se matérialise, ad libitum, à chacune de nos requêtes, sous la forme d'une pluie incessante et variable de résultats, à son tour perpétuellement rebrassée dans la mer des pratiques. La taille du nuage (= la base index des moteurs) est ici directement corrélée à la capacité à prédire la temporalité (taux de précision) et l'intensité (taux de rappel) des précipitations.
Indexation > moteurs > monétisation. L'autre partie évaporée des données (flèche vers la gauche) va, au cours de sa remontée vers les nuages, se trouver de nouveau enrichie, d'abord par l'adjonction des données et contenus envoyés par les utilisateurs eux-même ("collaboration, participation, user-generated content"), mais également – et cet élément est manquant sur ma diapositive – par l'interaction avec un autre écosystème, celui de grandes centrales et régies publicitaires, celui du marketing "de masse". Les précipitations qui en découlent et retombent sont alors la pluie d'or de la monétisation, que l'on peut décrier ou condamner dans ce qu'elle a de systématique et d'invasif, mais qui n'en demeure pas moins la condition sine qua non de l'équilibre de l'écosystème informationnel ici décrit, précisément parce qu'elle conditionne la gratuité (totale ou partielle) de chaque composant. Notons ici que le colosse Google est à lui seul un biotope dominant par les deux révolutions systémiques sur lesquelles il s'est construit : celle du Pagerank d'une part, et – surtout – celle d'une publicité contextuelle pensée dès l'origine comme devant apparaître indistincte ou consubstantielle aux résultats organiques du moteur ("ads are content")
SUR LA TERRE FERME. Sur la terre ferme, fréquemment arrosée par la pluie de la monétisation, on trouve les contenus que les individus produisent et/ou dont ils gardent la maîtrise au moins partielle. Lesquels contenus sont remontés, par les utilisateurs eux-mêmes, vers les nuages. Cette différence dans l'intentionnalité de la remontée est essentielle et discriminante d'avec l'océan des données, données pour et sur lesquelles les utilisateurs n'ont "plus la main" et qui gisent à la merci et à la disposition de seulement quelques grands opérateurs disposant d'une puissance et de technologies de forage suffisantes à leur remontée et à leur exploitation.
ECOULEMENT DE SURFACE. Une partie de ces contenus, "fécondés" et/ou "hébergés" par / grâce à la manne publicitaire, va, simple écoulement de surface, être reversée dans la mer des pratiques pour ensuite soit s'évaporer de nouveau dans les nuages, soit s'enfoncer plus profond dans l'océan des données en attendant de pouvoir y être réexploitée d'une autre manière.
L'autre partie va, par capillarité, passer sous la terre ferme.
SOUS LA TERRE FERME. Sous la terre ferme, et au moyen de la mise en oeuvre de différentes technologies de la capillarité, technologies bâties autour de
mémoires informatiques industrialisées mais autour également d'une
"industrialisation de l'intime" (pour reprendre l'expression d'Alain
Giffard), et qui constituent le pendant, le double nécessaire des technologies industrielles d'extraction et de fouille de données, sous la terre ferme, disais-je, se trouvent les différentes strates sédimentaires de notre "agir en ligne", c'est à dire l'ensemble de nos profils et de nos comportements.
Comme je l'expliquais dans ce billet, les technologies de la capillarité permettent de décrire la logique actuelle d'enregistrement et de conservation par les moteurs de
recherche, de toutes les traces, actions, documents et comportements
qui caractérisent et marquent notre présence connectée. L'essentiel de cette captation ne se fait pas de manière directe mais plutôt donc, par
capillarité, et concerne tout ce que rend possible la confusion des
pratiques que génère la redocumentarisation globale du net et la dérive
des continents documentaires qui le composent.
COMPORTEMENTS, PROFILS. Il s'agit ici de la couche profonde mais essentielle des "nos" comportements et de "nos" profils. C'est à dire de ce qui constitue intrinsèquement non pas notre identité numérique, mais, par le biais de sédimentations successives (= redocumentarisations), notre empreinte numérique, de la même manière que l'on parle de notre "empreinte carbonne". Ab initio, observée en début de cycle, cette empreinte va nourrir l'océan des données (profilaires – âge, sexe … – comportementales, navigationnelles, ou strictement documentaires/documentées). En revanche, en fin de cycle, certaines strates de cette sédimentation sont naturellement "contaminées" par la nature et l'origine des précipitations elles-même causes des infiltrations par capillarité qui s'ensuivront.
AU FINAL … Au final un écosystème qui fonctionne plutôt correctement, dans lequel chacun trouve son intérêt (les usagers en terme de services et les opérateurs en terme de revenus). Un écosystème stable.
CE QUI A CHANGE PAR RAPPORT A CET ECOSYSTEME INITIAL.
Non plus 1 mais 3 couches de nuages.
Peu de choses au premier abord. Mais, comme je l'avais fait initialement, il est assez réducteur de réduire les 2 nuages de ma diapositive aux seuls "moteurs".
- Les nuages de premier niveau (les plus "bas) rassemblent aujourd'hui un ensemble beaucoup plus vaste d'acteurs (moteurs mais aussi agrégateurs, sociétés de service, cyber-marchands et autres cyber-régies publicitaires).
- D'autres nuages de second niveau (étage intermédiaire) regroupent les services proposés par lesdits acteurs (soit ce que l'on regroupe souvent sous le nom de Saas : Software as A Service).
- Enfin les nuages les plus hauts sont constitués des données elles-mêmes. A disposition des acteurs, pour d'infinis remixages dans une panoplie de service elle-même de plus en plus étendue.
**en parlant de nuages, je me permets ici de vous conseiller cette typologie nuageuse, qui ferait donc de nos "acteurs" des stratocumulus, de nos "services" des altocumulus, et de nos "données" des cirrocumulus :-)) A moins que les acteurs ne soient tout à la fois des nimbostratus, des cumuls et des cumulonimbus en même temps, c'est à dire des "nuages à développement vertical qui peuvent occuper plusieurs étages en même temps." Et comme le disait un poète vendéen du 12ème siècle, "qu'importe le nuage, pourvu qu'il n'y en ait pas" 😉
UN ÉCOSYSTÈME EN DANGER ?
La propriété c'est le vol. Mais pour atteindre les nuages … il faut voler. Avec la migration massive et constante des données vers les nuages, c'est littéralement à un risque d'assèchement (de leur océan primitif) que nous faisons aujourd'hui face. On inverse en quelque sorte la polarité générale de l'écosystème, et ce changement de pôle magnétique n'est pas neutre. D'abord parce que dans les nuages, seuls quelques acteurs ont pignon sur rue ciel. L'espace disque (les serveurs) sur lesquelles migrent ces données sont des espaces propriétaires (à l'inverse, l'océan des données reste affranchi de toute propriété ou territorialité autre que celle du Net qui, si elle est parfois sujette à débats, demeure à ce jour une garantie importante et consubstantielle de la nature même de l'Internet). Ensuite parce que notre empreinte numérique (= le lien profond entre "l'océan des données" et nos "comportements, profils") est aujourd'hui insécable.
Ground zero. La multiplication de nos profils identitaires, et la collecte systématique de chacune de nos traces rend inenvisageable un retour à l'anonymat originel du web. Et donc si les données migrent dans les nuages, nos empreintes numériques y migrent aussi et s'y retrouvent non seulement à disposition mais aussi et surtout "à découvert" pour les opérateurs qui possèdent ce nouvel espace hyper-territorialisé.
Les nouveaux chevaux-légers de l'industrie lourde de l'information. L'industrie de l'information, notamment au travers du cloud computing, reste(ra) et demeure(ra) une industrie lourde**. Sauf que. Sauf que les technologies et les procédés industriels à l'oeuvre ne sont plus (uniquement ou majoritairement) ceux du forage et de l'extraction (aléatoires et donc coûteux) mais ceux de la collecte, de la ré-agrégation et d'un réagencement permanent de l'offre de services, dans une logique dont le moteur est principalement économique (= publicitaire).
(**notez d'ailleurs que même les micro-messages ont besoin de maxi data-centers)
L'épars est accessoire. L'essentiel est rassemblé. Les mêmes procédés industriels ont également changé de finalité : il ne s'agit plus maintenant d'opérer sur de très larges ensembles ou agrégats de données éparses pour les traiter dans leur globalité, pour leur donner une cohérence en les reliant, pour être capable d'en faire émerger des motifs (patterns) ; aujourd'hui les données sont déjà, pour l'essentiel, rassemblées en silos propriétaires : on citera juste l'exemple de Facebook et de ses déclinaisons et réseaux affinitaires, celui de Google et de son écosystème de services allant du courrier électronique à la vidéo, celui d'Amazon, etc … Bref les données sont déjà rassemblées, le coût de leur extraction est quasi-nul (puisque qu'elles résident sur les serveurs de ceux qui en ont besoin, les "vecteurs" théorisés par Hervé Le Crosnier**). Il s'agit donc désormais d'être capable d'opérer des sériations individuelles, d'être capable d'isoler, de tracer les comportements d'un individu ou d'un petit groupe d'individus et non plus de se focaliser sur des logiques statistiques "de masse". La traçabilité de l'empreinte numérique de chaque individu est la condition nécessaire à son ciblage (profilage) comportemental. C'est là le premier temps (et le premier coût) de la réorientation stratégique de l'industrie lourde de l'information. Une fois son attention captée, une fois ciblé, profilé et "marketé", il s'agira alors de faire de ce même individu un vecteur d'influence auprès d'autres individus eux-aussi déjà rassemblés dans l'écosystème de l'acteur concerné (Google, Amazon, Facebook, etc …), et ce pour promouvoir des liens ou des contenus toujours davantage "sponsorisés".
**Hervé parle d'une "nouvelle
économie des « vecteurs » qui se met en place. Le vectorialisme,
c’est à la fois la capacité à monétiser la « longue traîne »,
à valoriser les productions de ceux qu’on ne paie pas,
qu’on ne paie plus, associée à un modèle de type web-média.
Média au sens de revendre l’attention à un tiers et web car
la place de marché de cette revente fait coïncider une
connaissance fine du lecteur (ce n’est plus la "ménagère
de moins de cinquante ans" des médias de masse) et un
ciblage comportemental des moments publicitaires." Pour approfondir, voir son article "Abondance d'auteurs et concentration des vecteurs".
De l'industrie (lourde) des contenus à celle (tout aussi lourde) des accès. J'écrivais plus haut que le déplacement des données et des comportements associés dans l'espace propriétaire et hyper-territorialisé des nuages, causait une inversion de la polarité générale de l'écosystème, et que ce changement de pôle magnétique n'était pas neutre. Dans la situation actuelle, quelques rares et grands acteurs sont en passe de réussir le coup du chapeau, en se rendant simultanément maîtres des fichiers, des corpus et du graphe, c'est à dire, comme l'a théorisé le groupe du RTP-DOC avec Jean-Michel Salaün à sa tête, des 3 dimensions du document.
(Source : Problématiques et stratégies sur le document numérique. J.-M. Salaün)
Au-delà de ce tableau, je pense que chaque acteur pris isolément a la capacité de travailler simultanément sur chacune de ces trois dimensions, et de s'en rendre maître à l'intérieur de son "territoire documentaire".
- Isolément, le "fichier" représente la granularité la plus fine de l'information : données profilaires sur facebook, courriers intimes sur Google, items achetés ou consultés et donc identifiés comme "préférences" chez Amazon.
- Le "corpus" représente à l'inverse la dimension la plus globale, le syncrétisme le plus large : base documentaire des produits et biens culturels chez Amazon, ensemble des ouvrages numérisés chez Google (books), totalité de la base de profils chez Facebook.
- Enfin, le "graphe" représente la directionnalité, l'intentionnalité (ou l'agentivité telle que définie par Manuel Zacklad), cette cardinalité (au sens informatique, ou au sens "hypertextuel" défini pages 190 et suivantes de ma thèse) qui seule permet d'exploiter (et de monétiser) les données des fichiers ou des corpus en présence. Cardinalité des liens entre fichiers dématérialisés de l'Apple Store ou du magasin Amazon, cardinalité entre les textes du corpus de Google, cardinalité des relations entre personnes/profils sur Facebook.
Les maîtres du web. Web-masters. Se rendre maître des 3 dimensions du document est une nécessité et un préalable à la pérennisation d'une économie vectorialisée des accès. Les "accès", seule dimension irréductible, non-préemptable, non a priori déterminable de l'écosystème documentaire. Ecosystèmes documentaires dans lesquels tout est "sous contrôle", à l'exception notable du choix amenant à consulter tel écosystème plutôt que tel autre. La maîtrise des fichiers permet d'établir des recoupements au sein d'un même corpus ou entre corpus dissemblables, la maîtrise du graphe relationnel permet d'induire des comportements (de lecture, de navigation, d'achat ou même d'affinités). Mais aucun opérateur n'est à ce jour en mesure de guider, d'orienter ou de déterminer le choix initial de l'accès (d'où l'intérêt, pour les dits acteurs, de multiplier les points d'entrée dans leur écosystème, en étoffant en permanence – via divers rachats – leur panoplie de services). Choisir Amazon plutôt qu'Apple pour acheter de la musique, choisir Google plutôt qu'Amazon pour trouver des contenus culturels, etc., voilà la dernière et seule terra incognita résistant encore à l'omni-scopie des grands web-masters.
Des colosses aux pieds d'argile, assis sur des nuages.
Le changement de pôle magnétique de l'écosystème informationnel ici analysé me semble indiscutablement engagé. On n'en mesure pour l'instant que les dangereux premiers effets colatéraux (exemple célèbre, autre exemple, excellente compilation d'exemples) : après l'avoir vassalisée, l'industrie de l'accès a totalement phagocyté l'industrie des contenus. La neutralité des réseaux est plus que jamais notre dernière garantie collective pour le maintien d'un internet conforme à l'esprit de ses pionniers. Mais cette neutralité ne peut jouer que dans les tréfonds océaniques du Net, et en aucun cas dans les nuages hyper-territorialisés du GoogleWeb ou de l'AmazoNet, nuages propriétaires dans lesquels elle n'est même plus simplement défendable … à moins d'une conversion massive (et hautement improbable) aux préceptes rousseausistes en matière de propriété. Bref il pourrait sembler que les colosses de l'accès aient de beaux jours devant eux.
Mais. Mais imaginons que le coeur de leur industrie, de leur modèle économique, de leur écosystème, soit remis en cause. Imaginons que la farce de l'anonymisation prenne fin. Par farce de l'anonymisation, je veux parler du discours des moteurs expliquant qu'ils ne tracent en aucun cas des individus mais uniquement des cookies ou autres identifiants de session. Or comme le rappelle Jeff Chester :
- "This idea that a cookie is
nonpersonal information no longer really applies in this digital age.
You don't need to know a person's name to know a person — to understand
their likes and their dislikes, the contents of what they read, what
they put in their shopping cart. It's really personal now."
Imaginons que ce genre de plainte aboutisse … dans l'ancien écosystème (celui décrit sur ma diapositive), dans l'ancien écosystème, cela rendrait pour les opérateurs toute monétisation impossible (ou en tout cas bien moins rémunératrice) et les obligerait donc à facturer les accès, ce qui serait tout aussitôt perçu comme douloureux par leurs utilisateurs "captifs", et ce qui obligerait surtout les principaux acteurs à revenir vers un modèle économique inopérant (celui du web des "bandeaux publicitaires"). Bref, personne n'aurait intérêt à ce que cela advienne … et cela n'est donc pas advenu 🙂 Dans le nouvel écosystème à la polarité inversée, la logique portée par cette plainte est radicalement différente : elle pourrait commander aux industries de l'accès de remettre dans la soupe primitive dé-territorialisée, les données condensées dans leurs nuages. Et avoir pour effet de bord de recentrer les effets d'aubaine sur les contenus dématérialisés plutôt que sur la seule comptabilité des accès, permettant du même coup de se recentrer sur l'essentiel, c'est à dire les biens culturels eux-mêmes, indépendamment ou non-nécessairement produits en fonction du paradigme (dogme ?) de la popularité et autres ventes de temps d'attention disponible.
Pourtant, je ne pense pas que ce genre de plainte aboutira. Au mieux peut-on souhaiter qu'elle oblige les acteurs concernés à légèrement infléchir ou à rendre plus transparentes leurs pratiques. Mais elle a déjà le mérite d'exister et de poser le problème à sa bonne échelle.
Ecosystème et documentologie. Pouvoir disposer d'une vision globale de ce nouvel écosystème informationnel est aujourd'hui essentiel, au moins en tant que cadre d'analyse. Chacun, comme internaute, comme utilisateur ou comme analyste, demeurera libre de fixer ou de focaliser son attention sur tel ou tel biotope. Les sciences de l'information en tant que sciences du document ont à jouer dans cette analyse une part déterminante : elles ont pour elle l'héritage toujours opératoire de la documentologie. Le reste, les chaînons manquant de la logique documentaire qui est au coeur des différents biotopes, ne sont, comme le dit encore Jean-Michel Salaün, qu'affaire "d'alliances, opportunités et agrégations".