Document numérique, Ecologie de l'info, HDR, Moteurs et autres engins, Réseaux sociaux, Sérendipité, Veille & Recherche d'info, Web 2.0

De la conquête du far-web à celle du near-me

Olivier Ertzscheid3 février 2012

PROLOGUE : LA CONQUÊTE DU FAR-WEB.

Des premiers annuaires de recherche aux monopoles actuels de quelques moteurs, la conquête du web a connu de nombreuses étapes qui visaient à permettre d'embrasser l'extrême diversité, l'extrême réticularité des contenus disponibles. Du World Wide Web au World Life Web en passant par le Word Live Web.

INTERROGATION. En 2003, commençant à travailler avec un collègue sur la notion – aujourd'hui omniprésente – de sérendipité, et nous pointons l'opacité des algorithmes de recherche et le danger qu'elle pose à l'échelle d'une écologie cognitive de l'information et de la connaissance, c'est à dire à l'échelle de notre accès quotidien à l'information :

"Quand nous consultons une page de résultat de Google ou de tout autre moteur utilisant un algorithme semblable, nous ne disposons pas simplement du résultat d'un croisement combinatoire binaire entre des pages répondant à la requête et d'autres n'y répondant pas ou moins (matching). Nous disposons d'une vue sur le monde (watching) dont la neutralité est clairement absente. Derrière la liste de ces résultats se donnent à lire des principes de classification du savoir et d'autres encore plus implicites d'organisation des connaissances. (…) Une nouvelle logique se donne à lire, très sujette à caution en ce que l'affichage lisible d'une liste de résultats, est le résultat de l'itération de principes non plus seulement implicites (comme les plans de classement ou les langages documentaires utilisés dans les bibliothèques) mais invisibles et surtout dynamiques, le classement de la liste répondant à la requête étant susceptible d'évoluer en interaction avec le nombre et le type de requêtes ainsi qu'en interaction avec le renforcement (ou l'effacement) des liens pointant vers les pages présentées dans la page de résultat."

AGGLUTINATION. En 2006, une nouvelle catégorie d'usages des moteurs et des technologies de recherche fait son apparition. Et avec elle une nouvelle catégorie d'usagers : les autarcithécaires. Des moteurs "personnalisables", qui ne cherchent que là où on leur dit de chercher (Rollyo, Eurekster, Google CSE, etc …). Oui mais voilà. Les usagers sont fainéants. Et à part quelques "power users" qui alimentent à tour de signets lesdits moteurs, la mayonnaise ne prend pas, sauf pour quelques usages de niche.

RECOMMANDATION. Alors, en parallèle on met le paquet sur la personnalisation, avec cette idée qu'il serait possible – et plus pertinent – de donner à l'usager des résultats correspondant :

à ce qu'il a déjà cherché
à ce qu'il a déjà trouvé
à ce qu'il a déjà dit (sur son blog, dans ses mails, dans ses échanges sur les réseaux "sociaux")
à ce que ses amis ont déjà cherché et/ou trouvé et/ou dit

On invente ainsi les industries de la recommandation, on transforme les outils de recherche en outils de prescription. Le résultat ne se fait pas attendre. La prescription est d'abord faite pour servir le modèle de regie publicitaire qui structure l'économie de l'attention au texte mise en place par les moteurs. Progressivement, les réponses s'affichent avant même que l'on n'ait posé une question, les ingénieries relationnelles propulsées par l'essor des boutons poussoirs (like, +1) renforcent la toute puissance des jardins fermés du web. On nous annonce des résultats de recherche sur-mesure, on nous vante une personnalisation nécessaire pour renforcer la pertinence du service offert. La réalité est qu'à l'instar des enseignements de la récente et tonitruante affaire Megaupload, nous profitons des services d'un oligopole dont chacun de nos usages permet de renforcer le rôle et la puissance économique. La diversité des contenus – et leur aspect fragmentaire – explose de manière proportionnelle à la sur-représentation de certains d'entre eux. Des contenus dont le taux de partage ou le nombre de "like" est la garantie d'une captation d'attention suffisamment rentable lorsqu'un site concentre ces "vues" (les vues de ces contenus sur-représentés, sur-exposés) dans son écosystème propriétaire, dans son jardin fermé.

A LA CONQUÊTE DU NEAR-ME.

Search+ your world. Le 10 Janvier 2012 restera dans l'histoire des outils de recherche et d'accès à l'information comme la date à partir de laquelle Google a définitivement cessé d'être le moteur de recherche du web pour devenir le moteur de recherche de l'entreprise Google. Une logique déjà sensible depuis quelques années pour les observateurs attentifs, avec un recentrage annoncé sur son coeur de métier (le "search") mais un recentrage principalement destiné à faire vivre – et donc à surexposer – les services les plus rémunérateurs (surpondération déjà ancienne des résultats vidéo de Youtube au détriment des autres plateformes) ou ceux les plus concurrentiels (surpondération du réseau social Google+ au détriment des concurrents Facebook et Twitter)

Cette concurrence, logique dans le champ économique (les autorités de régulation diront s'il y a ou non abus de position dominante) est en revanche particulièrement problématique dans le champ sociétal, eu égard à la place centrale que continue d'occuper Google dans les usages connectés pour l'accès à l'information.

Search plus your world. Pour les particularités et les nouvelles fonctionnalités des Google Search+ Your World, il s'agit de mettre par défaut en avant les résultats issus de votre premier cercle relationnel. Pour plus de détails, on se reportera notamment au billet de Martin Lessard, qui indique :

"Le numéro un mondial des moteurs de recherche cherche a réunir deux univers d'information jusqu'à maintenant séparés: le monde des documents (pages web) et le CGU (contenu généré par les utilisateurs — du simple +1 aux billets sur G+)"

Dès l'annonce du lancement du service, et après un mouvement déjà acté de sanctuarisation annoncée du coeur de métier de Google, de nombreux analystes soulignent le risque d'une dérive déjà observable de balkanisation du web.

Chaque biotope informationnel (Google, Facebook, Apple) a d'autant plus intérêt à favoriser les résultats de son écosystème direct qu'il est, à l'origine, fermé et qu'il ne doit sa subsistance qu'au renforcement de la volumétrie de ses interactions internes : Facebook a tout intérêt à ce que les vidéos les plus vues le soient "sur" Facebook, comme Google a désormais tout intérêt à valoriser au maximum les résultats et les contenus de sa galaxie de services (Apple ayant depuis longtemps solutionné le problème en vérouillant toutes les "sorties" de son écosystème).

Dès lors on ne pourra pas être surpris de voir ce postulat se concrétiser. Sur la sur-représentation des contenus "made in Google" à l'intérieur des pages de résultats de Google on lira notamment l'article de Libération ("Le réseau social maison chouchouté"). On ne sera pas davantage surpris d'observer l'effet de riposte de ceux qui s'estiment dès lors lésés par cette concurrence déloyale (principalement Facebook, Twitter et Myspace) lesquels lancent une opération de communication ayant valeur de démonstration au travers du site Focusontheuser.org.

Brick by Brick et CGU. Carcan d'un Goulag Unifié ? Après être entré en concurrence frontale avec ses concurrents sur le créneau de la circulation personnalisée d'information (qu'on appelait en d'autres temps la DSI – diffusion sélective d'information), après avoir sanctuarisé les services qu'il estimait être centraux dans son écosystème, après avoir surexposé ses contenus, il fallait encore à Google une étape lui permettant de s'attaquer à toutes les facettes de nos actions et de nos personnalités connectées : cette étape vient d'être franchie avec l'annonce de la modification de ses CGU, conditions générales d'utilisation (modification non-négociable sauf à renoncer à utiliser Google et ses services). On se reportera pour plus de détail au billet du blog officiel de Google, ou plus sûrement aux analyses d'InternetActu, du Washington Post, de ce billet du NPR, et de l'indispensable Danny Sullivan mais pour faire simple voila la substance de cette modification :

"Google pourra regrouper les informations provenant de plusieurs de ses services, autrefois séparés, et disposer ainsi d’une vision globale des utilisateurs. Sous prétexte de confort d’utilisation, Google nous traitera comme un utilisateur unique à travers tous ses produits, explique Alma Whitten en charge de questions de confidentialité chez Google, afin de fourbir des résultats de requêtes (et des publicités) plus “performantes” et mettre en avant sa propre solution sociale (Google+) concurrente de Facebook ou Twitter." (Source : InternetActu)

Je m'étais déjà exprimé sur la raison de cet empilement de mesures dans ce billet :

"Le processus technologique et marchand engagé autour du contrôle de nos identités numériques, la demande des grandes sociétés marchandes de nous obliger à s'engager sous notre vrai nom, est certes l'occasion de réaffecter des unités mémorielles à leur "propriétaire", mais il fait trop souvent oublier que l'enjeu principal est celui du contrôle de la constitution et de la réaffectation possible d'une mémoire collective et d'aggrégats de mémoires individuelle. L'identité numérique n'est que le pot de miel sur lequel se concentrent pour l'instant les techno-marketeurs. Google, Facebook et les autres ont déjà le regard tourné vers les conditions d'existence de la ruche, vers l'analyse des interactions des abeilles. Ils ont compris depuis longtemps que le contrôle de l'engrammation, de ce qui "fait mémoire", constituera pour eux la prochaine clé de leur suprématie, et donc de leur survie."

La concurrence accrue des réseaux sociaux oblige Google a faire machine arrière sur un grand nombre de points qui étaient au coeur de son motto : "Don't be evil".

Le double enjeu d'une écologie de l'information.

Celui du contrôle de l'opinion.

Une fois actée cette conquête du "near-me", il faut aussi noter l'énorme problème que pose cette approche à l'heure où, dans un même temps, les sites qui sur-valorisent notre entre-soi (internalités) se mettent à systématiser (logique de conquête de marchés oblige) les pratiques assimilables à de la censure (externalités). Twitter annonçant qu'il filtrerait certains messages pour pouvoir s'installer sur le marché chinois, Google qui change la politique d'adressage de sa plateforme Blogger, autant de signes qui cumulés aux précédents déjà fâcheux en la matière, finissent de nous enfermer, de nous contraindre dans un écosystème informationnel filtré de toutes parts, et nous placent dans une incuriosité patente à force de patauger dans un confortable entre-soi kakonomique.

La suggestion est une sujétion. On nous suggère nos questions (Google suggest), on nous affiche des réponses avant que nous n'ayons formulé une question (Google Instant Search), mais, censure plus insidieuse, il est également des suggestions qu'il ne nous fera jamais, des questions qu'il ne nous donnera plus jamais la possibilité de poser ou pour lesquelles seront masquées les réponses sans que nous en ayons conscience ou même simplement connaissance : c'est l'exemple des suggestions de Google Instant Search relatives aux sites de téléchargement illégal, comme le démontrent brillamment ces deux articles : "Google Start censoring bittorrent" et "How google instant autocomplete suggestions work".

Celui d'une diversité culturelle (im?)possible.

Autre question légitime une fois actée cette dérive vers la prédominance du "near-me" : de la diversité peut-elle émerger de cet entre-soi permanent ? Là encore, le débat n'est pas récent et Google fut, rapidement après ses débuts, accusé de favoriser les sites déjà les plus en vue avec son Pagerank, algorithme de popularité auto-renforçant (plus vous êtes connus, plus vous êtes liés, plus vous êtes liés plus vous êtes connus). L'opacité (et le secret commercial) des 400 variantes du pagerank mises à jour ou modifiées chaque année condamne l'observateur et la communauté scientifique à se nourir de conjectures d'où il ressort que :

les sites appartenant à l'écosystème de Google (YouTube, Blogger, etc) bénéficient objectivement – ou en tout cas statistiquement – d'un effet positif de pondération au sein des pages de résultats sur des requêtes équivalentes. Ils sont placés devant les autres. Là encore, si l'on peut le regretter, on peut difficilement reprocher à une société commerciale de mettre en avant ses propres contenus, sauf à prétendre lui assigner une mission de service public.

Mais, jusqu'à son récent changement de CGU et le passage par défaut au "search + your world", Google restait, et reste encore un tout petit peu, un artefact technologique qui se nourrit d'extériorités et, comme il n'est pas en mesure de racheter l'ensemble des contenus existants sur la toile, il reste condamné à les signaler, même si l'on peut désormais objectivement craindre qu'il ait tout à gagner à les faire oublier. La question de savoir "comment obtenir les résultats de recherche Google les plus neutres possible" est plus que jamais d'actualité.

Facebook promoteur de diversité ?

Tel n'est pas le cas de Facebook qui se nourrit uniquement d'internalités, et compte sur ces internalités pour phagocyter progressivement les contenus externes. L'hypothèse est alors celle décrite par Eli Pariser dans The Bubble Filter et selon qui : "les algorithmes de personnalisation du web nous poussent à consommer une diversité d’information toujours plus réduite." Une thèse que je partage et sur laquelle je me suis longuement exprimé ici. Mais une thèse qui semble contredite par la dernière – et paradoxalement la première – étude publiée sur la structure des réseaux d'amis à l'intérieur dudit Facebook : "The role of social networks in Information Diffusion". Je livre ici les résultats de l'étude telles qu'elle sont excellemment résumées (et remises en contexte) sur InternetActu :

"L'expérience a permis à Bakshy de voir comment l’information nouvelle (l’information que vous n’auriez pas partagée si vous ne l’aviez pas vu sur Facebook) voyage à travers les réseaux. Autant de réponses qui permettent de mieux cerner ce que Farhad Manjoo appelle “la chambre d’écho” : si un algorithme comme le EdgeRank favorise l’information que vous avez déjà vu, cela ferait de Facebook une chambre d’écho de vos propres croyances. Mais si l’EdgeRank propulse des informations nouvelles via le réseau, Facebook devient alors une source d’information précieuse plus qu’un reflet de votre propre “petit” monde.
C’est exactement ce qu’a trouvé Bakshy. D’abord, il a montré que plus vous êtes proche d’un ami sur Facebook (plus vous commentez l’un l’autre vos billets, plus vous apparaissez sur des photos ensemble, etc.), plus vous allez avoir tendance à partager les liens de cet ami. A première vue, il semble que Facebook encourage la chambre d’échos : “nous avons tendance à donner de l’écho à nos plus proches connaissances”.
Mais si nous avons tendance à partager l’information avec nos plus proches amis, nous continuons à partager de l’information de nos liens faibles, et ces liens provenant de ces connaissances éloignées sont les nouveaux liens de nos réseaux. Ces liens ont tendance à recevoir l’information que vous n’auriez pas partagée si vous ne l’aviez pas vu sur Facebook. Ces liens faibles sont indispensables à votre réseau, explique Bakshy. “Ils ont accès à différents sites web que vous ne visiteriez pas nécessairement”.
(…) “Cela suggère donc que Facebook et les sites sociaux ne nous proposent pas seulement une confirmation du monde, mais que l’EdgeRank a tendance à nous sortir de notre bulle de filtre plutôt que de la renforcer”.

Pourtant après lecture attentive de l'article, je continue de défendre la thèse d'une diversité d'information de plus en plus réduite. Voici pourquoi 🙂

CONTRE_ANALYSE

La vidéo du chat qui pète. D'abord le coeur méthodologique de l'étude repose – pour faire simple – sur la théorie des graphes mâtinée de – rapides – considérations sociologiques. C'est à dire qu'elle analyse la manière dont circule l'information dans des groupements sociaux constitués, mais en aucun cas elle ne tente de qualifier la nature de l'information qui circule. Que la vidéo du "chat qui pète" qui compte 200 000 vues sur YouTube me soit recommandée par un de mes liens faibles ou par un de mes liens forts, qu'elle vienne de l'intérieur de ma bulle de filtre (bubble filter) ou de l'extérieur d'icelle, elle n'en reste pas moins une vidéo de "chat qui pète" comptant 200 000 vues sur YouTube, pas davantage qu'elle ne contribue à elle seule à promouvoir la diversité des pratiques félines (Ceci était un message du CCC).

Chausses-trappes immunitaires. En exposant la méthodologie choisie pour traiter le volume énorme de données et notamment en exfiltrer les publications assimilables à du Spam ("Ensuring Data Quality"), les auteurs indiquent avoir utilise le Facebook Immune System (un algorithme "intelligent" qui apprend en temps réel des diverses attaques de phishing et autres spams pour tenter de les éradiquer) :

"Threats to data quality include (…) content that subjects may have seen through interfaces on Facebook other than feed, spam, and malicious content. (…) We use the Facebook Immune System to classify and remove URLs that may not reflect ordinary users’ purposeful intentions of distributing content to their friends."

Or l'adepte de l'observation participante que je suis, ne peut s'empêcher de remettre en cause l'efficience absolue dudit système immunitaire, au profit d'une efficacité beaucoup plus relative. Nul doute que nombre de contenus apparentés à du Spam sont effectivement "évités" – et heureusement sinon plus personne n'utiliserait ce site. En revanche, les Timeline regorgent de vidéos ou photos chausse-trappes qui s'insinuent dans les profils d'utilisateurs pourtant supposément avertis et experts (ou alors osez me dire que vous n'avez jamais vu apparaître la vidéo de cette jeune femme au décolleté abyssal qui "n'aurait jamais du ouvrir cette bouteille de coca" sur le mur d'un ami que vous ne soupçonniez pourtant pas de nourir une passion secrète pour les boissons gazeuses). Bref, le système immunitaire de Facebook est certes assez robuste, mais il est encore très loin d'être sain. Dès lors, les conversations et sujets étudiés pendant les 7 semaines de l'expérimentation (et incluant "253,238,367 subjects, 75,888,466 URLs, and 1,168,633,941 unique subject-URL pairs") comportent nécessairement des chausse-trappes qui renforcent la propagation de contenus non-sollicités ou simplement "publicitaires" dans notre bulle informationnelle.

Une étude qui accrédite l'essentiel des thèses qu'elle est supposée contredire. L'article en question valide un grand nombre de postulats et de démonstrations qui vont pourtant à l'encontre d'un accroissement de la diversité informationnelle. En voici un petit florilège :

"One particularly salient characteristic of diffusion behavior is the correlation between the number of friends engaging in a behavior and the probability of adopting the behavior. (…)" L'article confirme cette caractéristique même s'il la nuance.

"We observe that the probability of sharing a link in the feed condition increases with the number of contacts who have already shared the link (solid line, Figure 4a). This is consistent with recent observational studies of online contagion [29, 9, 15], and is at least superficially consistent with predictions made by traditional models of contagion [22, 34]." L'article confirme ici encore les modèles "viraux" de propagation de l'information, conformes à celui de la chambre d'écho.

Des résultats très nuancés. Même si l'analyse de corpus présente incontestablement quelques détails intéressants ("For example, subjects who were exposed to a link shared by a friend from whom the subject received three comments are 2.83 times more likely to share than subjects exposed to a link shared by a friend from whom they received no comments."), ses conclusions et ses résultats sont beaucoup plus nuancées que ne le laisse croire la couverture médiatique qui a accompagné sa sortie :

"The presence of a similar relationship in the no feed (grey line, Figure 4a) condition shows that when multiple friends exhibit a particular behavior, an individual is more likely to exhibit the behavior herself, even if she does not necessarily observe her friends’ behavior. Therefore, the naïve conditional probability of sharing using observational data, which is equivalent to the probability of sharing in the feed condition, is not a true influence response function. Rather, such an estimate reflects a mixture of internal influence effects and external correlation."

Un modèle de la contagion qui ne dit rien du "patient 0". Principale découverte de l'article donc, plutôt que quelques noeuds centraux concentrant, rassemblant et redistribuant l'essentiel des contenus (relire les "hubs and authorities" de Kleinberg), ce serait un modèle systémique de contagion qui serait ainsi mis au jour :

"Although weak ties can serve a critical bridging function [21, 35], the influence that weak ties exert has never before been measured empirically at a systemic level. We find that the majority of influence results from exposure to individual weak ties, which suggests that information diffusion in online social networks is driven by simple contagion. This stands in contrast to prior studies of influence on the adoption of products, behaviors or opinions, which center around the effect of having multiple or densely connected contacts who have adopted [7, 14, 13, 6]. Our results suggest that in large online environments, the low cost of disseminating information fosters diffusion dynamics that are different from situations where adoption is subject to positive externalities or carries a high cost."

Là encore, les premiers commentateurs de l'article me semblent commettre une erreur : ce que l'article démontre structurellement (modèle de contagion à l'échelle systémique) ne nous dit rien du type de virus qu'il contribue à propager, c'est à dire des contenus eux-mêmes. En d'autres termes : Si j'adore regarder Arte et que tous mes amis liens faibles me contaminent avec des vidéos pourries de TF1, il est assez probable que je finisse un jour par regarder, à mon corps défendant, le journal de 13h de Jean-Pierre Pernaud.

Rien de nouveau sous le soleil ?

Sur l'étude de Lada Adamic et d'Eytan Bakshy, on attendra avec gourmandise les commentaires de sociologues francophones (sans vouloir dénoncer mes camarades Antonio Casilli et Dominique Cardon). En complément de mon analyse ci-dessus, je me bornerai à faire remarquer que cet article et l'approche qu'il défend est également épistémologiquement très marqué : elle s'inscrit dans un mouvement de balancier qui, à chaque fois qu'une thèse tend à devenir dominante (comme le fut dans les années 2004-2005 de celle accréditant l'effet "on ne prête qu'aux riches" des moteurs de recherche), voit survenir une anti-thèse venant expliquer, tout au contraire, que la densité et la diversité des usages suffi(rai)t à assurer un égalitarisme des contenus – ou même carrément à favoriser les contenus à faible exposition – au sein d'outils oligopolistique d'accès à l'information.

C'est ainsi qu'en 2005 est publié, complètement à contre-courant, un article intitulé "The egalitarian effect of search engines", dont je m'étais fait l'écho sur ce blog, et qui se concluait en ces termes :

"It suggests that, contrary to intuition and prior hypotheses, the use of search engines contributes to a more level playing field, in which new Web sites have a greater chance of being discovered and thus of acquiring links and popularity — as long as they are about specific topics that match the interests of users as expressed through their search queries."

Conclusion qui si l'on veut la traduire en termes non scientifiques pourrait à peut près donner ceci : "l'existence de TF1 n'empêchera jamais des gens de regarder Arte." Certes. Sauf que ce que l'on prétendait démontrer au départ était qu'Arte avait autant de chances d'être regardée que TF1. En un mot : "#fail".

Et maintenant, si on parlait des choses qui fâchent ?

L'étude qui tombe à pic.

La sortie de cette étude s'est faite dans le même tempo médiatique que le lancement de "Search+ your world" et de la riposte orchestrée par Facebook, Twitter et MySpace autour du site Focusontheuser.org. Quelques jours après sortait également une étude du cabinet Deloitte indiquant que Facebook aurait généré 232 000 emplois indirects en Europe, étude commandée par … Facebook. Dans le même temps, et notamment lors du sommet de Davos, les représentants de Facebook se gargarisent d'une étude (également financée par Facebook et à la méthodologie assez … nébuleuse) consacrant Facebbok comme créateur d'emplois liés à "l'économie des applications" (app economy). L'article scientifique est de son côté co-signé par 4 auteurs, dont 3 sont salariés de … Facebook. On se contentera ici de noter que ce story-telling parfaitement orchestré et cette conjonction des annonces, jette, à tout le moins, une ombre de doute sur la totale objectivité des résultats indiqués, ou à tout le moins sur l'absence de biais dans les angles d'analyse "choisis".

Ce n'est pas faire affront aux 4 signataires (à tout le moins à la seule n'étant pas employée par Facebook) que de signaler que la publicité faite à cet article doit beaucoup aux résultats accréditant la ligne marketing de l'entreprise. C'est par Dominique Cardon que j'ai eu connaissance de cet article, précisément sur Facebook. Et c'est auprès de lui que j'ai immédiatement fait part de mon interrogation sur la présence massive de signatures "corporate".

Dominique Cardon pointe la solidité du corpus et la légitimité de la seule signataire extérieure à l'entreprise tout en soulignant la faiblesse du questionnement méthodologique ("253 millions de comptes aspirés pour une étude sur 76 millions d'URL, un graphe de 1 168 633 941 arrêtes !, c'est assez béton. Le problème c'est plutôt, au delà de la massue quantitative, la faiblesse du questionnement qu'ils posent sur une si belle masse de données – par ailleurs, Lada Adamic, une des signataires, est une très bonne chercheuse, peu contestable"), ce sur quoi Bertill Hatt (doctorant) renchérit en indiquant que : "Pour en avoir parlé de vive voix avec Lada, c'est la pression à publier qui les pousse à saucissonner les idées." On attendra donc en effet les "suites" de cet articles, qui comprendront très certainement des indications sur la nature des contenus ainsi propagés par contagion des liens faibles.

Mais au-delà de l'interrogation et de la polémique (je fais entièrement confiance à Dominique Cardon et je continue de nourrir un vague espoir dans l'indépendance des chercheurs, dont celle de Lada Adamic et, soyons fair-play, Eytan Bakshy avait commencé à travailler sur ce sujet en thèse avant d'être embauché par Facebook), mais, disais-je, ce type de stratégie de publication oblige à poser la question de la maîtrise des corpus pour l'indépendance des recherches scientifiques en général, et des "web studies" en particulier.

L'enjeu de la maîtrise des corpus.

Or voilà qui tombe bien puisqu'au travers de deux chapitres d'ouvrage à paraître (dont un co-signé avec deux camarades, Gabriel Gallezot et Brigitte Simmonot), j'ai été à m'interroger à nouveau sur cette question avec le résultat suivant (mix des 2 articles à paraître) :

"Dans l'histoire des sciences, les scientifiques de tous les domaines, de toutes les époques, de toutes les disciplines, se sont en permanence efforcés de prendre l'ascendant sur leurs différents corpus ; pour pouvoir être exploitable, le corpus doit pouvoir être circonscrit par ceux qui prétendent en faire l'analyse. « Il n’y a rien que l’homme soit capable de vraiment dominer : tout est tout de suite trop grand ou trop petit pour lui, trop mélangé ou composé de couches successives qui dissimulent au regard ce qu’il voudrait observer. Si ! Pourtant, une chose et une seule se domine du regard : c’est une feuille de papier étalée sur une table ou punaisée sur un mur. L’histoire des sciences et des techniques est pour une large part celle des ruses permettant d’amener le monde sur cette surface de papier. Alors, oui, l’esprit le domine et le voit. Rien ne peut se cacher, s’obscurcir, se dissimuler." (Latour, 1985).

Comme l'a montré (Gray, 2006 repris par Hey, 2009), après avoir démarré avec des méthodologies empiriques, avoir franchi l'étape de l'abstraction, et avoir fait appel à l'informatique pour modéliser des phénomènes complexes, l'activité scientifique a désormais basculée dans un quatrième paradigme, celui de l'eScience : les scientifiques sont confrontés au déluge des données, déluge dans lequel les technologies du web sémantique et du web des données tentent de mettre un peu d'ordre. Ce déluge n'est pas sans danger pour l'activité scientifique dans son ensemble comme le démontre (Boyd, 2011) puisqu'il porte sur la définition même du champ de la connaissance, sur l'éthique et la déontologie des processus de fouille de données, en passant par l'objectivité et la précision de la démarche scientifique ainsi que sur les nouvelles fractures numériques que cela pourrait opérer au sein des divers champs et communautés disciplinaires.

Google Books, projet de numérisation lancé en 2005, dispose à ce jour de 4% de tous les livres publiés depuis deux siècles, en sept langues. Soit une estimation à hauteur de deux milliards de mots et 5,2 millions de livres numérisés (Cohen, 2010). Tout simplement « le plus grand corpus linguistique de tous les temps » (Véronis, 2010). Autre type de corpus, celui de Facebook et de ses 850 millions de membres, soit le plus grand « corp(u)s social » numérique, le plus grand pan-catalogue des individualités et de leurs mémoires (Ertzscheid, 2007, 2010b).

Traditionnellement dans l'histoire des sciences, des corpus sont constitués après que les outils permettant de les explorer et de les circonscrire ont été mis au point. Le mouvement est aujourd'hui inverse avec l'arrivée de gigantesques corpus numériques pour lesquels nous ne disposons parfois d'aucun outil d'exploration et d'analyse ou pour lesquels les universitaires sont obligés de se fier aux méthodologies et outils d'exploration délivrés par les sociétés commerciales détentrices desdits corpus, sans toujours pouvoir maîtriser les règles d'accès, les contraites et limites méthodologiques ou éthiques. L'une des questions centrales de la méthode scientifique au 21ème siècle consiste à savoir comment constituer de nouveaux corpus et comment traiter le gigantisme de ceux mis à disposition.

Individuellement comme collectivement, nous nourrissons en permanence des monstres calculatoires et industriels qui, dans certains domaines, sont en passe d'être les seuls capables de circonscrire des corpus qui relèvent pourtant du bien commun. Ce qui oblige à repenser totalement la question de l’archive et du rôle de la puissance publique dans la constitution, la gestion et l’accès à cette dernière. A repenser également le rôle et la place d'une science indépendante et citoyenne dans ce déluge de données, tout particulièrement au regard d'une objectivation du champ des web-studies."

Moralité : les tactiques ne doivent pas faire oublier la stratégie.

La tactique et la stratégie. Le terrain de la guerre entre les différents acteurs de l'accès à l'information s'est légèrement déplacé mais l'enjeu de conquête territoriale n'a pas varié.

(Source de l'image : http://www.slideshare.net/olivier/gestion-des-donnees-personnelles)

Du point de vue tactique, ce billet se sera efforcé de le montrer, les affrontements dans les grands espaces du far-web se sont aujourd'hui déplacés dans un corps à corps insidieux qui se déroule sur nos propres terres documentaires (near-me). Il s'agit bien, pour les uns comme pour les autres, d'une bataille de frontières ; frontières entre ce qui relève du public et ce qui relève du privé, frontière encore entre l'information et le couple "infomercial / infotainment", frontière enfin entre le politique (cas de censure évoqués dans ce billet ou efficace "lissage" de l'opinion) et le social.

Du point de vue stratégique, rien n'a changé. Sur cet immense plateau de jeu dont la carte est à l'échelle du territoire, ce sont, invariablement, les mêmes objectifs de conquête territoriale qui sont affichés et qui continuent d'être le théâtre de tous les affrontements : le territoire de la qualification tout d'abord, avec nos mémoires littéralement "documentaires". Si les géants du web l'emportent sur ce terrain, alors il l'emporteront également sur deux autres territoires présentés comme essentiels mais en réalité sinon accessoires, du moins causalement liés à la conquête du premier : il s'agit du territoire de socialisation (avec nos mémoires affectives, personnelles et sociales), et enfin de celui du marketing (avec nos mémoires "actionnables", intentionnelles : sorties au cinéma, restaurant, achats, déplacements, etc.)

Un dernier mot : kakonomie et économie relationnelle de l'abondance.

Je m'apprêtais à mettre un point final à ce billet lorsque je suis tombé sur une nouvelle étude du Pew Internet intitulée "Why most Facebook users get more than they give". Une étude qui confirme qu'à l'image de Google pour l'économie et/ou les régimes documentaires, Facebook est passé maître dans l'art d'organiser l'abondance dans l'économie et/ou les régimes de socialisation numériques. L'étude (également signalée par AP) indique en effet que le site (en tout cas au travers de l'échantillon constitué pour l'étude) peut s'appuyer sur un noyau hyperactif de "power-users", au regard desquels les usagers "normaux" reçoivent bien plus (d'informations, de sollicitations, de messages, etc …) qu'ils n'en demandent ou qu'ils n'en mettent eux-même en ligne. Plus précisément :

"On average, Facebook users in our sample get more friend requests than they make: 63% received at least one friend request during the period we studied, but only 40% made a friend request.
It is more common to be “liked” than to like others. The postings, uploads, and updates of Facebook users are liked – through the use of the “like” button – more often than these users like the contributions of others. Users in the sample pressed the like button next to friends’ content an average of 14 times per month and received feedback from friends in the form of a “like” 20 times per month.
On average, users receive more messages than they send. In the month of our analysis, users received an average of nearly 12 private messages, and sent nine.
People comment more often than they update their status. Users in our sample made an average of nine status updates or wall posts per month and contributed 21 comments.
People are tagged more in photos than they tag others. Some 35% of those in our sample were tagged in a photo, compared with just 12% who tagged a friend in a photo."

L'étude est également très riche d'enseignements sur la nature de l'écosystème d'interactions à l'oeuvre dans le site (c'est à dire précisément sur ce qui m'a tant manqué dans l'article de Bakshy). On y apprend notamment que :

"on a en moyenne 7 nouveaux amis par mois"
"80% des demandes d'amis sont acceptées et donne lieu à réciprocité"
"moins de 5% des utilisateurs choisissent de masquer certains contenus dans leur mur ("feed")"
"plus on passe de temps sur le site et plus on y interagit (publication de status, tagguage de photos, "like", dépôt de commentaires, etc) et plus on a tendance à envoyer et à accepter des demandes d'amis"

L'étude du PewInternet vient par contre confirmer la force et la densité des liens "faibles" qui est au coeur de l'article de Bakshy :

"It is commonly the case in people’s offline social networks that a friend of a friend is your friend, too. But on Facebook this is the exception, not the rule. A fully connected list of friends on Facebook would have a density of 1 (everyone knows everyone else). The average Facebook user in our sample had a friends list that is sparsely connected. As an example, if you were the average Facebook user from our sample with 245 friends, there are 29,890 possible friendship ties among those in your network. For the average user with 245 friends, 12% of the maximum 29,890 friendship linkages exist between friends.

Facebook users can reach an average of more than 150,000 Facebook users through their Facebook friends; the median user can reach about 31,000 others

At two degrees of separation (friends-of-friends), Facebook users in our sample can on average reach 156,569 other Facebook users. However, the relatively small number of users with very large friends lists, who also tended to have lists that are less interconnected, overstates the reach of the typical Facebook user. In our sample, the maximum reach was 7,821,772 other Facebook users. The median user (the middle user from our sample) can reach 31,170 people through their friends-of-friends."

Corollaire intéressant de cette observation : "Vous avez toujours moins d'amis que vos amis".

"In our sample, the average Facebook user has 245 friends. However, when we look at their friends, the average friend has a mean of 359 Facebook friends. The vast majority of Facebook users in our sample (84%) have smaller sized networks of friends than their average network size of their Facebook friends."

Observation déjà documentée en sciences sociales et qui s'explique par le fait de l'attirance que procurent les gens disposant déjà d'un réseau relationnel étendu (effet d'entrainement).

"How can it be that people’s friends almost always have more friends than they do? This little known phenomenon of friendship networks was first explained by a sociologist Scott Feld [11]. Not just on Facebook, in general and off of Facebook, people are more likely to be friends with someone who has more friends than with someone who has fewer."

Et la kakonomie dans tout ça ? Rappel, la kakonomie c'est "l'étrange mais très largement partagée préférence pour des échanges médiocres tant que personne ne trouve à s'en plaindre", plus précisément, "la kakonomie est régulée par une norme sociale tacite visant à brader la qualité, une acceptation mutuelle pour un résultat médiocre satisfaisant les deux parties, aussi longtemps qu'elles continuent d'affirmer publiquement que leurs échanges revêtent en fait une forte valeur ajoutée." (pour plus d'infos, voir ce billet).

FB : promoteur de diversité ou arme de distraction massive ?

Au travers de l'étude du PewInternet, l'étalement et la profondeur des liens faibles ('weak ties') comme la qualification des interactions sociales indiquant que l'utilisateur moyen reçoit beaucoup plus qu'il ne donne, sont autant d'indicateurs du fait que le coeur de métier de Facebook – et sa principale arme – réside dans sa capacité à systématiser ce levier des ingénieries relationnelles au service d'une multiplication de sollicitations et d'interactions de "bas niveau", favorisant ainsi non pas un phénomène de diversité (ou de diversification) mais plutôt un phénomène de distraction (au sens latin d'éloignement), et de tergiversation (au sens latin de détournement).

Pour conclure ce billet sur une note optimiste, souvenons-nous que quels que soient les outils, les régimes documentaires, leur opacité réelle ou supposée, ou bien encore les instrumentalisations latentes ou patentes auxquelles ils se livrent, il appartient à chacun d'entre nous d'être capable de résister aux premières affordances qu'il suscitent pour les charger du sens (et des documents) que nous estimons être ceux relevant d'une réelle diversité politique et éditoriale. Nous serions également bien inspirés de relire d'urgence La Distinction, d'un certain Pierre Bourdieu (ou plus rapidement l'article de Xavier Molénat sur les "nouveaux codes de la distinction").

(quelques) Références des articles cités dans ce billet

Molénat, Xavier. "Les nouveaux codes de la distinction.", Sociologie. Sciences Humaines. Available at: http://www.scienceshumaines.com/les-nouveaux-codes-de-la-distinction_fr_26766.html
Bakshy Eytan et al. 2012, "Role of Social Networks in Information Diffusion". Available at: http://www.scribd.com/facebook/d/78445521-Role-of-Social-Networks-in-Information-Diffusion.
Ertzscheid, O. & Gallezot, G., 2003. "Chercher faux et trouver juste". Available at: http://archivesic.ccsd.cnrs.fr/sic_00000689.
Fortunato, S. et al., 2005. The egalitarian effect of search engines. arXiv:cs/0511005. Available at: http://arxiv.org/abs/cs/0511005 [Consulté février 3, 2012].
J. Kleinberg, 1998. Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1998. Extended version in Journal of the ACM 46(1999). Also appears as IBM Research Report RJ 10076, May 1997.
Stein, Chen, E. & Mangla, K., 2011. "Facebook Immune System". Defense, Microsoft Research. http://www.mendeley.com/research/facebook-immune-system/

Olivier Ertzscheid

Site https://www.affordance.info

Articles créés 3008

8 commentaires pour “De la conquête du far-web à celle du near-me”

Hubert Guillaud dit :

3 février 2012 à 18h50

Entièrement d’accord sur le fond et notamment sur la façon dont il faut prendre avec des pincettes toutes les communications émanant des grands acteurs du web. Comme toi après lecture attentive de l’article de Bankshy, je continue à penser que notre diversité informationnelle est peut-être plus réduite avec ces réseaux (mais certainement plus large qu’il y a quelques dizaines d’années). Pour ma part, j’avais choisi de montrer cela en utilisant des études sur la réalité de nos réseaux sociaux qui me semblaient donner d’élégants contrepoint. Amicalement,

Répondre
Dominique Dupagne dit :

4 février 2012 à 4h39

Brillante analyse, mais bien pessimiste. Ces systèmes d’information sont dépendants de leurs utilisateurs, et donc condamnés à fournir un service pertinent pour survivre, contrairement aux administrations. La diversité de l’information disponible directement ou au travers de ces outils n’a jamais été aussi importante, même personnalisée dans son classement.
Notre cerveau fonctionne ainsi : sélectionnant les expériences/synapses réussies sur la plan moteur, favorisant dans nos souvenirs les informations les plus souvent appelées ou utiles.
Mais là où je vous rejoins, c’est qu’une vigilance permanente est nécessaire pour savoir quand abandonner le service d’information qui « dépasse la ligne ». J’ai fermé mon compte Facebook il y a un an.

Répondre
Jean-Marie Le Ray dit :

4 février 2012 à 4h44

Olivier, merci pour ce billet, que j’ai dévoré, ne serait-ce que parce qu’il est à la croisée de nombreux sujets sur lesquels je m’interroge en ce moment.
Et notamment sur les corpus, dont celui de Twitter, qui me fascine totalement.
Tu ne le cites pas, juste Google Books [Tout simplement « le plus grand corpus linguistique de tous les temps » (Véronis, 2010)] et Facebook [le plus grand « corp(u)s social » numérique, le plus grand pan-catalogue des individualités et de leurs mémoires (Ertzscheid, 2007, 2010b)], même si j’imagine que tu dois bien avoir ta petite idée sur ce que représente le corpus Twitter.
Car un « corpus social de 850 millions de membres » n’est-il pas trop énorme et trop « dishomogène » pour en tirer quelque chose de significatif ?
Comme on dit en italien, « il troppo stroppia », et s’il est vrai qu’il « est impossible d’extraire des informations fiables à partir d’un corpus trop petit » (Wikipedia), quid d’un corpus trop grand ?
Or je ne cesse de m’interroger sur la « juste taille » d’un corpus pour en dégager du sens (voir ici : http://www.presse-citron.net/la-gamification-en-100-mots
donc j’aimerais bien connaître ton avis sur la question 🙂
Jean-Marie

Répondre
olivier ertzscheid dit :

4 février 2012 à 12h22

@Jean-Marie : tu as parfaitement raison sur Twitter, que j’ai effectivement omis de mentionner. D’autant que le corpus « Twitterien » est en constitution permanente à la bibliothèque du congrès (voir mon analyse ici : http://affordance.typepad.com/mon_weblog/2010/05/twitter-le-patrimoine-du-superflux-.html#rdb-footnote-11)
D’un point de vue scientifique, il n’existe pas de « juste taille » d’un corpus. Tout dépend des outils dont tu disposes pour l’analyser. La linguistique du corpus, notamment pour le TALN (traitement automatique des langues) travaille également sur des corpus gigantesques (même s’ils n’ont pas les dimensions de ceux disponibles sur le web).

Répondre
olivier ertzscheid dit :

4 février 2012 à 12h25

@dominique dupagne : merci de votre commentaire. Mais je suis en total désaccord avec votre première assertion : « Ces systèmes d’information sont dépendants de leurs utilisateurs, et donc condamnés à fournir un service pertinent pour survivre ». La particularité des écosystèmes fermés (facebook, apple) est précisément non pas de s’affranchir de cette dépendance (sans utilisateurs, on est bien d’accord, ils ferment), mais de la sublimer en l’inversant, c’est à dire en rendant les utilisateurs dépendant du système. Même si vous avez fermé votre compte Facebook, vous restez une exception et l’immense majorité des utilisateurs de ces services n’imaginent pas vivre sans leur compte Facebook, sans le courrier Gmail, etc, etc.

Répondre
Jean-Marie Le Ray dit :

4 février 2012 à 15h48

Olivier,
J’ai voulu commenter ton billet sur Twitter, mais les commentaires sont désactivés. Donc je le fais ici.
« Février 2010. Twitter « publie » chaque jour plus de 50 millions de « messages ». »
« Février 2012. Twitter « publie » chaque jour plus de 250 millions de « messages ». »
http://blog.twitter.com/2012/01/tweets-still-must-flow.html
No comment !!!

Répondre
Laurent dit :

8 février 2012 à 14h38

Analyse plutot bien mené.
Je pense moi même que S+YW, mise en place par Google est en contradiction avec l’esprit ouvert du web…
Malgré cela, j’aurais insisté un peu plus sur la cause : oui le web est en train de se cloisonner, dangereusement d’ailleurs. Mais c’est récent…et on peut se demande légitimement pourquoi!
La réponse est évident : Facebook! Comme vous le dites si bien, ce site veut littéralement phagocyter le web, devenir le web dans le web!! A cela, il encourage le partage et l’hébergement de contenues, mais il a aussi une politique très connu « d’aspirateur » de données personnelles…sans jamais chercher à les partager!
Pour reprendre l’histoire de S+YW, il serait bon de rappeler que Google disposait d’un accord avec twitter pour indexer leur données! Ils étaient donc en mesure, jusqu’il y a peu, de proposer du contenu recommandé par nos réseaux de twitter…
Cet accord n’a pas été prolongé…à cause twitter! Je parle explicitement de cet evenement car il est bon de rapeller que, pour permettre aux utilisateurs d’être décloisonnés des services qu’ils utilisent, il faut des accords entre les intervenants!!
Généralement, les intervenants ont tout intérêt à ces accords : ça permet d’enrichir l’expérience utilisateur, et c’est généralement donnant-donnant, avec un partage d’information croisé.
C’est là qu’arrive Facebook , site arrogant si il en est, bien décidé à « remplacer » le web! Pour arriver plus certainement à ses fin, ils ont depuis longtemps mis en place la technique de l’aspiration : permettre a n’importe qui d’importer ses connaissance a partir des outils les plus connu du web, Hotmail, Gmail, etc….sans jamais rendre l’inverse. N’importe qui voulant récupérer ses « contact » de Facebook pour voir si ils peuvent les rajouter dans un carnet d’adresse d’une messagerie savent de quoi je parle! La technique est depuis longtemps décrié par Google , qui a mainte fois réagis sur le sujet (en empêchant notamment l’importation Facebook des contacts Gmail). Facebook a ainsi inventé l’accord tri-parties « Gagnant-Perdant-Perdant » : Gagnant pour Facebook et sa BDD, perdant pour le tiers qui fournit les données, perdant pour l’utilisateur qui se fait enfermer dans Facebook!!
Si le succès de Facebook était resté anecdotique, le comportement du web n’en aurait pas été changé, mais malheureusement, les utilisateurs sont tous venu s’engouffrer dans ce goulag numérique! Le problème, c’est que dès qu’un acteur de poids la joue bas sur le partage de donnée, tout les autres se sentent obligés de protéger les leur . Ceci expliquant facilement pourquoi Google a commencer à mettre des freins sur ses possibilités d’export de données!
Maintenant, le web a beau jeu de vouloir reprocher à google ce développement, il faudrait rappeler que le seul moyen pour google de proposer des recommandations Facebook a l’utilisateur,ça serait :
-Payer une licence à Facebook, comme le fait Microsoft pour Bing
-Permettre à Facebook de récupérer les données utilisateurs des services googles
-Ne rien recevoir en échange.
Non, décidément, Google n’est pas une oeuvre de charité, encore moins pour une entreprise tel que Facebook!! On peut toujours regretter que des éleveurs mettent des barbelés autour des champs ou se reposent leurs animaux, empêchant les promeneurs de passer…mais les coupables ne sont pas les éleveurs, mais les bêtes sauvages qui viennent essayer de croquer leurs troupeaux!!
Au final, du fait de mon analyse, je me dit qu’on n’a que le Web qu’on mérite : les utilisateurs,les journalistes et les blogueurs ont sciemment engraissés un acteur qui revendique le cloisonnement du web (vos amis ne vous appartienne pas, ils appartiennent à Facebook!). Et on entend tout le monde râler des conséquences sur des sites comme Google?? Il faudrait peut être commencé par remettre nos habitudes en question….

Répondre
Marc G. dit :

9 février 2012 à 17h21

Comme je crois pouvoir trouver ici des lecteurs intéressés, j’en profite pour faire la promo d’une action de notre bien aimée université de Nantes qui va (on espère!) dans le bon sens :
http://sites.google.com/site/opendata2012/
Marc G.
pour le comité d’organisation

Répondre