"On peut tromper mille fois mille personnes, non, on peut tromper une fois mille personnes, mais on ne peut pas tromper mille fois mille personnes. Non, on peut tromper une fois mille personne mais on peut pas tromper mille fois une personne. Non…"
Emile. in La Cité de la peur.
Facebook a donc mené une petite expérience. Pendant une semaine, il a pris un échantillon randomisé d'un peu plus de 600 000 personnes (quand même …) et a légèrement modifié les contenus s'affichant sur leur mur, avec, pour la moitié de l'échantillon, davantage de contenus "positifs", et pour l'autre moitié, davantage de contenus négatifs. Histoire de voir si les émotions se propageaient sans interaction physique, et de quelle manière. Le résultat semble sans appel : quand tu es exposé à des contenus positifs, tu t'exprimes toi-meme de manière plus positive, et inversement. Donc oui les émotions se propagent bien à travers les réseaux sociaux, et oui, les contenus auxquels nous sommes exposés plusieurs heures par jour influent sur notre humeur. Plus exactement et pour reprendre les termes mêmes de l'étude :
"Lorsque les expressions positives ont été réduites, les gens ont produit moins de messages positifs et davantage de messages négatifs ; quand les expressions négatives ont été réduites, le schéma opposé s'est produit. Ces résultats indiquent que les émotions exprimées par d'autres sur Facebook influencent nos propres émotions, constituant une preuve expérimentale de contagion sociale de masse à travers les réseaux sociaux", se félicitent les chercheurs de la firme de Palo Alto." (Source : Numerama)
L'histoire est (notamment) résumée dans cet article du Huffington Post, et l'article scientifique en question (car il s'agissait bien d'une expérience "scientifique" s'appelle : "Experimental evidence of massive-scale emotional contagion through social networks."
Devant le tollé suscité, et la floraison d'éditorialistes et de dépêches AFP en rendant compte, ("quoi, j'ai été le sujet d'une expérience et on ne m'a rien dit ??" "quoi ??! on a modifié les contenus de mon mur à l'insu de mon plein gré ??!"), l'un des auteurs de l'article – et de l'expérience – a été contraint de publier un post où elle explique en gros que les modifications opérées étaient statistiquement minimales, que le pourcentage d'utilisateurs concernés était quasi-insignifiant, et que l'expérience n'a duré qu'une semaine :
"Regarding methodology, our research sought to investigate the above claim by very minimally deprioritizing a small percentage of content in News Feed (based on whether there was an emotional word in the post) for a group of people (about 0.04% of users, or 1 in 2500) for a short period (one week, in early 2012)."
Et que, bien sûr, tout cela n'a pour objectif que d'améliorer l'expérience utilisateur : "The goal of all of our research at Facebook is to learn how to provide a better service."
Le débat prend actuellement de l'ampleur sur le net autour des arguments suivants :
- cette expérience était-elle vraiment "scientifique"
- Facebook a-t-il le droit de mener des expériences sans avertir les utilisateurs ?
- sommes-nous une nouvelle fois manipulés ?
- faut-il y voir la poursuite d'une déjà ancienne dérive émotionnelle ?
Et rejoint un autre débat, celui de la surveillance massive des populations (affaire Snowden, NSA, etc.)
On peut tromper 1 fois 600 000 personnes.
Facebook a-t-il le droit de mener de telles expériences ?
Oui. Définitivement oui. Facebook est un "jardin fermé", un environnement propriétaire. Quand on y entre, on signe des CGU (conditions générales d'utilisation) et l'on accepte – souvent sans en avoir conscience, mais c'est un autre débat – l'ensemble de ces conditions en échange de la gratuité du service, y compris que Facebook scrute et conserve l'ensemble de nos données, de nos interactions, de nos relations et s'en serve pour améliorer son service en les mettant à dispositions de ses ingénieurs, de ses chercheurs, bref, de sa R&D (recherche et développement). Ceci vaut pour Facebook mais aussi pour l'ensemble des services "privés" ou "propriétaires".
Facebook avait-il le droit de mener cette expérience sans en informer les profils concernés ?
Là on peut discuter. "Oui" pour les raisons exposées ci-dessus, mais "non" puisqu'il s'agit d'une expérience présentée comme "scientifique" et le minimum de la démarche "scientifique" implique que l'on informe les utilisateurs qu'ils vont être le sujet d'une expérience et que l'on réclame donc leur accord. On n'est pas obligé de leur dire que sera l'objet de l'expérience (sinon on se trouverait devant des biais comportementaux), on n'est pas obligé de leur dire en quoi elle va consister (toujours pour éviter certains biais), mais on est obligé de leur dire qu'ils vont participer à une expérience, combien de temps celle-ci va durer, et d'obtenir leur accord préalable, lequel accord, toujours en termes scientifiques, s'appelle leur "consentement éclairé". Dans certains cas extrêmes, on peut à la rigueur se dispenser de ce préalable mais il est alors obligatoire, à l'issue de l'expérience, d'informer les gens qu'ils en ont été les sujets, et de leur demander leur accord avant publication des résultats, même si ces résultats sont entièrement anonymisés. Sinon ce n'est plus de la science, c'est du marketing. Et Facebook compte en ses rangs suffisamment d'universitaires et d'ingénieurs parfaitement au fait de ces règles de méthodologie scientifique élémentaires pour que nous faire le coup du "oui mais bon en fait ça concernait très peu de gens, c'était pas très important et ça ne durait pas longtemps" soit à l'évidence un énorme foutage de gueule.
Facebook a-t-il déjà mené d'autres expériences du même type ?
C'est plus que très probable. C'est même, de mon point de vue, une absolue certitude. Simplement, toutes ces expériences n'ont pas donné lieu à des publications scientifiques et Facebook n'a donc pas communiqué dessus. Il s'est contenté de se servir des résultats pour améliorer son service.
On peut tromper 600 000 fois 600 000 personnes.
Il ne faut pas se tromper d'indignation. Ou alors, avant de s'offusquer du fait que Facebook modifie, pour une semaine, le contenu et l'ordre des informations s'affichant sur le mur de 600 000 profils, il faut d'abord commencer par s'offusquer que TF1 et Jean-Pierre Pernaud modifient chaque jour, et depuis plusieurs dizaines d'années, le fil d'actualité de millions de personnes.
Il ne faut pas oublier Mac Luhan. Et oui. Le "medium is the message". TF1 est un medium, Facebook en est un également. Ces "médias" ont à l'évidence et par nature une influence sur les messages et les informations qu'ils diffusent (puisque ce sont eux, leurs actionnaires, leurs journalistes, leurs éditorialistes, leurs algorithmes, qui les choisissent), et ces médias ont à l'évidence la capacité de façonner ou de fabriquer l'opinion. Relire Bourdieu, Chomsky et Mac Luhan donc.
On peut tromper 600 000 fois 1 personne.
La publication de cette étude renvoie à la question centrale non pas de la captation des données, mais à celle de leur utilisation. A la seule question centrale du consentement éclairé. J'étais déjà longuement intervenu sur ce sujet dans ce billet "Données, consentement, commun", dont je vous remets ici quelques extraits :
"D'un côté le consentement. Celui de l'usager. Consentement "par défaut", règle de l'opt-out. Je te prends tout, tu acceptes que je te prenne tout et tout le temps, et si tu n'es pas d'accord, tu me le dis, pour que je t'autorise à sortir (partiellement) du gigantesque système d'indexation-captation mis en place. Consentement que l'on voudrait, à l'instar de la médecine, éclairé. Que l'on nous dise ce que l'on va faire de nos données, que l'on nous demande si nous en sommes d'accord, avant que de le faire. Est-ce réellement trop demander ? L'usage qui est fait de nos données sent-il tellement le souffre que l'on refuse de nous en faire le descriptif, de nous en livrer le mode d'emploi expurgé du sabir juridique qui rend son appropriation impossible à l'échelle des usagers pourtant directement concernés et impactés ? Tient-il à ce point l'ensemble de l'économie du web que cette dernière se sente condamnée par un possible droit de regard des usagers, travailleurs gratuits malgré eux ? Il semble que oui. (…)
Mes données personnelles sont mon ADN. Si proche de celui des autres dans sa globalité, si différent dans le portrait qu'il dessine de moi, dans ce qu'il est de moi.
Alors oui et tant pis pour le côté foireux de la comparaison, à l'échelle de leur agrégation planétaire dans des écosystèmes propriétaires de plusieurs millions ou milliards d'usagers, à l'échelle des potentialités qu'elles comportent en terme de régulations, d'améliorations ou de contraintes pesant sur notre vie quotidienne, individuelle et collective, et à l'échelle surtout des traitements algorithmiques parfaitement opaques qui s'exercent dessus, oui et trois fois oui, les données personnelles sont aujourd'hui des biens communs. Prétendre le contraire équivaudrait à affirmer que les données communes sont des biens personnels. Ce qui est le credo et le confiteor de l'ensemble des firmes en faisant aujourd'hui commerce. Pour Google, Facebook et les autres, NOS données communes, c'est à dire la somme des données individuelles collectées par eux-mêmes ou des services tiers affiliés, NOS données communes sont considérés comme étant leur propriété, leurs biens personnels. Et c'est précisément là tout le problème."
A s'asseoir en permanence sur l'obtention d'un consentement éclairé, on finit logiquement par entretenir l'idée qu'une petite bande de cons ingénieurs analyse les sentiments d'une autre très grosse bande de cons utilisateurs. Ce qui n'est flatteur et contructif pour personne.
Industries de l'influence.
Comme cela est magistralement rappelé par Hervé Le Crosnier dans son cours sur l'histoire de la publicité sur internet, les mastodontes du web n'ont fait que reprendre à leur compte les logiques et méthodologies (pour le coup pas du tout scientifiques, bien au contraire) des théoriciens de la publicité, pour bâtir une industrie de l'influence.
Houston, on a 2 problèmes.
Et là du coup, oui, nous avons un sérieux problème. LE sérieux problème que pose cette "étude". Qui est à la fois un problème scientifique mais aussi – et peut-être surtout – un problème politique, un problème démocratique.
Problème 1 : Je ne suis ni 1 numéro, ni 1 somme de données, ni 1 élément de corpus.
En même temps, je ne suis plus vraiment un homme libre non plus. Sauf si …
J'en ai déjà parlé, du point de vue méthodologique, et sur l'obtention du consentement éclairé. Mais le vrai gros problème scientifique est tout autre. Il s'agit de celui de la maîtrise des corpus. Là encore je me contente de rappeler ce que j'ai déjà écrit à plusieurs reprises :
Version courte :
"Traditionnellement dans l'histoire des sciences, des corpus sont constitués après que les outils permettant de les explorer et de les circonscrire ont été mis au point. Le mouvement est aujourd'hui inverse avec l'arrivée de gigantesques corpus numériques pour lesquels nous ne disposons parfois d'aucun outil d'exploration et d'analyse ou pour lesquels les universitaires sont obligés de se fier aux méthodologies et outils d'exploration délivrés par les sociétés commerciales détentrices desdits corpus, sans toujours pouvoir maîtriser les règles d'accès, les contraites et limites méthodologiques ou éthiques. L'une des questions centrales de la méthode scientifique au 21ème siècle consiste à savoir comment constituer de nouveaux corpus et comment traiter le gigantisme de ceux mis à disposition." (c'était à cette occasion, et on peut même revoir la vidéo)
Et aussi, version longue (dans ce billet, et ce chapitre d'ouvrage) :
"Dans l'histoire des sciences, les scientifiques de tous les domaines, de toutes les époques, de toutes les disciplines, se sont en permanence efforcés de prendre l'ascendant sur leurs différents corpus ; pour pouvoir être exploitable, le corpus doit pouvoir être circonscrit par ceux qui prétendent en faire l'analyse. « Il n’y a rien que l’homme soit capable de vraiment dominer : tout est tout de suite trop grand ou trop petit pour lui, trop mélangé ou composé de couches successives qui dissimulent au regard ce qu’il voudrait observer. Si ! Pourtant, une chose et une seule se domine du regard : c’est une feuille de papier étalée sur une table ou punaisée sur un mur. L’histoire des sciences et des techniques est pour une large part celle des ruses permettant d’amener le monde sur cette surface de papier. Alors, oui, l’esprit le domine et le voit. Rien ne peut se cacher, s’obscurcir, se dissimuler." (Latour, 1985).
Comme l'a montré (Gray, 2006 repris par Hey, 2009), après avoir démarré avec des méthodologies empiriques, avoir franchi l'étape de l'abstraction, et avoir fait appel à l'informatique pour modéliser des phénomènes complexes, l'activité scientifique a désormais basculée dans un quatrième paradigme, celui de l'eScience : les scientifiques sont confrontés au déluge des données, déluge dans lequel les technologies du web sémantique et du web des données tentent de mettre un peu d'ordre. Ce déluge n'est pas sans danger pour l'activité scientifique dans son ensemble comme le démontre (Boyd, 2011) puisqu'il porte sur la définition même du champ de la connaissance, sur l'éthique et la déontologie des processus de fouille de données, en passant par l'objectivité et la précision de la démarche scientifique ainsi que sur les nouvelles fractures numériques que cela pourrait opérer au sein des divers champs et communautés disciplinaires.
Google Books, projet de numérisation lancé en 2005, dispose à ce jour de 4% de tous les livres publiés depuis deux siècles, en sept langues. Soit une estimation à hauteur de deux milliards de mots et 5,2 millions de livres numérisés (Cohen, 2010). Tout simplement « le plus grand corpus linguistique de tous les temps » (Véronis, 2010). Autre type de corpus, celui de Facebook et de ses 850 millions de membres, soit le plus grand « corp(u)s social » numérique, le plus grand pan-catalogue des individualités et de leurs mémoires (Ertzscheid, 2007, 2010b).Traditionnellement dans l'histoire des sciences, des corpus sont constitués après que les outils permettant de les explorer et de les circonscrire ont été mis au point. Le mouvement est aujourd'hui inverse avec l'arrivée de gigantesques corpus numériques pour lesquels nous ne disposons parfois d'aucun outil d'exploration et d'analyse ou pour lesquels les universitaires sont obligés de se fier aux méthodologies et outils d'exploration délivrés par les sociétés commerciales détentrices desdits corpus, sans toujours pouvoir maîtriser les règles d'accès, les contraites et limites méthodologiques ou éthiques. L'une des questions centrales de la méthode scientifique au 21ème siècle consiste à savoir comment constituer de nouveaux corpus et comment traiter le gigantisme de ceux mis à disposition.
Individuellement comme collectivement, nous nourrissons en permanence des monstres calculatoires et industriels qui, dans certains domaines, sont en passe d'être les seuls capables de circonscrire des corpus qui relèvent pourtant du bien commun. Ce qui oblige à repenser totalement la question de l’archive et du rôle de la puissance publique dans la constitution, la gestion et l’accès à cette dernière. A repenser également le rôle et la place d'une science indépendante et citoyenne dans ce déluge de données, tout particulièrement au regard d'une objectivation du champ des web-studies."
Problème 2 : Photoshopocratie.
Notre second problème est un vrai problème politique et démocratique. Qui ne vient pas d'internet, qui ne vient pas du web, qui ne vient pas de notre goût immodéré pour la fange ni de notre bassesse congénitale (n'est-ce pas Finkie ?). Un vrai problème politique et démocratique qui vient de la média-cratie constituée par l'oligopole à franges des quelques géants du Net (GAFA mais pas que) et de leur capacité à modifier, altérer, détourner en toute opacité ce que, faute de mieux, on continuera d'appeller l'opinion : c'est ce que j'appelle la "photoshopocratie" qui est l'avènement "politique" des technologies de l'artefact. Techniquement nous sommes bien au 21ème siècle (algorithmes, Big Data et tout ça) mais socio-psychologiquement nous en sommes encore au début des années 1950 quand chacun pouvait être convaincu par l'industrie cigarettière que fumer était un bienfait. Sauf que.
Sauf que il est démontré que la seule et même très légère modification de l'ordre des résultats de Google peut influencer le résultat d'une élection. Certes, ce n'est qu'un facteur d'influence parmi d'autres. Certes. Sauf que il vient d'être démontré que Facebook peut influencer notre humeur en sélectionnant les infos s'affichant sur notre mur. Certes, là encore uniquement un facteur d'influence parmi d'autres.
Mais demain ? Des facteurs d'influence qui échappent aujourd'hui aux Big Data et autres traitements algorithmiques, quels sont ceux qui y échapperont encore demain ?? Proablement aucun. Aucun car c'est là le prix à payer pour la phase de transition entre une société de statistiques et une société de données.
Et que sans même parler d'intelligence artificielle, artefactuelle ou assistée, sans même revenir sur les inquiétantes promesses de la singularité, nous serions bien naïfs de croire que dans cette société de données là, comme nous l'explique pourtant Prabhakar Raghavan, Vice-Président aux "technologies stratégiques" chez Google, que "nous n'en sommes qu'au début", que "ces immenses quantités de données – "datasets" – sont "moins profondes" et qualifiées" que les tous petits corpus que les chercheurs en sciences humaines et sociales ont l'habitude de traiter, que du croisement des sciences humaines et de l'algorithmique et des Big Data il ne nous faut pas "en attendre trop, ni trop vite", que l'influence des sciences sociales sur le secteur technologique est "à peine naissante". Sans être totalement inexact, ce discours lénifiant est la base même sur laquelle se construit l'industrie de l'influence. La base même sur laquelle elle s'est toujours construite depuis le milieu du 20ème siècle. Ce n'est pas encore de la psycho-histoire, mais c'est déjà de la physique sociale.
La cité Lassitude de la peur ?
Ce n'est peut-être pas encore la cité de la peur, mais ce sont déjà les jardins fermés de l'angoisse. Sauf qu'ils ont compris comment désamorcer cette angoisse : il leur suffit de modifier légèrement notre fil d'information. #CQFD #OrwellMonAmour.
<Mises à jour>
Floraison n'est pas raison, donc je vous mets ici au chaud quelques articles dignes d'intérêt sur le même sujet, que je compléterai au fur et à mesure :
- Sur le fond :
- Elle était attendue, la tribune de Danah Boyd qui souligne à quel point cette "expérience" a pour premier effet d'accroître notre anxiété par rapport aux manipulations et traitements de Big Data. Elle revient également sur la nocive collusion entre "recherche" et "marketing". Et elle en sait quelque chose, ayant elle-même été recrutée par Microsoft 😉
- Chris Peterson en profite pour revenir sur le fonctionnement du "newsfeed" et rappeler qu'aucun algorithme ne peut être "naturel", simplement être plus ou moins "représentatif".
- Jaron Lannier en appelle de son côté dans une tribune au New-York Times, à "moderniser le processus du consentement éclairé" : "All of us engaged in research over networks must commit to finding a way to modernize the process of informed consent. Instead of lowering our standards to the level of unread click-through agreements, let’s raise the standards for everyone."
- Sur "The Atlantic", Kate Crawford rappelle que ces manipulations sont anciennes (cf expérience de Milgram notamment) et conclut de belle manière : "It is a failure of imagination and methodology to claim that it is necessary to experiment on millions of people without their consent in order to produce good data science. Shifting to opt-in panels of subjects might produce better research, and more trusted platforms."
- Antonio Casilli, qui n'a pas le temps de faire un billet mais prend quand même le temps de renvoyer vers 3 articles – scientifiques 🙂 – éclairants, dans l'un desquels on peut notamment lire (je souligne) : "you should be outraged because during the last 10 years you’ve been more interested in crap stories about Web celebrities, adorable dogs, and violent teenagers that we’ve been feeding you in our technology columns, and you never took the time to realize that the very mission of a medium like Facebook is to manipulate people’s feelings, opinions, and moods."
- Camille Alloing revient sur le "capitalisme émotionnel"
Sur la forme (et la scientificité)
- Janet Vertesi, professeur de sociologie à Princeton, pointe un fait essentiel : "As a sociologist of technology, I’ve witnessed these changes firsthand. I have grants from Microsoft and Yahoo!; Intel funds my colleagues’ students; our graduates staff the labs at Facebook and Google. These collaborations aim to keep Internet research both current and practical. But there are other reasons why social scientists are turning to tech companies. Public money for social science research is being slashed at the federal level." Et oui. Quand on coupe dans le budget de la recherche publique, on entretient le "salariat" des chercheurs par les grandes firmes technologiques. Et l'on doit alors prendre sa part de responsabilité dans les collusions entretenues entre "recherche publique" et "financements privés".
- Edito de Forbes avec plein d'infos sur le peer-reviewing et la scientificité de l'étude (que bon en fait l'étude a bien été validée mais pas les jeux de données – datasets – associés, bref, c'est compliqué 😉
- Eglantine Schmitt, doctorante sur les enjeux épistémologiques des Big Data qui ramène cette fameuse "étude" à sa juste proportion (et à sa pauvreté scientifique).
- Repéré par BoingBoing, James Grimmellmann révèle que la collecte et l'analyse des données (les fameux "datasets") de l'étude est tout simplement … illégale : deux des chercheurs (universitaires) ont en effet bénéficié de fonds publics dans le cadre d'un projet englobant ladite étude, or ces fonds publics obligent à obtenir le consentement éclairé des participants, ce qui n'a pas été fait. #ohlejoyeuxbordel
Et un petit dessin humoristique pour finir, mais qui résume assez bien notre rapport schizophrène à ces technologies 😉
3 Juillet : Sheryl Sandberg (n°2 de chez Facebook) s'excuse. Sur le mode : "On ne voulait pas vous fâcher. On a mal communiqué. On ne le fera plus". (lire aussi sur Numerama) Comprenez : "à l'avenir, on continuera bien sûr de le faire mais on ne sera pas assez stupide pour le raconter dans un article scientifique."
</Mise à jour>