La haine (en ligne) : l’important c’est pas la hausse.

Tout se mesure. Et si comme l'écrivait Camus "Mal nommer un objet c'est ajouter au malheur de ce monde", mal mesurer un phénomène c'est faire de même. Or comme tout se mesure, comme tout doit être en mesure de l'être, comme la capacité de mesure dit l'essentiel de la capacité d'agir dans le contexte des grandes plateformes numériques, alors Facebook a mesuré ses progrès dans la lutte contre les discours de haine, et c'est en effet … "une première estimation de la place des discours haineux."

Pour mesurer ses progrès il a mesuré les discours de haine. Mais pour ce faire il a établi sa propre métrique. Sa propre tare. Sa propre unité de décompte. Unité de mesure pour diversité de discours. Mesurer la haine, c'est compliqué. Le résultat de cette mesure le voici. De la bouche de Facebook.

Mais avant de vous le livrer, je rappelle que si l'on est à la fois la source et la cible d'un problème (la multiplication et l'expression de discours de haine) et que l'on est le seul à disposer des outils de mesure permettant d'affirmer que l'on a efficacement lutté contre le problème concerné, la première chose que l'on mesure … c'est l'ampleur du conflit d'intérêt.

95 fois sur 100 la femme s'emmerde en baisant Facebook modère correctement.

(d'après Facebook)

Les chiffres donc. De Facebook. Que voici.

On Facebook in Q3 [1er Juillet au 30 Septembre], we took action on:

22.1 million pieces of hate speech content, about 95% of which was proactively identified

19.2 million pieces of violent and graphic content (up from 15 million in Q2)

12.4 million pieces of child nudity and sexual exploitation content (up from 9.5 million in Q2)

3.5 million pieces of bullying and harassment content (up from 2.4 million in Q2).

On Instagram in Q3, we took action on:

6.5 million pieces of hate speech content (up from 3.2 million in Q2), about 95% of which was proactively identified (up from about 85% in Q2)

4.1 million pieces of violent and graphic content (up from 3.1 million in Q2)

1.0 million pieces of child nudity and sexual exploitation content (up from 481,000 in Q2)

2.6 million pieces of bullying and harassment content (up from 2.3 million in Q2)

1.3 million pieces of suicide and self-injury (up from 277,400 in Q2)

La première chose qui frappe dans ces chiffres, c'est leur augmentation. Qu'il s'agisse du harcèlement, de l'exploitation sexuelle, de la "nudité infantile" (catégorie où rappelons-le, Facebook classe également la photo – et prix Pulitzer – de la petite Kim fuyant les bombardements au napalm -ou les petits garçons aux cheveux longs sur Instagram), ou bien des images violentes, tout augmente. Et tout augmente, rien que sur Facebook, de manière assez considérable. Une explication vient de la nature des événements sociétaux qui amplifient et démultiplient ces discours de haine, et à ce titre, le contexte de l'élection présidentielle américaine a naturellement joué, de même que la pandémie mondiale et l'hystérisation des débats sur les questions liées (vaccin, masque, confinement, etc). Mais cette explication ne saurait être suffisante.

L'augmentation des chiffres, en proportion, est particulièrement ahurissante sur Instagram. Facebook l'explique en indiquant :

"The increase in our proactive detection rate for hate speech on Instagram was driven in part by improving our proactive detection technology for English, Arabic and Spanish languages, and expanding automation technology."

Là encore, ce recours à une causalité technique ("on mesure mieux") ou seulement "périmétrique" (on regarde davantage les contenus dans d'autres langues), n'est pas non plus suffisante ou même satisfaisante, même si on la croise avec les événements sociétaux récents (élection, pandémie, etc.)

Il y a bien un problème structurel qui profite de chaque affleurement d'une actualité dans le champ social pour se transformer en surface de cristallisation et de convocation de discours au mieux polarisants et au pire haineux. Et encore une fois ce n'est pas un parti pris de l'affirmer puisque non seulement la littérature scientifique sur le sujet est (relativement) concordante et que Mark Zuckerberg lui-même l'avait explicitement reconnu dans son texte de Mars 2017 :

"Les médias sociaux sont des médias de formes courtes où les messages qui résonnent sont amplifiés à de nombreuses reprises. Cela récompense la simplicité et décourage la nuance. Dans le meilleur des cas cela rend plus visibles certains messages et expose les gens à des idées différentes. Dans le pire des cas cela sur-simplifie des sujets importants et nous pousse à des points de vue extrêmes."

L'autre point frappant c'est le suspect satisfecit dont s'honore la plateforme : 95% des "hate speech content" seraient efficacement modérés par l'entreprise. En tout cas c'est ce que nous dit … l'entreprise. Et une nouvelle fois, nous sommes priés de la croire. Ce qui ne peut être ni satisfaisant ni suffisant.

Il est tout à fait dramatique qu'à l'échelle d'une plateforme de 2,7 milliards d'utilisateurs, à la gouvernance concentrée entre les mains de moins de 5 personnes, l'analyse de la lutte contre les discours de haine ne puisse être faite que par la plateforme elle-même. Nous étions plusieurs à alerter dès 2012 sur ce sujet éminent dans le champ scientifique et particulièrement dans celui des web-studies, à savoir notre impossibilité de maîtriser et d'accéder à ces nouveaux corpus pour en produire une analyse scientifique indépendante :

"Dans l'histoire des sciences, les scientifiques de tous les domaines, de toutes les époques, de toutes les disciplines, se sont en permanence efforcés de prendre l'ascendant sur leurs différents corpus ; pour pouvoir être exploitable, le corpus doit pouvoir être circonscrit par ceux qui prétendent en faire l'analyse. « Il n’y a rien que l’homme soit capable de vraiment dominer : tout est tout de suite trop grand ou trop petit pour lui, trop mélangé ou composé de couches successives qui dissimulent au regard ce qu’il voudrait observer. Si ! Pourtant, une chose et une seule se domine du regard : c’est une feuille de papier étalée sur une table ou punaisée sur un mur. L’histoire des sciences et des techniques est pour une large part celle des ruses permettant d’amener le monde sur cette surface de papier. Alors, oui, l’esprit le domine et le voit. Rien ne peut se cacher, s’obscurcir, se dissimuler." (Latour, 1985).

(…) Traditionnellement dans l'histoire des sciences, des corpus sont constitués après que les outils permettant de les explorer et de les circonscrire ont été mis au point. Le mouvement est aujourd'hui inverse avec l'arrivée de gigantesques corpus numériques pour lesquels nous ne disposons parfois d'aucun outil d'exploration et d'analyse ou pour lesquels les universitaires sont obligés de se fier aux méthodologies et outils d'exploration délivrés par les sociétés commerciales détentrices desdits corpus, sans toujours pouvoir maîtriser les règles d'accès, les contraintes et limites méthodologiques ou éthiques. L'une des questions centrales de la méthode scientifique au 21ème siècle consiste à savoir comment constituer de nouveaux corpus et comment traiter le gigantisme de ceux mis à disposition." (Source)

Ce qui prévaut.

Dans un autre article sur le même sujet, Facebook va alors en venir à un second point essentiel qui est celui de la mesure de "prévalence" des discours de haine. Après nous avoir expliqué qu'ils étaient très nombreux et en augmentation constante mais après nous avoir "rassuré.e.s" sur le fait que l'entreprise faisait bien son boulot et en modérait correctement plus de 95%, Facebook va tenter de nous convaincre, chiffres à l'appui, que les discours de haine qui passent entre les mailles du filet ont une prévalence globale très faible.

En épidémiologie, "la prévalence est une mesure de l'état de santé d'une population, dénombrant le nombre de cas de maladies, à un instant donné ou sur une période donnée." Appliquée aux discours de haine, la prévalence est donc le nombre de discours de haine visibles, observables, à un instant donné ou sur une période donnée. Je dis bien le nombre de discours de haine visibles, c'est à dire qui n'ont pas été modérés, masqués, avant d'être possiblement accessibles.

Voici ce que Facebook nous dit de son calcul de la prévalence (je souligne):

There are four reasons why harmful content may be seen on our site:

The content is detected or reported but after people have been exposed to it.

The content is detected or reported and people are exposed to it because of the time it takes to review it.

The content is detected or reported but we make a mistake and don’t take action on it.

The content isn’t detected or reported.

To measure prevalence we focus on how much content is seen, not how much sheer content violates our rules. In other words, we don’t treat all content equally: a post seen 1 million times is 1 million times more likely to be sampled, and that’s a good thing. Again, this is also similar to air quality testing stations that take a sample of air to estimate the concentration of pollutants.

Je vous traduis le dernier paragraphe (grâce à l'extraordinaire traducteur automatique DeepL) :

"Pour mesurer la prévalence, nous nous concentrons sur la quantité de contenus vus, et non sur la quantité de contenus qui violent nos règles. En d'autres termes, nous ne traitons pas tous les contenus de la même manière : un message vu 1 million de fois a 1 million de fois plus de chances d'être échantillonné, et c'est une bonne chose. Là encore, cela ressemble aux stations d'essai de la qualité de l'air qui prélèvent un échantillon d'air pour estimer la concentration de polluants."

Discours de haine : l'important c'est pas la chute hausse des chiffres.

Cette explicitation posée, voici donc le troisième article de la firme pour nous donner, les chiffres de la prévalence des discours de haine. Chiffres qui sont … l'aviez-vous deviné ? Et oui. Extrêmement bas 🙂

"Comme les discours de haine dépendent de la langue et du contexte culturel, nous envoyons ces échantillons représentatifs à des examinateurs de différentes langues et régions. Sur la base de cette méthodologie, nous avons estimé que la prévalence des discours de haine de juillet 2020 à septembre 2020 était de 0,10 % à 0,11 %. En d'autres termes, sur 10 000 consultations de contenu sur Facebook, 10 à 11 d'entre elles comprenaient des discours de haine." (Traduction via DeepL)

Les discours de haine seraient donc très présents en quantité absolue (cf les premiers chiffres exposés plus haut), mais assez peu présents en quantité relative (c'est à dire par rapport aux discours ne véhiculant pas de haine). Et c'est sous cet angle que Facebook peut affirmer qu'ils sont donc peu prévalents. 10 consultations sur 10 000 vous exposent à des discours de haine. Dit comme cela, en effet, c'est peu.

Mais faisons jouer un instant le biais de présentation pour reformuler les choses ainsi : chaque fois que vous verrez mille publications vous en verrez une qui contiendra des discours de haine. Une sur mille. L'effet n'est pas tout à fait le même et pourtant la prévalence est identique (10 pour 10000 = 1 pour 1000)

Et encore une fois, les mesures ne doivent pas s'exonérer de la perception que l'on en a et de la réalité qu'elles décrivent. Quand on dit que "seulement" une sur mille (ou dix sur dix mille) "vues" exposent à des discours de haine, on peut par exemple rappeler que Facebook génère plus de 8 milliards de vues de vidéos quotidiennes en moyenne. Ce qui veut dire, toujours en utilisant les chiffres de prévalence de Facebook, que sur 8 milliards de vues de vidéos quotidiennes, 800 millions d'entre elles contiennent des discours de haine**. Ce qui est colossal, surtout si l'on ajoute le fait que 8 milliards de vues divisées par 1,82 milliards d'utilisateurs actifs par jour cela fait que chaque utilisateur verrait en moyenne entre 4 et 5 vidéos chaque jour. Lesquelles vidéos peuvent toutes les quatre contenir des discours de haine, là où d'autres utilisateurs en verront quatre autres … exemptes de tout discours de haine. Une nouvelle fois s'il est important de disposer de chiffres, on voit bien ces chiffres seuls ne disent rien d'autre que la capacité de les produire, d'autant qu'ils ne sont jamais produits par une autorité indépendante.

**à supposer bien sûr que les discours de haine soient également répartis entre les textes, images, vidéos, messages, etc. mais là aussi, étant donné que l'on n'en sait rien ou – ce qui revient au même – qu'il faut entièrement faire confiance aux chiffres donnés par Facebook pour évaluer ses propres pratiques, autant établir nos propres conjectures ;-)

La haine : l'important c'est pas la prévalence, c'est la covalence.

Maintenant que nous voilà grands clercs sur la notion de prévalence, laissez-moi vous parler de celle de covalence. En chimie, une liaison "covalente" désigne "la liaison de deux atomes par mise en commun de deux électrons célibataires, dont l'un provient du premier atome et l'autre du second." (Wikipédia) C'est, nous dit encore Wikipédia, "une des forces qui produisent l'attraction mutuelle entre atomes."

L'effet "d'attraction mutuelle" est absolument déterminant dans les gigantesques architectures techniques des médias sociaux : c'est cette attraction qui va déterminer la portée (le "reach"), la viralité et l'essentiel des indicateurs et métriques qui déterminent l'organisation et la visibilité de l'ensemble des contenus. Or dans l'économie des discours circulant sur la grande plateforme bleue, la haine est souvent la liaison covalente qui assure et garantit des effets (et des affects) de circulation optimaux. Les discours de haine eux-même, disposent entre eux d'une covalence très forte relevant de dynamiques intersectionnelles. Pour le dire rapidement et pour n'en donner qu'un exemple, les discours racistes appellent et attirent ainsi souvent (ou ont en commun) les remarques sexistes (et réciproquement).

La question fondamentale est donc, pour les discours de haine comme pour les autres d'ailleurs, celle de leur covalence envisagée à différents niveaux.

D'abord la covalence entre communautés, entre groupes, entre "bulles de filtre". C'est ainsi que fin Octobre 2020, dans un contexte électoral américain très tendu, suite à l'intervention de différentes associations, Facebook avait fini par accepter de mettre en pause les recommandations et suggestions reposant sur des groupes, lesquelles recommandations produisaient des effets très forts de polarisation de l'opinion. S'il y en avait "davantage" c'est parce qu'il y avait "davantage" de zones de contact entre ces groupes, effets de covalence produits par la recommandation algorithmique.

Ensuite la covalence entre les différents étages techniques de la plateforme : en gros entre sa surface (fils publics ou privés) et sa profondeur (messageries, Dark Social)

On peut aussi ajouter la covalence entre les services de l'entreprise Facebook, c'est à dire la liaison reposant sur des contenus haineux établie entre Facebook, Instagram, Messenger et Whatsapp (notamment), la manière dont ces discours circulent, la manière dont la percolation s'effectue sur la base de ces liaisons covalentes, liaisons haineuses autant que dangereuses.

Ceux qui comptent.

Il y a ceux qui comptent. Et il y a ce qui "compte". Ce qui compte pour la lutte contre les discours de haine, ce n'est pas tant de mesurer la hauteur de la vague que de comprendre comment elle se forme et sur quels courants elle s'appuie. Pour en contenir la prévalence il faut d'abord en comprendre la covalence. Ce qui "compte" ce n'est pas tant de savoir combien sont les discours de haine mais comment ils circulent. Or cela Facebook le sait déjà. Il le sait même parfaitement.

Premièrement ils circulent grâce à l'architecture technique (toxique) de la viralité qui n'a de cesse d'ajouter de la fluidité, du réflexe, et de combattre toute forme de friction et de réflexion dans les échanges.

Deuxièmement ils circulent aussi du fait de nos différents biais cognitifs (pression du groupe, biais de conformité, etc.)

Et troisièmement, ils circulant grâce à la manière dont nos différents biais cognitifs (individuels et collectifs) sont instrumentalisés par les ingénieries de la viralité servant elles-mêmes différents déterminismes algorithmiques parfaitement documentés et objectivables.

Sur le second point et sur le second point seulement, Facebook ne peut rien. Sur le premier et le troisième en revanche il peut absolument tout. Et ne fait rien ou si peu de ce qu'il pourrait faire.

La haine n'est pas qu'un volume, c'est une dynamique, une circulation. C'est cette circulation qu'il faut contrôler, s'efforcer de limiter et de contraindre. Casser les chaînes de contamination virales.

Apostille.

Au moment de conclure cet article je tombe sur le post Facebook d'André Gunthert illustrant le fait que les pratiques de masquage et de limitation algorithmique de Facebook le font reculer sur le plan de la propagation des contenus viraux.

On pourrait donc en conclure que Facebook, contrairement à ce que j'écrivais précédemment, met au point et applique des dispositifs de friction. De fait ces dispositifs existent pour ce qui est "interprété" comme des images "violentes", elles-mêmes assimilées à une forme de chambre d'écho des "discours de haine". Plus précisément, Facebook n'agit sur ces contenus pour en limiter leur viralité première que dans la mesure où il a parfaitement documenté (à notre insu) que ce type d'images "explicites" étaient, à l'échelle de la plateforme, moins incitatives que d'autres. Qu'en d'autres termes il valait bien mieux que les gens soient dans une disposition mentale "joyeuse" que "triste" pour pouvoir être plus disposés et réceptifs à des interactions les conduisant à "mieux" se soumettre au modèle publicitaire de la firme. Et qu'au regard de ce premier point, même si l'indignation et la colère demeurent des comburants essentiels de l'interaction, il valait mieux pondérer les fils d'infos dans le premier sens. D'autant que celles et ceux qui, pour différentes raisons, priorisent l'indignation dans leurs modalités d'interaction, cliqueront systématiquement sur le "contenu sensible" pour voir la vidéo ou les images masquées.

L'exemple donné par André Gunthert illustre par ailleurs très bien un autre biais majeur de la modération des discours de haine en ligne : une image, celle en l'occurence du visage tuméfié de Michel Zecler, dès lors qu'elle est "violente" ou "graphiquement explicite" pour reprendre les termes de Facebook, est apparentée, assimilée à un discours de haine y compris si elle permet dénoncer des discours haineux ou de documenter la haine dans le champ social. Dans chaque métrique il y a des coups de trique. Et Facebook n'est pas et ne sera jamais en capacité de déterminer l'intentionnalité qui préside à la diffusion d'une telle image. En effet elle peut autant servir à propager des discours de haine (contre la police ou contre celles et ceux qui "détestent la police") qu'à visibiliser des discours qui permettront de documenter et donc possiblement de limiter les effets de pratiques ou de discours haineux. Voilà pourquoi, là aussi, la seule limitation "quantitative" à laquelle s'astreint la firme ne produit que peu d'effets sur la réalité de la circulation des discours de haine. Le fait que "nous ne le voyions pas" n'implique pas, de manière causale, qu'ils ne circulent pas.

Sur le même plan et toujours dans la lignée de la remarque d'André Gunthert, on apprenait récemment que Facebook déployait une métrique spécifique permettant de mesurer l'augmentation des discours de haine, métrique reposant sur la fréquence de l'utilisation (combinée ou isolée) de certains hashtags. Et que cette mesure avait ainsi permis de "masquer" des hashtags liés à la mouvance complotiste, ainsi qu'au mouvement "stop the steal" qui avait suivi l'élection américaine, et avait aussi guidé la décision de supprimer certaines pages ou groupes à l'intérieur desquels la fréquence de ces hashtags devenait trop élevée. Là encore on voit bien tout l'arbitraire d'une telle mesure tout autant que la manière dont elle peut être détournée ou contournée.

D'une certaine manière, Facebook dans son approche technique de la circulation et de la hiérarchisation des discours (y compris de haine), en est encore à un stade semblable à celui de ces premiers moteurs de recherche, au début des années 1990, qui avaient pour principal critère de pertinence, le nombre d'occurences d'un mot clé dans une page donnée. Pour 100 pages parlant de pizzas, la plus pertinente était celle qui contenait le mot "pizza" le plus grand nombre de fois. Et pendant des années on n'imaginait pas qu'il soit possible de faire mieux. Jusqu'à l'arrivée de Google en 1998 qui avec son approche relationnelle changea définitivement la perspective en faisant la démonstration que la pertinence (ou la popularité) pouvait être déterminée sans s'intéresser au contenu de la page, simplement en détectant les liens hypertexte qui pointaient vers elle et devenaient autant de liaisons … covalentes.