Les perroquets stochastiques et l’attaque de la typographie géante.

Savez-vous ce que c'est qu'une attaque typographique ? Il s'agit de prendre une image et de coller dessus une étiquette avec un mot ne correspondant pas à l'image. Par exemple une photo de pomme sur laquelle vous collez un post-it où est écrit "iPod"'. Vous demandez ensuite à un algorithme de reconnaissance d'image de vous dire ce que représente l'image. Sa réponse sera "iPod". C'est ce que démontre et discute l'article "Multimodal Neurons in Artificial Neural Networks".

Capture d’écran 2021-03-29 à 09.34.03

Depuis que le web existe, et depuis qu'il dispose de moteurs de recherche, la reconnaissance d'image a toujours été l'une des tâches les plus délicates à mener. Le champ de l'ingénierie linguistique et du traitement automatique des langues a assez vite permis de "reconnaître" des mots non plus seulement isolément mais dans des unités signifiantes (les entités nommées par exemple) et de prendre en compte le contexte sémantique et lexicographique pour affiner l'ensemble de ces processus de reconnaissance. 

Une image vaut 1000 mots mais 1000 images peuvent aussi se résumer à 1 mot.

Si comme le prétend le dicton, "une image vaut mille mots", les moteurs et leurs algorithmes ne disposaient alors pas de mille mots permettant de décrire une image et ils se trouvaient comme aveugles pour les indexer, avec comme seule canne blanche aléatoire les choix de textes utilisés dans le code permettant de décrire l'image (la balise ALT en HTML par exemple), ou bien alors le nom du fichier image lui-même, ou bien enfin les mots précédant ou suivant l'image dans la page. 

Et puis vinrent (je vous fais la version courte) les technologies d'intelligence artificielle, de "Machine / Deep Learning" et de "Big Data" qui modifièrent l'approche en permettant "d'entraîner" sur de très larges corpus d'images (data sets) des programmes utilisant souvent des réseaux de neurones artificiels pour qu'ils "apprennent" à reconnaître telle ou telle image avec une méthode d'essai et erreur. Cet apprentissage pouvant se faire en mode "supervisé" (il s'agit par exemple de mettre plein d'images différentes mais dans le but d'identifier celle représentant une pizza, c'est à dire de forcer le réseau à converger vers un état final précis) ou "non-supervisé" (laisser le réseau libre de converger vers n’importe quel état final lorsqu'un motif lui est présenté). La troisième modalité consiste à passer par de l'apprentissage par renforcement (le système va alors recevoir une récompense à chaque fois qu'il trouve la bonne solution).

La reconnaissance d'image, nonobstant l'immensité des progrès dans ce champ depuis une dizaine d'années, continue de produire des bugs qui nous semblent d'autant plus effarants que "nous" n'avons en général absolument aucun problème particulier pour différencier des images différentes, sauf à souffrir de pathologies particulières (prosopagnosie par exemple). 

Le cookie et le chihuahua.

Sous le régime de l'anecdotique, on cite souvent les biais perceptifs, de cadrage, de contexte ou d'entraînement (comme dans la blague : "De quelle couleur est le lait ? Blanc. Que boit la vache ? Du lait [hahaha mais non la vache boit de l'eau]"), biais qui conduisent ces programmes de reconnaissance d'image à confondre un chihuahua avec un cookie, un cocker avec un nuggets, un chien de berger avec une serpillière et une chouette avec une pomme.

Capture d’écran 2021-03-29 à 09.51.37

Mais ce qui peut prêter à sourire peut aussi rapidement tourner au cauchemar lorsque ce sont les algorithmes déployés par Google qui assimilent des couples afro-américains à des gorilles

Google-confond-un-couple

Enfin, si la reconnaissance d'image est aujourd'hui à ce point déterminante et jouit d'un nombre considérable de recherches et de financements, c'est parce que ses enjeux se déclinent aussi bien dans le domaine des applications "grand public" (à commencer par les moteurs de recherche d'images) que dans l'imagerie médicale (pour "reconnaître" des tumeurs par exemple) mais aussi et – surtout – dans le domaine de technologies de surveillance et de reconnaissance faciale : le World Wide Face

Voici pourquoi, du tableau de pipe portant l'inscription "ceci n'est pas une pipe" jusqu'à l'image de la pomme portant l'inscription "iPod", la trahison des images (titre du tableau de Magritte) est un angle passionnant pour approcher la réalité complexe de nos perceptions, y compris artistiques, et de leurs interprétations algorithmiques. 

Ceci étant posé, voici une petite astuce pour rendre fou un algorithme de reconnaissance d'images en trois étapes.

ETAPE 1
Capture d’écran 2021-03-29 à 09.34.03
ETAPE 2

MagrittePipe

ETAPE 3

Capture d’écran 2021-03-29 à 10.37.19

 

L'attaque de la Moussaka typographie géante.

Revenons donc à nos attaques typographiques. 

Capture d’écran 2021-03-29 à 11.02.46

Le domaine des attaques informatiques est large. Très large. Et ces attaques ont parfois des noms rigolos (comme "l'attaque des anniversaires" qui n'entretient qu'un très lointain rapport avec … les anniversaires). Bref. L'attaque la plus "connue" du grand public est celle dite "attaque par déni de service" qui consiste à mettre en carafe un serveur (et donc un ou plusieurs sites qu'il gère) à l'aide d'un programme qui va "simuler" son nombre de connexions maximales autorisées en en ajoutant … une. Et ce faisant mettre ledit serveur en rideau. 

Dans le domaine des réseaux de neurones et du Deep Learning on utilise ce que l'on appelle des "attaques adversariales" dont voici la description la plus accessible à des non-informaticien.ne.s. que j'ai pu trouver

"L’ajout d’une petite perturbation au signal d’entré d’un modèle de Deep Learning, imperceptible à l’œil humain, permettant la modification de son signal en sortie. Dans le cas d’une classification d’image, une telle attaque consiste à modifier les pixels de l’image d’entrée, de façon imperceptible pour l’Homme, afin de fausser la catégorie prédite. Là où l’intelligence humaine nous permet de faire abstraction de ces perturbations, un réseau de neurones les prend en compte et modifie complètement sa prédiction."

Si vous n'y comprenez toujours rien, dites-vous que c'est un peu comme le jeu dans lequel on se répète un message et où il finit, à force de micro-changements, par être totalement modifié et/ou incompréhensible à la fin. 

L'attaque typographique c'est un peu l'inverse de l'attaque adversariale classique [en vrai cela n'a rien à voir d'autant qu'il existe aussi des attaques par "adversarial patch" qui se rapprochent des attaques typographiques mais j'essaie de rester … à peu près clair] : donc en gros, plutôt que d'opérer un changement minimal et quasi-imperceptible, on y va direct à grands coups de pelleteuse dans la tronche en collant en gros un truc qui n'a rien à voir sur l'image à analyser de telle sorte qu'un conflit d'interprétation se déclenche entre l'image et le texte. And the winner is … le texte.

Stroop Stormer.

Comme le rappellent les auteurs de l'article, les attaques typographiques sont une réplique "informatique" de ce que l'on connaît en psychologie depuis la fin des années 1930 sous le nom d'effet Stroop et qui consiste à venir interférer cognitivement dans une tâche (cognitive) principale. L'exemple le plus célèbre consistant à demander aux gens de dire que quelle couleur sont écrits des noms de couleur ne correspondant pas à la couleur écrite. Vous n'avez rien compris c'est normal, donc dites-moi sans réfléchir, le plus rapidement possible et sans hésiter de quelle couleur sont écrits les mots suivants : 

  • bleu
  • vert
  • bleu
  • rouge
  • jaune

Maintenant vous avez compris l'effet Stroop 🙂

Ce qui est assez stupéfiant dans le modèle présenté dans "Multimodal Neurons in Artificial Neural Networks" c'est qu'une simple (pour nous en tout cas) attaque typographique puisse à ce point faire totalement dévisser les algos les plus pointus de reconnaissance et de labellisation d'image. Mais c'est (aussi) la clef d'un problème crucial dans nos sociétés numérisées : quelle(s) garantie(s) peut-on avoir que des programmes informatiques interprètent correctement des signaux visuels et prennent ou demandent de prendre, conséquemment, les décisions appropriées ? Et plus globalement dans l'articulation fondamentale entre la parole (le texte) et l'image, quelles heuristiques peuvent se déployer et avec quels effets et là encore, quelle(s) garantie(s) ?

Car voilà presque 25 siècles, de la caverne platonicienne aux algorithmes d'apprentissage profond (Deep Learning), que nos réalités et nos existences dans ce qu'elles partagent de plus fragile mais aussi de plus construit, se tiennent à cet endroit précis de l'explicitation du monde : la capacité de nommer les choses ; un endroit vers lequel convergent nos capacités de mettre en mots des stimuli visuels, et de mettre réciproquement des mots en images, soit pour en faire l'économie, soit pour en produire des diffractions infinies.  

Le neurone Halle Berry.

L'article scientifique qui explique le problème que pose ces attaques typographiques s'intitule donc "Multimodal Neurons in Artificial Neural Networks" et avant de vous en reparler en détail, il faut que je vous parle du postulat sur lequel il s'appuie principalement. Il s'agit du neurone Halle Berry, publication scientifique parue en 2005 dans la revue Nature, et depuis également (re)baptisée ou neurone Clint Eastwood, ou neurone grand-mère.

Précisions : tout ce qui va suivre concerne un type particulier (mais très répandu) de réseaux de neurones, les réseaux dits "convolutifs" ou" à convolution" dans lesquels : 

"le motif de connexion entre les neurones est inspiré par le cortex visuel des animaux. Les neurones de cette région du cerveau sont arrangés de sorte qu'ils correspondent à des régions qui se chevauchent lors du pavage du champ visuel. Leur fonctionnement est inspiré par les processus biologiques, ils consistent en un empilage multicouche de perceptrons (= des algorithmes d'apprentissage supervisés), dont le but est de prétraiter de petites quantités d'informations. Les réseaux neuronaux convolutifs ont de larges applications dans la reconnaissance d'image et vidéo, les systèmes de recommandation, et le traitement du langage naturel."

Et pourquoi s'inspirer du cortex visuel des animaux ? Parce que

"Début 1968, des travaux ont montré chez l'animal que le cortex visuel contient des arrangements complexes de cellules, responsables de la détection de la lumière dans les sous-régions du champ visuel qui se chevauchent, appelés champs réceptifs. Le document a identifié deux types de cellules de base : les cellules simples, qui répondent à des pics caractéristiques (grand contraste, forte intensité…) à l'intérieur de leur champ récepteur ; et les cellules complexes, qui ont des champs récepteurs plus grands et sont localement invariantes à la position exacte du motif. Ces cellules agissent comme des filtres locaux sur l'espace d'entrée."

Revenons au neurone Halle Berry.

Et avant lui, au neurone grand-mère. L'idée est assez … "simple" et remonte à un article de la fin des années 60 : 

"La théorie du neurone grand-mère désigne, dans le domaine des neurosciences cognitives, l'idée que certains neurones du système nerveux central seraient spécialisés dans le traitement de stimuli complexes. De façon humoristique, on pourrait donc imaginer qu'il y aurait des neurones spécialisés pour reconnaître le visage de sa grand-mère."

Comme l'explique également Diane Martindale dans Scientific American

"Dans les années 1960, le neurobiologiste Jerome Lettvin a baptisé cette dernière idée la théorie de la "cellule de grand-mère", ce qui signifie que le cerveau possède un neurone consacré uniquement à la reconnaissance de chaque membre de la famille. Si vous perdez ce neurone, vous ne reconnaissez plus votre grand-mère."

On rigole on rigole mais en 2005 donc, un article publié dans Nature parvient à montrer que certains neurones répondaient spécifiquement à la présentation du visage de célébrités à partir d'invariants. Voici le résumé de l'article de Quiroga, R., Reddy, L., Kreiman, G. et al., "Invariant visual representation by single neurons in the human brain." Nature 435, 1102–1107 (2005). https://doi.org/10.1038/nature03687

"Il faut une fraction de seconde pour reconnaître une personne ou un objet, même s'ils sont vus dans des conditions très différentes. La manière dont les neurones du cerveau humain parviennent à une représentation aussi robuste et de haut niveau n'est toujours pas claire. Chez le singe, les neurones des étages supérieurs de la voie visuelle ventrale répondent à des images complexes telles que des visages et des objets et présentent un certain degré d'invariance par rapport aux propriétés métriques telles que la taille, la position et l'angle de vision du stimulus. Nous avons précédemment montré que les neurones du lobe temporal médian humain (MTL) réagissent sélectivement aux images de visages, d'animaux, d'objets ou de scènes.

Nous rapportons ici l'existence d'un sous-ensemble remarquable de neurones du lobe temporel médian (MTL) qui sont sélectivement activés par des images remarquablement différentes d'individus, de points de repère ou d'objets donnés et, dans certains cas, même par des chaînes de lettres portant leur nom. Ces résultats suggèrent un code invariant, clairsemé et explicite, qui pourrait être important dans la transformation de percepts visuels complexes en souvenirs à long terme et plus abstraits."

L'idée de neurones multimodaux est née. Qui s'appelleront successivement (au gré de la hype et de quelques stéréotypies genrées) Halle Berry ou Clint Eastwood.

"Ces neurones réagissent à des groupes de concepts abstraits centrés sur un thème commun de haut niveau, plutôt qu'à une caractéristique visuelle spécifique."

L'intérêt de ces neurones dits multimodaux est qu'ils "reconnaissent" Halle Berry ou Clint Eastwood indépendamment de leurs accoutrements, cadrages, etc. A partir de là, l'idée des auteurs de l'article "Multimodal Neurons in Artificial Neural Networks" est de tenter d'identifier, dans des réseaux de neurones artificiels, des neurones (artificiels) multimodaux, c'est à dire capables de reconnaître Halle Berry dans Catwoman comme dans X-Men. Et donc de voir s'ils parviennent à reconnaître aussi une pomme même si on lui colle dessus un post-it indiquant que c'est un iPod. Car même avec un post-it sur le front indiquant qu'elle s'appelle "Clint Eastwood", Halle Berry doit continuer d'être reconnue comme Halle Berry. Voilà (en gros) l'enjeu.

Et le résultat c'est que sur un ensemble de data sets, les auteurs de "Multimodal Neurons in Artificial Neural Networks" sont parvenus à mettre en évidence l'existence de ces neurones multimodaux, certains jouant pleinement leur rôle mais d'autres ayant carrément tendance à se barrer en sucette : 

"Chacun de ces ensembles de données, ObjectNet, ImageNet Rendition et ImageNet Sketch, teste la robustesse du modèle à reconnaître non seulement de simples distorsions ou des changements d'éclairage ou de pose, mais aussi des abstractions et des reconstructions complètes – esquisses, dessins animés et même statues des objets.

Aujourd'hui, nous publions notre découverte de la présence de neurones multimodaux dans le CLIP**. L'un de ces neurones, par exemple, est le neurone "Spider-Man" (qui ressemble beaucoup au neurone "Halle Berry") qui réagit à l'image d'une araignée, à l'image du texte "araignée" et au personnage de bande dessinée "Spider-Man", en costume ou illustré."

** CLIP c'est un réseau de neurones développé par OpenAI, et "qui apprend efficacement des concepts visuels à partir d'une supervision en langage naturel. CLIP peut être appliqué à n'importe quel repère de classification visuelle en fournissant simplement les noms des catégories visuelles à reconnaître."

Associations étranges.

Problème dans la logique d'apprentissage de ces réseaux de neurones artificiels (et dans le cadre précis du projet CLIP mais dont les conclusions sont exportables), la construction de ces neurones multimodaux n'est pas exempte de biais associatifs. Je cite toujours l'article "Multimodal Neurons in Artificial Neural Networks" :

"De nombreuses associations que nous avons découvertes semblent être bénignes, mais nous avons néanmoins découvert plusieurs cas où CLIP détient des associations qui pourraient entraîner un préjudice représentationnel, comme le dénigrement de certains individus ou groupes.

Nous avons observé, par exemple, un neurone "Moyen-Orient" [1895] associé au terrorisme, et un neurone "immigration" [395] qui réagit à l'Amérique latine. Nous avons même trouvé un neurone qui réagit à la fois aux personnes à la peau foncée et aux gorilles [1257], ce qui reflète des incidents antérieurs de marquage de photos dans d'autres modèles que nous considérons comme inacceptables."

"Préjudice représentationnel". La formule est presque belle tant elle est euphémisante mais la réalité est plus brutale. Je répète certains des exemples cités et convoqués : 

  • neurone multimodal "Spider-Man" reconnaît et/ou associe : une image d'araignée + le texte "araignée" + le personnage "spider-man" (dans les films > dans les illustrés)  
  • neurone "Moyen-Orient" reconnaît et/ou associe : terrorisme
  • neurone "immigration" reconnaît et/ou associe : Amérique latine
  • neurone mystère reconnaît et/ou associe : personnes à peau foncée + gorilles.

Les biais ici décrits sont des biais d'entraînement (du modèle) dont une partie (des biais) provient des jeux de données eux-mêmes. Et c'est un énorme problème. En résumé, l'erreur de 2015 commise par Google Images (qui n'utilise pas le modèle CLIP mais procède selon une approche similaire à partir d'apprentissage profond – Deep Learning – et de réseaux de neurones) associant le mot "gorilles" à un couple afro-américain, cette erreur est non seulement toujours possible mais paradoxalement de moins en moins détectable parce qu'agissant dans les couches basses de l'apprentissage (indépendamment du jeu de données qui permet d'alimenter le modèle), précisément du fait de ces neurones multimodaux et de leurs associations étranges.

Un peu à la manière des "attracteurs étranges" qui, dans la dimension fractale, sont capables de reproduire des motifs à l'identique mais à des échelles différentes, la multimodalité de ces neurones initie une "différance" (Derrida) c'est à dire un ajournement de la signification et une différentiation de l'interprétation. Or ces ajournements dans la différentiation fracturent la conceptualisation de haut-niveau, notamment dans les couples aussi improbables que foncièrement problématiques.

Problème supplémentaire, ces biais peuvent perdurer et se développer sans être détectables pour autant, comme l'expliquent encore les auteurs de "Multimodal Neurons in Artificial Neural Networks"  : 

"Qu'il s'agisse d'un réglage fin ou d'une utilisation zéro, il est probable que ces biais et associations resteront dans le système, et que leurs effets se manifesteront de manière visible mais aussi parfois presque invisible pendant le déploiement. De nombreux comportements biaisés peuvent être difficiles à anticiper a priori, ce qui rend leur mesure et leur correction difficiles. Nous pensons que ces outils d'interprétabilité peuvent aider les praticiens à anticiper les problèmes potentiels, en découvrant certaines de ces associations et ambigüités à l'avance."

Bâtir des outils et des méthodologies "d'interprétabilité", voilà, pour les auteurs de l'article, l'un des objectifs pour tenter d'atténuer ces biais interprétatifs aux enjeux multiples, dont les euphémisants "préjudices représentationnels". 

Le MeMex avant les réseaux de neurones.

Concernant les associations étranges que l'on découvre ou que l'on tente en tout cas de circonscrire dans le cadre des réseaux de neurones, il faut se rappeler qu'en Juillet 1945, paraissait un texte de Vannevar Bush qui allait révolutionner l'histoire encore à écrire de l'informatique et qui est aujourd'hui considéré comme l'un des textes fondateurs et pionniers de ce qu'allait être internet, le web et l'hypertexte. Dans ce texte, intitulé "As We May Think" (traduction français d'Anthony Masure), Vannevar Bush décrit un système, le MeMex (Memory Extender), qui est supposé permettre de reproduire ce Graal du fonctionnement de l'esprit humain : la capacité de raisonner par association.

"Notre incapacité à accéder à l’archive est principalement causée par l’artificialité de ces systèmes d’indexation. Quelque soit leur type, les données stockées sont classées par ordre alphabétique ou numérique et l’information est obtenue (quand elle est trouvée) en parcourant leurs sous-classes. Une donnée ne peut être qu’en un seul lieu, sauf s’il en est fait un duplicata ; on doit mettre en place des règles pour normer son emplacement, et ces règles sont encombrantes. Après avoir trouvé un élément, il faut sortir du système et y revenir en utilisant un chemin différent.

L’esprit humain ne fonctionne pas de cette façon. Il opère par association. Avec un élément en tête, il passe immédiatement au suivant, suggéré par association d’idées, en accord avec un réseau d’intrications complexes générés par les cellules du cerveau. Il a bien sûr d’autres caractéristiques ; les chemins de pensées qui ne sont pas fréquemment utilisés sont voués à s’effacer, les informations ne sont jamais complètement permanentes, la mémoire est transitoire. Mais la rapidité, la complexité des chemins parcourus, les détails des images mentales, sont plus incroyablement inspirantes que n’importe quoi d’autre dans la nature.

L’humain ne peut espérer réussir à dupliquer ses capacités mentales artificiellement, mais il est cependant capable d’en tirer des leçons. Il pourrait même s’améliorer, puisque ses enregistrements ne sont pas parfaitement fiables. Une des premières choses pouvant être retirée de cette analogie concerne encore une fois la sélection. La sélection par association, plutôt que par indexation, pourrait sans doute être mécanisée. On ne peut espérer atteindre la vitesse et la flexibilité avec laquelle l’esprit suit un chemin d’associations, mais il devrait être possible de faire définitivement mieux que lui concernant la permanence des éléments stockés et leur clarté lors de leur récupération.

(…) le memex propose cependant un progrès immédiat, celui d’une indexation associative — l’idée d’avoir une disposition dans laquelle tout objet peut être convoqué à volonté pour sélectionner immédiatement et automatiquement un autre."

Soixante-quinze ans plus tard, des réseaux de neurones artificiels que l'on dit "apprenants" parviennent à atteindre en partie ce Graal. Ils nous en donnent en tout cas l'impression. Ils parviennent, par entraînement, à produire, à fabriquer, à construire des associations. Certaines sont logiques ou légitimes, détectables et anticipables. D'autres en revanche sont tout à fait étranges, illogiques, déraisonnables, imprévisibles et préjudiciables. Et ils le font, en s'appuyant au départ sur des systèmes classificatoires qui sont autant de gigantesques thesaurus et ontologies, dont beaucoup sont nourris par des travailleurs du clic (qui travaillent "à la tâche" pour associer des images à des mots). Ainsi, "l'indexation associative" imaginée par Vannevar Bush en 1945 est par bien des aspects la préfiguration des modalités de traitement du langage mises en oeuvre par les réseaux de neurones et particulièrement les neurones multimodaux en 2020. 

Ces associations, qu'elles soient naturelles et d'esprit, ou artificielles et de réseaux neuronaux calculatoires, forgent un horizon technique qui peut se dissoudre dans son propre déploiement. Elles sont autant d'artefacts qui permettront d'activer ou d'inhiber certains de nos imaginaires singuliers et collectifs. Les liens hypertextes avaient "mécanisé" ce processus en maintenant ouverte, auditable, inspectable, la logique de cette intellectualisation informatique du fonctionnement associatif de l'esprit humain, la laissant exister comme procédure accessible, libre et documentable. 

Mais à la lumière des travaux décrits dans "Multimodal Neurons in Artificial Neural Networks" et d'autres dans le même champ, il semble que la question du langage se soit déplacée dans des zones obscures difficilement observables ou même décelables. 

La question du langage s'est déplacée.

Ce qui se joue dans les tréfonds des réseaux neuronaux et des associations sémantiques qu'ils construisent est essentiel à comprendre, à étudier, à maîtriser, et à contenir, tant d'ailleurs par ceux-là mêmes qui les développent que par toutes celles et ceux qui les utilisent, les mettent en oeuvre ou les subissent. Parce que ces associations sont productrices de réels instanciés et toujours possiblement éditorialisés ou déplacés dans des sphères interprétatives très éloignées de leur contexte initial de signification, et bâties sur la seule capacité miroir de ces réseaux de neurones de produire du sens en interprétant et en associant des textes et des images. "Faire sens" sans jamais ce préoccuper de ce que fera ce sens. Voilà le déplacement. La nouvelle ritournelle. 

Associer des mots et des images n'est ni banal ni trivial : c'est un acte fondateur de notre capacité linguistique et donc politique. Même sans "intentionnalité" cognitive, même reposant uniquement sur une capacité d'auto-organisation héritée d'ontologies lexicales, la capacité de manipuler la langue dans ce couplage fondateur entre le mot et l'image fait naître des associations qui en amont comme en aval des systèmes techniques, auront et ont déjà, c'est certain, des effets mesurables sur nos  vies, nos sociabilités, nos politiques.

Tout est allé si vite.  Souvenons-nous. 

D'abord il fallait "parler des machines." Informatiques notamment. Voilà ce que nous faisions. Nous parlions des machines. Qui allaient tout changer. 

Ensuite il fallait "parler aux machines." Informatiques toujours. Voilà ce que nous voulions. Nous voulions parler aux machines. Qui devaient nous comprendre.

Et puis sans presque nous en apercevoir, voilà que "les machines nous parlent." Enceintes connectées. Dispositifs vocaux. World Wide Voice

Et donc aujourd'hui le voici : "le parler des machines." Et  sans que nous écoutions. Et avec une compréhension de certaines de leurs associations … qui nous échappe. 

Cela est allé très vite. Quelques dizaines d'années à peine. Un demi-siècle tout au plus. 

Il fut un temps pas si lointain (début des années 1990) où il s'agissait de bâtir des systèmes techniques de requêtage (d'abord pour le minitel puis pour les moteurs de recherche) capables de "comprendre" le langage naturel plutôt que de simples combinaisons de mots-clés. Désormais la question du langage s'est déplacée. Indépendamment des systèmes techniques les mettant en oeuvre ainsi que des contextes d'usage et d'application, des réseaux de neurones artificiels modélisent des effets de sens structurants d'une représentation du langage naturel, et avec lui l'ensemble de ses glissements possibles, les plus féconds, les plus directement opérants, mais également les plus étranges, et parfois les plus dangereux. 

Nous parlons aux systèmes techniques. Nous nous adressons à eux en langage naturel. L'évolution (entre autres) de nos requêtes Google en témoigne ainsi que la systématisation des interfaces vocales. Mais les systèmes techniques ont un double langage qui est celui de leur code et celui de la manipulation symbolique de la langue dans les modélisations de l'apprentissage construit sur un couplage entre d'immenses jeux de données (data sets) et des règles mathématiques plus ou moins supervisées. Le langage, la langue est d'ailleurs fondamentalement un code et il n'est à ce titre ni étonnant ni illégitime de la voir ainsi aujourd'hui "encodée". Il est en revanche troublant de voir qu'il est des pans entiers de la fabrique du langage et de ses signifiants qui échappe à notre compréhension fine. 

Jusqu'à présent, ce qui dans la langue relevait de l'ordre de la manipulation symbolique des opérations interprétatives intentionnelles restait inaccessible au code. Dans certains contextes, cela ne l'est plus. Et c'est cela qui interroge aujourd'hui. Qui devrait en tout cas nous interroger. Car cela concerne aujourd'hui des pans entiers des sciences computationnelles et du déploiement de l'intelligence artificielle qui ne sont pas des technologies in vitro.

Si l'on imaginait une approche freudienne de la linguistique de corpus et autres réseaux de neurones à son service, il faudrait alors bâtir une théorie du bug semblable à celle du lapsus : après le lapsus linguae et le lapsus calami, il y aurait un lapsus silico, le bug comme "pensée dissimulée" et émergence de désirs ou à tout le moins de potentialités de programmation. Une naturalisation de ces stochastiques associatives, de ces heurts interprétatifs. 

Car comme le rappelait Gérard Berry dans une conférence (propos reformulés par mes soins) :

"quand on "programme", on décide d'une liste d'instructions à effectuer mais il est impossible de tester toutes les itérations de cette liste d'instructions (c'est même un peu pour ça qu'on programme et qu'on s'appuie sur les capacités de calcul dont dispose la machine et dont, par définition, nous ne disposons pas). Dès lors l'algorithme va tester toutes les combinaisons et toutes les itérations possibles, parmi lesquelles se trouvent presque nécessairement certains "bugs". Le "bug" est donc en quelque sorte "naturel", presque impossible à éradiquer."

Les perroquets stochastiques.

Timnit Gebru est cette chercheuse qui vient de se faire licencier par Google parce qu'elle cherchait trop bien les biais racistes dans leurs propres algos. Et l'article qu'elle cosigne avec 3 consoeurs pose une question essentielle à propos de l'expansion quasi-infinie des jeux de données et des modélisations du langage (et des erreurs ou des fautes …) qu'ils permettent : "How big is to big ?"

"The past 3 years of work in NLP have been characterized by the development and deployment of ever larger language models, especially for English. BERT, its variants, GPT-2/3, and others, most recently Switch-C, have pushed the boundaries of the possible both through architectural innovations and through sheer size. Using these pretrained models and the methodology of fine-tuning them for specific tasks, researchers have extended the state of the art on a wide array of tasks as measured by leaderboards on specific benchmarks for English. In this paper, we take a step back and ask: How big is too big ? What are the possible risks associated with this technology and what paths are available for mitigating those risks ?"

Traduction (via le formidable DeepL lui-même issu des technologies d'ingénierie linguistique et de traduction automatique) : "Les trois dernières années de travail en TAL ont été caractérisées par le développement et le déploiement de modèles de langage de plus en plus grands, en particulier pour l'anglais. BERT**, ses variantes, GPT-2/3**, et d'autres, plus récemment Switch-C, ont repoussé les limites du possible à la fois par des innovations architecturales et par l'immensité de leur taille. À l'aide de ces modèles pré-entraînés et de la méthodologie consistant à les affiner pour des tâches spécifiques, les chercheurs ont étendu l'état de l'art à un large éventail de tâches, comme le montrent les classements sur des repères spécifiques pour l'anglais. Dans cet article, nous prenons du recul et posons la question suivante : jusqu'où peut-on aller ? Quels sont les risques possibles associés à cette technologie et quelles sont les voies disponibles pour atténuer ces risques ?

[** BERT (acronyme de Bidirectional Encoder Representations from Transformers) est l'algorithme déployé depuis 2 ans (2019) par Google pour – notamment – mieux comprendre et interpréter les requêtes complexes et leur contexte. GPT-2/3 est un logiciel de traitement automatique du langage, ou plus précisément : "un modèle de traitement automatique du langage naturel, basé sur des méthodes de Machine Learning d’apprentissage non supervisé".]

Emily M. Bender, Angelina McMillan-Major, Shmargaret Shmitchell et Timnit Gebru mettent en avant 3 éléments de réponse

"weighing the environmental and financial costs first, investing resources into curating and carefully documenting datasets rather than ingesting everything on the web, carrying out pre-development exercises evaluating how the planned approach fits into research and development goals and supports stakeholder values, and encouraging research directions beyond ever larger language models"

Traduction (je souligne) : "évaluer d'abord les coûts environnementaux et financiers, investir des ressources dans la conservation et la documentation minutieuse des ensembles de données plutôt que d'ingérer tout ce qui se trouve sur le web, effectuer des exercices de pré-développement pour évaluer comment l'approche prévue s'inscrit dans les objectifs de recherche et de développement et soutient les valeurs des parties prenantes, et encourager les directions de recherche au-delà des modèles linguistiques toujours plus grands."

Faute de s'engager dans ces directions vertueuses, le danger est que nous devenions autant de "perroquets stochastiques" à force de mal manipuler des modélisations de la langue trop denses, massives et étendues. Et Timnit Gebru et ses co-autrices de pointer les "tendances" suivantes comme autant de risques : 

"the tendency of training data ingested from the Internet to encode hegemonic worldviews, the tendency of LMs (Language Models) to amplify biases and other issues in the training data, and the tendency of researchers and other people to mistake LM-driven performance gains for actual natural language understanding — present real-world risks of harm, as these technologies are deployed. After exploring some reasons why humans mistake LM output for meaningful text, we turn to the risks and harms from deploying such a model at scale. We find that the mix of human biases and seemingly coherent language heightens the potential for automation bias, deliberate misuse, and amplification of a hegemonic worldview. We focus primarily on cases where LMs are used in generating text, but we will also touch on risks that arise when LMs or word embeddings derived from them are components of systems for classification, query expansion, or other tasks, or when users can query LMs for information memorized from their training data."

La tendance des données d'entraînement ingérées depuis Internet à encoder des visions du monde hégémoniques, la tendance des LM (modèles de langage) à amplifier les biais et autres problèmes dans les données d'entraînement, et la tendance des chercheurs et d'autres personnes à confondre les gains de performance induits par les LM avec une réelle compréhension du langage naturel – [toutes ces tendances] présentent des risques réels de dommages, lorsque ces technologies sont déployées. (…) Nous constatons que le mélange de biais humains et de langage apparemment cohérent augmente le potentiel de biais d'automatisation, de mauvaise utilisation délibérée et d'amplification d'une vision hégémonique du monde. Nous nous concentrons principalement sur les cas où les LM sont utilisés pour générer du texte, mais nous aborderons également les risques qui surviennent lorsque les LM ou les mots intégrés qui en sont dérivés sont des composants de systèmes de classification, d'expansion de requêtes ou d'autres tâches, ou lorsque les utilisateurs peuvent interroger les LM pour obtenir des informations mémorisées à partir de leurs données d'entraînement."

En s'interrogeant pour savoir si les modèles linguistiques peuvent être "too big" [Spoiler Alert : oui], Timnit Gebru et ses co-autrices posent finalement la question de l'aboutissement du stade ultime du capitalisme linguistique (cf les travaux de Frédéric Kaplan), celui où la spéculation "sur la langue" finit par devenir une spéculation de la langue elle-même, une spéculation auto-référentielle et à l'écart de toute supervision extérieure. Un extractivisme mortifère.

Dans son "Atlas de l'IA" (lu par l'indispensable Hubert Guillaud), Kate Crawford rappelle que :

"l’IA n’est ni intelligente ni artificielle. Elle n’est qu’une industrie du calcul intensive et extractive qui sert les intérêts dominants. Une technologie de pouvoir qui « à la fois reflète et produit les relations sociales et la compréhension du monde. »"

Et plus loin (je souligne) : 

"Les modèles permettant de comprendre et de tenir les systèmes responsables ont longtemps reposé sur des idéaux de transparence… Le fait de pouvoir voir un système est parfois assimilé au fait de pouvoir savoir comment il fonctionne et comment le gouverner. Mais cette tendance a de sérieuses limites. Dans le cas de l’IA, il n’y a pas de boîte noire unique à ouvrir, pas de secret à révéler, mais une multitude de systèmes de pouvoir entrelacés. La transparence totale est donc un objectif impossible à atteindre. Nous parviendrons à mieux comprendre le rôle de l’IA dans le monde en nous intéressant à ses architectures matérielles, à ses environnements contextuels et aux politiques qui la façonnent, et en retraçant la manière dont ils sont reliés. »

De fait l'image de la boîte noire, issue des travaux de la cybernétique des débuts, s'est aujourd'hui étendue à la difficulté de décrire la nature des systèmes techniques, alors même que cette description reste pourtant possible mais à condition de déplacer de nouveau le langage à notre initiative. C'est à dire, comme l'écrit Kate Crawford, en posant des mots sur les systèmes de pouvoir entrelacés et la manière dont ils sont reliés ; les technologies de l'IA n'étant que des activateurs et des révélateurs temporaires mais excessivement puissants de ces systèmes de pouvoir. 

Outre l'ouvrage éponyme de Franck Pasquale, la "Black Box Society" décrite par de nombreux travaux, à l'heure de l'extractivisme intensif tournant sur des jeux de données dimensionnés à l'excès, n'est pas tant une société des boîtes noires techniques qu'une boîte noire de jeux de pouvoirs masqués ou rendus difficiles à observer grâce à des objets techniques plus réfractants que réfléchissants. Et c'est l'histoire de cette société et de ses jeux de pouvoirs qu'il s'agit d'ouvrir et de documenter, au moins autant que celle des systèmes techniques que l'on fait le choix de venir y greffer. Pour prendre un exemple désormais connu grâce aux travaux – entre autres – d'Antonio Casilli, il est vain de réfléchir pendant des années sur les subtils mécanismes d'entraînement algorithmique supervisés oeuvrant à bâtir de gigantesques jeux de données si l'on ne prend pas le temps nécessaire pour inclure à cette réflexion la dimension sociologique des travailleurs du clic constituant la force de travail incontournable pour bâtir ces cathédrales de datas. Ainsi pour ImageNet, les 14 millions d’images qui servent de support aux algorithmes d'apprentissage des réseaux de neurones ont d'abord été manuellement classées en plus de 20 000 catégories par de simples "travailleurs du clic". 

Le retour de l'antilope avec une gueule de pie.

A l'échelle de la "manipulation" de ces jeux de données toujours plus gigantesques, il est des erreurs (d'interprétation ou d'étiquetage) plus graves et déterminantes que d'autres. Ainsi, ImageNet, l'un des jeux de données les plus utilisé en IA (14 millions d'images labellisées) contient, c'est démontré, nombre de biais racistes et sexistes, ainsi que des photos obtenues sans le consentement des personnes

Le problème est que ces (trop) grands ensembles de jeux de données constituent les fondations de l'intelligence artificielle et que le fait qu'ils contiennent autant d'erreurs a des effets sur un ensemble de technologies et d'usages liés, des voitures autonomes jusqu'aux algorithmes utilisés pour aider ou informer les décisions médicales ou de justice. 

Un article récent de la Technology Review montrait que dans ce même ImageNet on pouvait, parmi d'autres, trouver une photo d'antilope "étiquetée" comme étant une pie. 

Capture d’écran 2021-04-05 à 22.36.57

L'exemple de l'antilope rappellera des souvenirs, peut-être pas aux chercheurs en IA, mais à toutes celles et ceux en sciences de l'information. C'est en effet l'exemple utilisé par Suzanne Briet dans son "célèbre" ouvrage "Qu'est-ce que la documentation." A son propos elle écrit :

"l'antilope qui court dans les plaines d'Afrique ne peut être considérée comme un document. Mais si elle est capturée et devient un objet d'étude (via ses diverses "documentations"), on la considère alors comme un document. Elle devient une preuve physique."

Le problème, pour le dire vite, est donc que nous entraînons aujourd'hui des systèmes réputés "intelligents" ou "experts" sur des jeux de données dans lesquels une antilope est décrite comme une pie. 

Il s'agit d'un des effets de la "redocumentarisation" qu'opère le numérique, à ceci près qu'ici, une nouvelle fois, c'est la question même du langage qui se déplace, qui opère la capacité de la preuve dans une symbolique associative aussi autonome qu'erronée. Une heuristique invisible dans laquelle une pie devient la preuve physique d'une antilope ; et qui est supposée permettre à d'autres systèmes, d'autres réseaux, d'autres dispositifs, de reconnaître des antilopes … autant que des pies.

De l'image de la pomme sur laquelle on colle un post-it où est écrit "iPad", à celle de l'antilope que l'on "identifie" comme une pie, de l'attaque typographique au biais ou à l'erreur de labellisation, c'est tout un monde qui s'ouvre, comme s'ouvrait "l'amande de l'absence dans la parole" dans le poème d'Yves Bonnefoy.

A moins qu'il ne s'agisse d'une autre clé des songes, de Magritte, où une bougie est un plafond, une chaussure une lune, un oeuf un acacia, un chapeau la neige, un verre l'orage et un marteau le désert. 

Clef_des_songes

 

On rappellera pour conclure ce qui devînt, au gré des vents médiatiques, une citation apocryphe de Camus, l'original étant la suivante : "la critique du langage ne peut éluder ce fait que nos paroles nous engagent et que nous devons leur être fidèles. Mal nommer un objet, c'est ajouter au malheur de ce monde.

Apostille.

Vannevar Bush avait le premier anticipé la dimension déterminante du fonctionnement associatif de l'esprit humain dans une visée et une logique instrumentale tournée vers l'amélioration des machines. Je vous en ai déjà parlé plus haut dans cet article.

De manière assez similaire, c'est en 1958 et dans une revue de psychologie (Psychological Review), qu'est publié ce que l'on considère aujourd'hui comme l'article princeps des réseaux de neurones : "The Perceptron : A Probabilistic Model for Information Storage and Organization in the Brain." Son auteur, Franck Rosenblatt, se pose les mêmes questions que Vannevar Bush quelques années avant lui. Là où Bush récusait le fonctionnement hiérarchique des systèmes et langages documentaires comme le plus capable d'organiser la connaissance, Rosenblatt récuse la capacité du calcul Booléen (opérateurs logiques Et, OU, SAUF) à représenter les opérations de l'intelligence humaine. 

Capture d’écran 2021-04-20 à 15.59.42

Le "perceptron" de Rosenblatt, cet embryon d'ordinateur électronique supposé apprendre en faisant, c'est un peu le MeMex de Bush. Même ambition démesurée et irénique, mais même capacité à modéliser un futur proche et à poser les bases de ce qui deviendra, pour le premier, le champ de l'intelligence artificielle et des réseaux de neurones, et pour le second, celles du web et des liens hypertexte. 

Chose a priori assez étonnante, l'article de Rosenblatt cite énormément Friedrich Hayek, théoricien acharné d'un libéralisme radical, pour lequel il obtiendra d'ailleurs le Nobel d'économie en 1974. Qu'est-ce qu'un psychologue donnant naissance aux réseaux de neurones informatiques en tentant de comprendre le fonctionnement de l'esprit humain et un économiste ultra-libéral peuvent avoir de commun ? Où leurs travaux respectifs se rencontrent-ils et de quelles manières s'influencent-ils ? C'est là le coeur de l'ouvrage de Pablo Jensen, magnifiquement titré "Deep Earnings", actuellement en pré-commande chez un remarquable éditeur dans une non-moins remarquable collection 😉

En attendant de le recevoir et de le dévorer pour connaître la réponse, laissez-moi poser mon hypothèse : la dérégulation des modèles de langage en partie liée au capitalisme cognitif, l'extractivisme forcené nécessaire pour "faire tourner" et exploiter ces immenses jeux de données à plein rendement ainsi d'ailleurs qu'une économie de marché où "le marché" ne vaut que par sa capacité à sur-solliciter et à sur-mobiliser des capacités opératoires de calcul des machines, font qu'au titre de la "multitude de systèmes de pouvoirs entrelacés" qu'évoque Kate Crawford, le développement des réseaux de neurones dans leur forme actuelle préfigurée par Rosenblatt sert au mieux les intérêts d'un libéralisme extractiviste tel qu'envisagé par sa frange la plus radicale (dont Hayek fut le héraut). 

Notre travail de chercheur est de faire en sorte que la dimension associative l'emporte sur la dimension spéculative. De faire que la capacité associative ne soit pas corrélée à son attrait spéculatif. Que la capacité de créer des liens ne soit pas indexée sur celle de créer des biens, fussent-ils communs. Ce qui vaut pour la langue, pour l'économie, pour la société, et finalement pour l'époque. Notre époque.  

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut