Et maintenant elles (se) parlent. Plongée dans le bestiaire des #bots

J'ai relu 47 fois cet article et j'ai été 47 fois fasciné. L'histoire est pourtant aussi simple que prévisible. C'est l'histoire de 3 assistants personnels vocaux (pour l'instant assez improprement baptisées "intelligences artificielles"), Google Now, Siri de chez Apple et Alexa de chez Amazon.

Une voix demande :

"Ask Alexa how to use Siri"

Le boîtier Amazon Echo répond :

"Alexa, ask Google how to enable Hey Siri"

Alexa répond alors à l'adresse de Google Now :

"OK Google, How Do I enable Hey Siri ?"

Et Google Now répond en lisant les instructions (trouvées sur le web), et lit à la fin l'instruction vocale qui permet de déclencher Siri. La vidéo qui illustre l'article se termine sur l'allumage de Siri sur un autre smartphone puisqu'il (le smartphone) a entendu l'instruction "Hey Siri" lancée par Google Now, instruction à laquelle la douce voix de Siri répond :

"Yes ?"

Voilà. Bon vous je sais pas mais moi ce triolisme d'assistants personnels vocaux me laisse … sans voix. Car cette expérience somme toute très basique pose plusieurs questions.

D'abord celui de l'interopérabilité. Il est en effet assez probable que d'ici quelques années la plupart des foyers soient équipés de ces 3 assistants personnels qui n'entrent pas, pour l'instant, frontalement en concurrence. Siri bénéficie de l'effet de marque Apple et des smartphones équipés, elle est surtout utilisée pour des fonctions d'agenda ou de logistique ; Google Now lui (ou elle) est d'abord utilisé comme interface vocale pour interroger le moteur Google ; et Amazon Echo (et Alexa) se positionne davantage sur le coeur de métier d'Amazon (lancer des playlist, faire ses courses, etc.) même s'il semble à ce jour l'assistant personnel le plus "multifonction" dans la manière dont il permet de décliner différents usages à l'échelle du foyer. Bref pas de concurrence frontale mais, cette vidéo le démontre, la nécessité pour ces acteurs, ou à défaut pour les assistants personnels qu'ils supportent, "d'apprendre à se parler".

La deuxième question soulevée par cette démo est davantage d'ordre symbolique : elle interroge notre rapport à la technologie dans la mesure ou des artefacts technologiques sont, au sens littéral, capables d'entrer en dialogue. Il ne s'agit plus, comme c'était le cas jusqu'ici, d'apparier tel ou tel composant avec tel autre, il ne s'agit plus d'autoriser telle ou telle application ou fonction au sein d'un écosystème tiers, mais il s'agit de soudainement se retrouver en position d'observateur face à des interactions vocales entre des dispositifs nécessitant – pour l'instant – un amorçage "humain" sous la forme d'une instruction initiale. Mais une fois cette instruction donnée, "l'humain" sort de la boucle. Difficile dès lors d'imaginer 2 choses : primo que se passera-t-il lorsque cette instruction humaine initiale, lorsque cet amorçage ne sera plus nécessaire ou deviendra à son tour la plupart du temps automatisé ou sous-entendu ou implicite comme l'essentiel de nos requêtes, de nos parcours et de nos interactions l'est par ailleurs devenu dès aujourd'hui dans un environnement "non-vocal" ? Et deuxio, jusqu'à quel niveau de coopération dans le dialogue ces "assistants personnels" sont-ils capables d'aller ?

J'utilise souvent avec mes étudiants la métaphore (empruntée à Michel Serres) de notre position dans l'habitacle d'une voiture pour comprendre notre rapport à la technologie : en gros, soit nous sommes assis à la place du conducteur et nous gardons le contrôle (= nous avons accès aux dispositifs de contrôle et nous décidons quand et comment les activer ou les désactiver), soit nous sommes assis à la place du passager et, comme son nom l'indique, nous n'avons alors d'autre choix que celui de nous laisser conduire, de nous laisser porter par des choix que nous n'effectuons plus. Après visionnage de cette expérience j'ai un peu l'impression qu'on est carrément passé à l'arrière dans le siège enfant, voire limite enfermés dans le coffre, ou que nous sommes à deux doigts de courir à côté de la voiture …

OK Google, Where's Sarah Connor ?

Dans la temporalité du discours médiatique autant que dans l'imaginaire collectif (dans la mesure ou l'un contribue à façonner l'autre en retour) ces questions d'interfaces vocales et d'assistants personnels se superposent souvent avec les questions liées au Deep Learning et à "l'intelligence artificielle", le film "Her" de Spike Jonze constituant en la matière une absolue et incontournable référence. D'où un inévitable (et déjà ancien) fantasme de machines assassines ou de robots tueurs, qui fait que même si nous sommes loin d'un Armageddon à la Terminator, la lecture du titre de cet article, "Comment le MIT a entraîné une intelligence artificielle a détecter les cyber-attaques" ne nous donne pas très envie de lire l'article dont le titre sera "Comment ISIS a entraîné une intelligence artificielle à déclencher une cyber-attaque".

De fait, ces interfaces vocales sont et seront de plus en plus capables "d'apprentissage". Un apprentissage qui sera pour partie lié à des progrès informatiques (Deep Learning donc) mais également à une plus grande perméabilité au contexte et à un systématisme (marketé) des usages et des infos (ou instructions) que nous serons en permanence en train de leur soumettre, constituant de fait une forme d'interaction capable de donner l'illusion d'une forme primaire "d'intelligence sociale" ou tout au moins de compréhension ou de prise en compte du contexte**.

** même si les travaux sur la "contextualisation" sont nombreux et complexes mais bon globalement quand même ça avance plutôt très vite.

Nouveau métier : façonneur de personnalité pour intelligences artificielles.

Or juste après avoir découvert l'article du Guardian sur cet inédit triolisme vocal (et l'avoir relu 47 fois donc) je suis tombé sur un autre article à ranger dans la catégorie #FuckingFascinated, du Washington Post cette fois, titré "The next hob job in Silicon Valley is for Poets" et qui est la suite logique du premier. L'article propose un focus sur un nouveau métier, à destination de profils littéraires ou artistiques, et qui consiste en gros à "fabriquer la personnalité" ou à "donner une personnalité" à des programmes informatiques (intelligences artificielles donc, ou assistants intelligents, ou robots d'aide à la personne, etc.) :

"As tech behemoths and a wave of start-ups double down on virtual assistants that can chat with human beings, writing for AI is becoming a hot job in Silicon Valley. Behind Apple’s Siri, Amazon’s Alexa and Microsoft’s Cortana are not just software engineers. Increasingly, there are poets, comedians, fiction writers, and other artistic types charged with engineering the personalities for a fast-growing crop of artificial intelligence tools."

Si ce genre de métier est aussi fascinant que nécessaire c'est pour éviter que des "assistants intelligents" ne partent complètement en vrille comme le fit récemment le bébé de Microsoft en récoltant son point Godwin : le boulot de ces "écrivains / scénaristes pour IA" est d'écrire l'histoire contextuelle dans le cadre de laquelle l'automate ou l'assistant sera capable d'interagir. A la manière d'un scénario de film, de roman, tous les possibles sont donc ouverts, et à la manière d'un scénario de jeu vidéo il faut en écrire et en autoriser certains plutôt que d'autres.

Le marché de la personnalité.

Après la personnalisation, la personnification. A côté de ce marché pour quelques assistants qui sortiront un peu du lot, ne serait-ce qu'en raison de la notoriété des marques qui les portent (donc les "Big Three", Google, Apple et Amazon), se trouve aussi l'immense marché de ce que nombre d'analystes décrivent comme la prochaine "révolution" du web (qui en a connu d'autres …), c'est à dire l'émergence des "chatbots" représentant une marque, un produit, un service, et avec lequel vous serez en permanence placés en situation de dialogue. Là aussi il faudra (il le faut déjà) à ces chatbots des "personnalités" pour leur permettre de savoir s'ils peuvent ou non faire de l'humour (par exemple), pour savoir si, comme le souligne l'article du Washington Post, "ils doivent être purement fonctionnels ou aspirer à se connecter sur le registre émotionnel avec l'utilisateur".

Et comme l'essentiel de ces Chatbots auront une visée principalement marketing, on connaît déjà la réponse à la question …

Dès lors va se reposer mais à une échelle inédite le phénomène de l'apparence des robots connu et théorisé sous le nom d'uncanny valley (vallée de l'étrange) mais en se déclinant à une échelle en apparence plus "douce", celle de la vraisemblance vocale des processus de dialogue et de socialisation. Soyons honnêtes, nous avons tous, lors de nos premières fréquentations de ces assistants vocaux, franchi les limites de la bienséance : untel aura copieusement insulté Siri, un autre aura préféré poser d'insolubles énigmes philosophiques à Google Now, etc. Rien là-dedans qui ne nous soit apparu "choquant", précisément car ces voix sont entièrement dénuées de personnalité. Pourtant lorsque l'on voit un humain "bousculer" de manière équivalente un robot vaguement humanoïde un certain nombre d'entre nous sont, cette fois, choqués (souvenez-vous de cette vidéo virale qui eut pour conséquence de décider Google à se séparer de Boston Dynamics). On peut dès lors poser la question de savoir ce que deviendront nos rapports avec ces assistants personnels vocaux à partir du moment où ils auront été capables d'entrer avec nous dans une relation qui pour être automatique n'en sera pas moins empathique.

De là à ce que certains nous proposent de franchir la barrière du droit en établissant un "droit des robots" il n'y a qu'un pas qu'il serait très dommage de franchir comme le rappelle très bien Serge Tisseron dans l'article "Ne donnons jamais aucun droit à nos robots." Un texte vraiment important dont je ne vous livre quelques extraits que pour mieux vous inviter à aller le lire :

"Il y aurait un grand danger à créer parmi les objets une distinction qui passerait entre des objets auxquels seraient reconnus des droits, à commencer par celui de ne pas être maltraités, et d'autres auxquels n'en serait reconnu aucun, comme un grille-pain ou un réfrigérateur. Tout d'abord, quels critères prendrions-nous en compte pour décider de cette ligne de démarcation? La marche? La parole? La capacité d'un objet d'identifier nos états d'âme et de nous répondre en simulant des émotions adaptées ? (…)

Ce serait aussi créer avec les objets une situation dont nous constatons tous les jours l'absurdité pour les animaux. Il y a d'un côté ceux qu'on appelle "de compagnie", auxquels leurs propriétaires offrent des vêtements, des jouets, des biftecks et des vacances. Et il y a de l'autre ceux qu'on appelle "de boucherie", auxquels n'est reconnu aucun droit, même pas celui de mourir sans souffrir. (…)

Car même lorsque les robots seront capables de simuler des émotions semblables à celles des humains, de s'organiser en société, de se perfectionner, voire de se reproduire, ils resteront en même temps des machines qu'il faudra savoir débrancher le moment venu. (…)

Car le problème essentiel que va nous poser rapidement le développement des robots n'est pas celui des droits des robots, mais bien celui des droits des humains face à eux."

Les bestiaire des Bots.

Si toutes ces questions (et probablement bien d'autres) se posent c'est parce que nous faisons face aujourd'hui à un nouveau bestiaire technologique inédit. Parce que ce bestiaire est lui-même le fruit de plusieurs hybridations technologiques, sociétales et psychologiques. Et parce qu'il mobilise des sens (vue, ouïe, toucher), des situations (interaction, dialogue), et des artefacts (objets, programmes, robots) tous différents et tous dissemblables. Et enfin parce qu'il trouve des incarnations dans des champs là encore très différents, de la médecine (robots chirurgiens ou de service à la personne) au journalisme (bots journalistes ou correcteurs) en passant par la recherche d'information (crawlers) ou la finance (High-Frequency Trading) et tout un ensemble d'interactions sociales plus ou moins triviales (réserver un taxi, une chambre d'hôtel, souhaiter l'anniversaire d'un proche, mais aussi chercher un emploi à notre place, etc …).

S'il devait donc y avoir une grande question posée en préalable de toutes les autres, ce pourrait être celle que pose Danah Boyd dans son dernier article : "What is the Value of a Bot ?"

Quelle est la valeur d'un "bot" ? La réponse qu'elle y apporte est claire et tient en une formule :

"Identifying the value of these different kinds of bots requires a theory of power."

Identifier la valeur de ces bots nécessite une théorie du pouvoir. Et de poursuivre :

"We may want to think that search engines are good, while fake-like bots are bad, but both enable the designer of the bots to profit economically and socially."

Danah Boyd rappelle ensuite que les 1ers "bots" auxquels nous fûmes massivement confrontés furent les "crawlers" des moteurs de recherche. Et qu'ils étaient vus comme une source de trafic (de visite) illégitime et non-désirée. Notre réaction fut donc de mettre en place une sorte de règle de politesse (Danay Boyd emploie le terme de "politeness"), ou plus exactement de les contraindre à respecter une norme (sociale ?) de politesse avec l'invention et la mise en place du "Robot Exclusion Protocol", le fameux fichier "robots.txt" placé à la racine du serveur hébergeant notre site et qui permet à la fois d'identifier les bots le visitant (puisqu'ils ont un nom et une "signature") et de leur autoriser (ou de leur interdire) la visite et l'indexation de tout ou partie du site. C'est donc bien d'une forme de "politesse" qu'il s'agit, c'est à dire d'une norme au moins autant sociale que technique.

Comme Serge Tisseron mais sur un autre registre, le texte de Danah Boyd démontre que nous n'avons pas besoin de "loi" ou de "droit" (ce serait même une erreur que d'en créer) mais plutôt de normes sociales de régulation.

"Bots are first and foremost technical systems, but they are derived from social values and exert power into social systems. How can we create the right social norms to regulate them ? What do the norms look like in a highly networked ecosystem where many pieces of the pie are often glued together by digital duct tape ?"

Des questions … ouvertes. Qui renvoient à une autre question qui me semble aussi fondamentale : pour être capables collectivement, pour être "en situation" de créer ces normes sociales de régulation, il faut qu'un nombre significatif des interventions "automatisées" de ces différents agents soient vécues comme une intrusion et non comme un service, voire qu'elles aient un impact économique qui puisse être ressenti directement comme une menace ou une concurrence déloyale (c'est d'ailleurs tout l'intérêt de l'exemple choisi par Danah Boyd sur les 1ers crawlers et le fichier robots.txt). Pour l'instant il ne me semble pas que ce soit le cas. L'essentiel de ce bestiaire, peut-être paradoxalement parce qu'il est encore éminemment faillible et perfectible, est en effet relativement bien intégré. A des niveaux différents bien sûr selon que l'on se place dans le domaine de la médecine, de l'aide à la personne, du journalisme, etc., mais relativement bien intégré tout de même.

Pour être en situation de créer des normes sociales de régulation il faut ensuite que nous ressentions cet effet de décrochage, cette "vallée de l'étrange" qui nous permet ou nous oblige à interroger les raisons de ce ressenti et à établir des normes ou à ajuster nos comportements pour le réguler. Or là encore comme je le rappelais plus haut, l'essentiel des interventions de ces bots se font de manière transparente, à une échelle presqu'infra-cognitive, et les interfaces vocales ne mobilisent pas du tout le même rapport à la vallée de l'étrange que ne peuvent le faire des robots humanoïdes.

La question que pose Danah Boyd en conclusion de son article, "Comment pouvons-nous créer les normes sociales adaptées pour réguler les interventions de ces bots" doit donc s'accompagner d'un corollaire : et comment pouvons-nous faire en sorte que ce soient pas les sociétés ou les plateformes hôtes de ces bots qui nous imposent leurs propres normes de régulation sociale ? En d'autres termes, leurs CGU.

Qu'ils soient ou non remplis d'électronique, nous étions jusqu'ici familiers des "modes d'emploi" des différents objets manufacturés nous entourant, il va nous falloir apprendre à lire et à rédiger collectivement leurs conditions générales d'utilisation … et de socialisation.

Et maintenant elles (se) parlent. Plongée dans le bestiaire des #bots

OK Google, Where's Sarah Connor ?

Nouveau métier : façonneur de personnalité pour intelligences artificielles.

Le marché de la personnalité.

Les bestiaire des Bots.

Olivier Ertzscheid

Laisser un commentaire Annuler la réponse

OK Google, Where's Sarah Connor ?

Nouveau métier : façonneur de personnalité pour intelligences artificielles.

Le marché de la personnalité.

Les bestiaire des Bots.

Olivier Ertzscheid

Laisser un commentaire Annuler la réponse

Articles similaires