En moins de 24h cette semaine, deux des acteurs majeurs de nos environnements numériques, Alphabet (Google) et OpenAI (ChatGPT) ont tenu leurs conférences avec un certain nombre d’annonces sur lesquelles je reviens dans cet article.
Omni en orbite.
Nom de code : “GPT-4o” Tel est le nom de la nouvelle version de ChatGPT. “O” pour “omnimodel”, traduisez un modèle “qui sait tout faire”, ou la promesse d’un artefact génératif multimodal en entrée, c’est à dire capable d’interagir autant par le texte que par la voix ou même par la vision. Et capable également de multimodalité en sortie, c’est à dire de générer des images ou de la vidéo à partir de texte, mais aussi du texte à partir d’images, etc.
L’histoire commence par une histoire d’absence de friction. Ce sont les premiers mots de la conférence : réduire toute forme de friction. La friction, si vous êtes lecteur et lectrice de ce blog, cela doit vous rappeler quelque chose. Réduire la friction est l’alpha et l’oméga du modus operandi des grandes entreprises du numérique. Je vous en parlais il y a 13 ans déjà.
Autre annonce de la conférence OpenAI, GPT-4 Omni aura une version “desktop”, on pourra l’installer sur son ordinateur. Amusant de se souvenir qu’il y a 18 ans, en 2006, c’est Google alors âgé de 8 ans et déjà au sommet de sa main mise sur le monde de la recherche en ligne qui lançait son Google Desktop. Avec là aussi officiellement l’idée d’une disponibilité totale et au plus près de nos usages, sans friction. Et officieusement le projet de réunir en un même espace indexable l’ensemble de nos documents privés, personnels et intimes à une époque où l’on ne parlait pas encore du “Cloud” et où cela n’était pas devenu notre modalité de stockage première. Avec sa version “Desktop”, GPT-4 Omni cherche avant tout à s’apparier avec l’essentiel de nos habitudes informationnelles : il se cherche une place d’outil bureautique (les parts de Microsoft dans le capital d’OpenAI ne sont bien sûr pas étrangères à cette stratégie). Exactement comme … Google l’avait fait il y a 18 ans, la version Desktop de ChatGPT 4 Omni permettra de capter par défaut (on le suppose en tout cas) un ensemble de paramètres de nos panoplies bureautiques habituelles pour toujours davantage “personnaliser” l’expérience utilisateur, car l’un ne va jamais dans l’autre : à chaque fois que ces entreprises annoncent réduire ou enlever de la friction, elles ambitionnent de créer de nouvelles dépendances au travers de nouvelles affordances.
La demo montre ensuite une interaction “vocale” avec GPT-4 Omni qui – j’ignore si cela est voulu ou si c’est moi qui projette – a la même voix que Scarlett Johansson dans Her de Spike Jonze (en un peu moins bien quand même [mise à jour] et ce n’est donc pas du tout du hasard [/mise à jour]). Et de lui faire raconter une histoire pour s’endormir en l’interrompant sans cesse pour obtenir différentes tonalités vocales (“more dramatic please“, “more robotic voice please“), puis de lui faire résoudre une équation simple (3x + 1 = 4), puis d’expliciter un bout de code informatique qu’on lui “montre”, puis de commenter un graphique qu’on lui “montre” encore (la version Desktop permet simplement de partager l’écran avec l’interface de ChatGPT mais quand on fait une demo dans le monde de la tech on dit qu’on a “une intelligence artificielle capable de voir“), puis de faire de la traduction simultanée entre 2 utilisateurs dont l’un ne parle qu’anglais et l’autre qu’italien, puis de faire de l’aide aux devoirs pour expliciter des règles mathématiques, et enfin d’interpréter les émotions d’un visage d’utilisateur qui se prend en riant et en selfie (Guess What : il interprète qu’il est content).
Dans d’autres démos postées en ligne notamment sur le compte Twitter d’OpenAI on peut observer, entre amusement et musement, GPT-4 Omni en train de “comprendre” que c’est un anniversaire dès lors qu’on lui montre un type derrière un gâteau sur lequel est posé une bougie, mais aussi répondre à la demande chanter un mashup de deux comptines, décrire un environnement à une personne aveugle, et rire à une blague de daron (“Dad Joke”).
Par-delà l’exercice un peu fastidieux de la démo (où tout est toujours nécessairement “Wow” et “Amazing”), par-delà les avancées réelles proposées par cette nouvelle version de ChatGPT en termes de multimodalité, par-delà également le doute raisonnable qui peut nous saisir en gardant en mémoire la longue histoire des démos “arrangées” depuis celle du Turc mécanique jusqu’à celle de Gemini de Google, ce qui frappe s’il faut chercher une ligne directrice ou stratégique à l’évolution de ces technologies, c’est le rôle toujours plus central de la voix comme interface. Ce que j’appelle et chronique depuis looooooooongtemps sous le terme de “World Wide Voice”.
Tchat Pantin.
L’évolution des moteurs de recherche, l’arrivée des réseaux et médias sociaux, puis celle de l’intelligence artificielle, le tout dans un contexte où le téléphone portable est devenu notre premier moyen de connexion mais aussi notre première extension “manu — facturée” aboutit à l’explosion des interfaces utilisant la voix.
La question de ces “conversations” vocales, de ces dialogues artificiels rythmés de dialectes artefactuels (le code informatique qui les sous-tend et les rend possibles) est une question ample. Ample car de ChatGPT à Siri, Alexa, et aux autres, de Google à OpenAI en passant par Twitter, la conversation est devenue la modalisation principale de la circulation des contenus en ligne. J’entends par modalisation le fait que les effets conversationnels s’immiscent au coeur de l’ensemble des contenus qui deviennent, tous, discutables au double sens du terme, c’est à dire à la fois susceptibles d’être débattus mais également empreints de doutes (doutes ni toujours raisonnables ni toujours cartésiens).
Les deux questions centrales de ce que l’on nomme “économie de la connaissance” et où l’économie l’emporte largement sur la connaissance, ces deux questions sont celles de “l’autorité” (qui induit la confiance et qui est en concurrence frontale avec la notoriété, la popularité et la viralité) et celle de la “stabilité référentielle”, c’est à dire la capacité de savoir pendant combien de temps et dans quel cadre s’exprimera un régime de vérité permettant de considérer et d’asserter comme vraie, véridique ou à tout le moins vérifiable une information. A ce sujet, je n’ai de cesse de répéter et de répéter encore cet article d’Hervé Le Crosnier :
“La modification d’un document porteur de sens, de point de vue, d’expérience est problématique. Ce qui change dans le temps c’est la connaissance. Celle d’un environnement social et scientifique, celle d’un individu donné … Mais ce mouvement de la connaissance se construit à partir de référents stables que sont les documents publiés à un moment donné. Les peintres pratiquaient le “vernissage” des toiles afin de s’interdire toute retouche. Les imprimeurs apposaient “l’achevé d’imprimer”. Il convient d’élaborer de même un rite de publication sur le réseau afin que des points stables soient offerts à le lecture, à la critique, à la relecture … et parfois aussi à la réhabilitation.” Hervé Le Crosnier. “De l’(in)utilité de W3 : communication et information vont en bateau.” Présentation lors du congrès JRES’95, Chambéry, 22-24 Novembre 1995.
Depuis la fin du web 2.0 et de l’enthousiasme aussi roboratif que collaboratif qui avait permis de considérer que chacun pouvait apporter sa pierre à n’importe quel édifice de témoignage, de connaissance ou d’expérience, après cette époque où du blog le plus obscur jusqu’au journal à large tirage le plus en vue il était à chaque fois possible de commenter, lesdits espaces de commentaires avaient fini par se restreindre jusqu’à le plus souvent s’effacer devant la lourdeur des aspects de modération et l’expansion infinie des mauvaises pratiques allant du spam à l’injure publique.
La question de l’équilibre entre la masse de ce qui est dit et publié (c’est à dire fondamentalement “rendu public”) par quelques-uns autorisés sans pour autant qu’ils aient autorité, et la volumétrie de la glose afférente, a toujours été un sujet complexe à l’échelle du web en tant que média ; un équilibre qui ne s’est pleinement réalisé que dans le cadre de biotopes informationnels disposant à la fois de ressources humaines capables de faire appliquer des règles de modération parfaitement claires, explicites, auditables, et à la fois surtout exempts pour l’essentiel de toute forme de pression économique publicitaire (donc en gros des biotopes allant … de Wikipédia à Mediapart).
Pour le reste, la plupart des espaces de commentaire ont fermé, ou sont devenus des espaces “pleins” au sens ou le commentaire ne vient plus en complément d’une information ou d’une connaissance mais se suffit à lui-même en tant que tel (des forums quoi :-), ou alors se sont dissous dans cette nouvelle forme que l’on nomme aujourd’hui médias sociaux, lesquels reposent précisément sur la disproportion organique et algorithmiquement organisée entre, d’un côté, très peu d’éléments d’information et de connaissance qui n’agissent pour l’essentiel que comme autant d’appeaux pour générer, de l’autre côté, d’effarantes volumétries de commentaires et de réactions, et de commentaires et de réactions aux commentaires et aux réactions, et ainsi de suite ad libitum.
Dans une perspective de rééquilibrage essentiellement pensée pour le marché plutôt que pour la défense de formes d’intelligence collective, on a vu apparaître, sur Twitter / X notamment, des “notes de communauté” permettant d’ajouter du contexte (ou de la “vérification”) à un post et qui sont rendues visibles une fois qu’elles atteignent un certain volume de contributions. De fait, on trouve sur X autant d’usages vertueux de ces notes de communauté que de biais ou de détournement de leur logique pour alimenter des routines de désinformation. La raison est simple : ce n’est pas la fonction qui crée la communauté vertueuse (ou simplement respectueuse) mais c’est la communauté qui déverse dans la fonction toute sa nature sociologique, politique et idéologique.
Google de son côté vient d’annoncer l’intégration en phase de teste d’une fonction “Notes” qui permettra à l’identique des notes de communauté de X, de venir valider, vérifier ou contester les résultats présentés, “avec des preuves concrètes” (sic).
“Search Generative Experience” et moteur de production.
Le temps qui a précédé la conférence d’OpenAI a eu comme première supputation d’imaginer qu’ils allaient lancer un moteur de recherche pour venir concurrencer Google. De fait ce ne fut pas (encore) le cas. Mais de fait également, il existe un grand nombre de “recherches” pour lesquelles une “explication conversationnelle” apportera meilleure approche qu’une simple liste de résultats. De son côté, la conférence Google I/O où il annonce ses nouveautés avait lieu 24h plus tard et a donné une idée de leur incursion sur les platebandes GPTerriennes. C’est le lancement de la “Search Generative Experience” (sic) où en miroir, le moteur de recherche historique s’accommodera, pour partie et pour nombre de types de requêtage, d’une approche dans laquelle là aussi une explication conversationnelle remplacera une simple liste de résultats pour celui qui depuis longtemps déjà se positionne et se veut davantage un moteur de réponses qu’un outil de recherche.
Lancé en 1998, le moteur de recherche était devenu 15 ans plus tard, dans les années 2010-2015, un “moteur de réponses” capable d’afficher, là aussi pour un certain nombre de requêtes, directement les réponses au sein de son interface rendant inutile l’accès aux sites présentés comme autant de ressources secondaires et quasi superfétatoires. C’était, et c’est toujours, l’objectif “zéro clic“.
Du moteur de recherche au moteur de réponses dans les années 2010, Google devient aujourd’hui une sorte de moteur de production : il ne s’agit plus de donner accès à ce qui est produit et publié, mais de faire production documentaire complète à partir de ce qui est demandé.
Ainsi dans le cadre de la “Search Generative Experience”, et toujours pour un certain nombre de requêtes spécifiques (mais dont le spectre va, à mon avis, s’amplifier et à s’étendre), Google proposera une mise en page réalisée par son LLM maison baptisé Gemini, qui rendra compte, de manière “conversationnelle” et “résumée” de la réponse à la question posée. Là où les requêtes à dominante pronominale permettaient déjà de donner réponse plus que de pointer sur des liens (qui est … ? quel est … ?), c’est désormais ce que l’on pourrait qualifier de l’ensemble des requêtes adverbiales (quand ? comment ? pourquoi ?) qui vont prioritairement lancer la Search Generative Experience.
“Après un an de test aux États-Unis, Google étend à tous les utilisateurs américains la fonction « AI Overviews », qui résume la première page des résultats de son moteur de recherche avec l’intelligence artificielle.” Numérama.
Pour des descriptions plus détaillées des annonces Google on pourra notamment se reporter à l’article de Presse-Citron qui en offre un bon résumé, ou à l’article de The Verge, qui se conclut ainsi :
“For users, it could mean a completely new way to interact with the internet: less typing, fewer tabs, and a whole lot more chatting with a search engine.“
Conversation Engines. You’re talkin to me.
Mais plus j’observe attentivement les usages (et ça fait plus de 20 ans que je suis payé à le faire) et plus je constate la prégnance de cette ligne de fuite conversationnelle, jusqu’ici cyclique, mais qui pour la première fois semble pouvoir s’installer de manière durable et presqu’univoque. Un monde dans lequel la recherche, le “search” serait totalement écrasé d’un côté par la concurrence attentionnelle des avis et des “Notes” (jusqu’ici pas grand chose de nouveau me direz-vous) et de l’autre par ce qui finira par n’être plus vraiment un “search engine” mais une foule personnalisée et contextuelle de “conversation engines”, alimentés à grands coups de LLM et artefacts génératifs divers. Avec pour résultat probable un enfermement toujours plus ancré dans des “silos” de réalités interprétées plus que de faits objectivables et traçables.
Car l’ensemble de ces LLM et de ces technologies initialement linguistiques (venant du champ scientifique du TAL / TALN c’est à dire le Traitement Automatique des Langues / du Langage Naturel) ne sont rien sans les corpus et les bases de connaissances qui les alimentent, les nourrissent, sur lesquels on les entraîne ou on les “fine-tune”. Or ces corpus et ces bases de connaissances sont pour beaucoup issues du web et des médias d’actualité, qui après avoir été “vidés” de leurs contenus par des pratiques d’indexation de Google ou d’OpenAI peinent désormais à retrouver de la place et de la visibilité dans ces plateformes dès lors qu’elles en ont aspiré l’essentiel pour permettre à leurs LLM de tourner de manière autonome. Le “zéro clic” de Google ou les réponses “automatiques” (et par défaut non-sourcées) de ChatGPT sont certes tout à fait séduisantes et “sans friction” en termes d’interaction, mais elles constituent également une appropriation tout à fait injuste et disproportionnée au regard de celles et ceux dont les contenus, analyses et avis ont été aspirés pour les nourrir, parfois d’ailleurs en toute illégalité. D’autres comme Facebook et de manière presqu’encore plus cynique, après s’être gavés de contenus médias pour se tisser une image de média social d’information, invisibilisent désormais les médias qui les ont nourris.
La question est alors de savoir à qui nous parlons quand nous “discutons” en terre GPTerrienne ? À qui et avec qui nous échangeons quand Gemini nous “raconte” ou nous “explique” quelque chose. Je l’avais à l’époque déjà dit dans Libé en échangeant avec Lucie Rico : en discutant avec ChatGPT on discute avec l’humanité toute entière.
Less is more. More or Less …
Dans la lignée de l’emmerdification générale du web ou de la crise coprophagique de l’IA que Cory Doctorow théorise et documente, il y a une inflation colossale de moyens et de ressources (financières, minières, attentionnelles, calculatoires, marketing …) mobilisées pour “faire à notre place” (j’appelais cela “les technologies de l’à ta place“) qui ont l’effet pervers de nous installer dans des horizons de délégation permanente à la technique (pourquoi pas après tout) mais des horizons dont la disproportion entre les moyens mobilisés et les effets obtenus sont à tout le moins problématiques. Je m’explique. On comprend parfaitement qu’il faille mobiliser des immensités de ressources calculatoires (et donc énergétiques) pour – par exemple – être en capacité de déléguer à la technique la recherche de signes probabilistes de tumeur cancéreuse à des stades encore indétectables par imagerie médicale classique. On comprend moins, par contre, que cette même immensité de ressources soit mobilisée pour qu’un quelconque Chat Pantin soit capable de nous indiquer que nous sommes d’humeur joyeuse quand on lui montre notre tronche en mode smiley, ou qu’il puisse effectuer le résumé de texte d’une ou plusieurs pages web qu’il ne nous prendrait que quelques minutes à lire (et où nous pourrions accessoirement mieux former et forger notre opinion).
Pascal disait : je n’ai pas eu le temps de faire plus court (la citation exacte est “Je n’ai fait [cette lettre] plus longue que parce que je n’ai pas eu le loisir de la faire plus courte”). Ce qui frappe et questionne aujourd’hui, je le redis, c’est l’immensité des moyens technologiques mobilisés au service de toujours davantage de réductions (dont certains ad absurdum) : il s’agit de toujours davantage résumer, synthétiser, ramasser ; tout en prétendant faire toujours plus “pour nous” et le faire à notre place. Longtemps les technologies nous ont placé en situation de pilotage, avant de nous reléguer au rang de co-pilote, puis en nous laissant co-pilote mais en supprimant le pilote au profit d’une seule fonction de pilotage automatique, et nous voilà désormais simplement, inexorablement, irrévocablement … passagers. Passagers par ailleurs exposés à la permanence d’un contrôle identitaire, et passagers sans autre bagage que l’acceptation naïve d’imaginer que nous pourrions encore être maîtres du choix de notre destination.
Que déduire de tout cela ?
Que les choses avancent et que des voix se taisent.
Que des choses avancent parce que là où il y a encore quelques mois ChatGPT était – à raison – moqué pour ses capacités logiques dignes d’une poêle à frire pour certaines questions mathématiques, il est aujourd’hui vendu comme un assistant d’aide aux devoirs sur d’autres questions mathématiques et logiques.
Et que des voix se taisent. Car plus nous interagissons par la voix ou en “discutant” avec un moteur de recherche production ou avec un assistant GPTerrien, bref avec l’un de ces “Conversation Engines”, et plus ils opacifient, invisibilisent, oblitèrent les voix sans qui ils ne seraient rien.
Cet article vous a plu ? Intéressé ?
Alors restez à l’écoute, parce que mi-Juin si tout va bien, sortira mon nouveau livre chez C&F Éditions. Livre dans lequel il sera précisément question … de tout cela. Je compte donc sur vous pour vous précipiter sure l’achat et la commande ce chef d’oeuvre dès lors que je vous donnerai le top départ 😉
AI Invaders en approche …
Détail de traduction:
Plutôt que “emmerdification” du web, il serait plus simple et plus exact de dire “merdification” ?