Le ventriloque et les Deep Fakes : Hôtel du temps suspends ton vol (de visages)

France Télévision a récemment dévoilé le concept de la prochaine émission de Thierry Ardisson. Cela s'appellera "Hôtel du temps" et il s'agira d'interviewer des personnalités … décédées, à grand coups "d'intelligence artificielle" donc.

Pour le premier teaser de l'émission on croise Mitterand, Garbo, Gabin et Lady Di. Les cimetières sont infinis. De ce que j'en ai lu, il s'agira de "faire parler" les morts mais pas de les faire mentir. Pas tout de suite en tout cas. "On s'est basé uniquement sur des propos vraiment tenus" explique Ardisson. L'étape suivante consistera à leur faire prononcer des discours qu'ils n'ont jamais tenu. Et cette étape se produira nécessairement. Probablement pour la Saison 2 de cette émission si le concept fonctionne en termes d'audience. La technologie est prête. Comme tout le reste d'ailleurs. "Pour que le désespoir même se vende, il ne reste qu'à en trouver la formule" chantait Ferré. Là aussi tout est prêt.

Quelques jours avant l'annonce de France Télévisions, c'est un documentaire de Morgan Neville qui créait la polémique outre-manche. Titré "Roadrunner: A Film About Anthony Bourdain" et consacré au chef cuisinier Anthony Bourdain, le documentaire utilise des Deep Fakes pour le faire parler et lui faire prononcer des mots qu'il avait écrits mais qu'il n'avait jamais "prononcés". L'article du New Stateman parle d'un "champ de mine éthique" pour toute l'industrie cinématographique.

Placement de produits mortels.

A l'occasion de la sortie plusieurs fois repoussée du dernier opus de la série James Bond, on apprenait que ces délais étaient un ravage en terme de placement de produits pour les marques : en effet entre le moment du tournage et de la sortie en salle (prochaine et donc déjà au moins 2 fois repoussée), les montres, voitures, smartphones notamment n'étaient plus les "derniers modèles". Et leur dimension "promotionnelle" s'en trouvait donc fortement atténuée en termes de prescription. Certaines scènes seront donc "rééditées" pour remplacer lesdits produits obsolètes par une version plus actuelle. Imagine-t-on le général De Gaulle mis en examen et James Bond se servant d'un smartphone qui ne serait pas le dernier modèle ? Nope.

Avec les émissions ou les films qui font parler les morts, le cinéma et la télévision s'ouvrent certes un champ de mine éthique, mais le placement produit et le marketing s'ouvrent un champ commercial tout à fait inédit et quasiment infini. Pour prendre l'exemple de l'un des artistes présents dans la bande-annonce d'Hôtel du temps, est-on tout à fait sûr que Jean Gabin ait porté ce genre de blouson ?

"La dernière crise morale de l'internet." Vraiment ?

Il aura donc fallu moins de trois ans pour que la "dernière crise morale de l'internet" (qui comme toutes les crises morales de l'internet démarrera par des détournements pornographiques), moins de trois ans pour que "l'apocalypse du faux" ne trouve à s'incarner dans son premier Talk Show.

On parle des Deep Fakes depuis leurs rudiments en 2016 mais c'est réellement en 2018 avec les premières applications "grand public" que cette notion entre dans le champ du débat de société. Je vous en ai moi-même parlé au travers d'un certain nombre d'articles mais je rattache ces Deep Fakes à un mouvement plus profond que j'avais dès 2008 baptisé du nom de "technologies de l'artefact" décrites comme suit (bah quoi j'y peux rien si j'ai 10 ans d'avance 😉 :

"la seconde c'est le passage des artefacts technologiques (navigateurs et interfaces d'accès au sens large + programmes (algorithmes) et bases de données et d'index au sens large) aux technologies de l'artefact. Ces technologies de l'artefact sont celles qui rendent possible, pour l'amateur, la création de représentations volontairement altérées et artificielles de la réalité dans une recherche (une "mimesis") de la vraisemblance. Parmi ces technologies de l'artefact (…) on pourra citer en exemple les "Photoshop Naked Contest", les "Fake Vidéos" (comme celle de l'étoile noire volant au dessus de San Francisco), cette application permettant à tout le monde de vieillir instantanément une photo, les guerres d'édition et les tentatives de redocumentarisation déviantes sur Wikipedia. Ces technologies de l'artefact réclament d'urgence la construction d'une heuristique de la preuve, de la traçabilité de la preuve, une heuristique qui tienne compte de ces phénomènes, qui les explicite, et qui permette (c’est le plus délicat) de les "monitorer" non pas tant en temps réel mais bien a posteriori, c'est à dire dans l'optique d'une rétro-ingénierie documentaire."

J'ai pas de face.

Comme le rappelle fort justement cet article de Madmoizelle, l'émission de Thierry Ardisson n'utilise d'ailleurs pas stricto sensu des Deep Fakes mais plutôt des techniques de "Face Retriever" où "un comédien sera chargé de mimer les gestes des personnalités défuntes avant d’être remplacé par leurs hologrammes." D'où parfois cette impression d'être plongé dans une vallée de l'étrange, même si globalement l'impression de réalisme l'emporte (sur la seule base de la bande-annonce pour l'instant diffusée). Le même article nous apprend aussi que le concept aurait été refusé par Netflix et Amazon.

Deep Fakes, Face Retriever et autres technologies d'échanges de visages, qu'importe la technologie pourvu qu'on ait la vraisemblance. Ce qui trouble, ce qui interroge et ce qui inquiète parfois, c'est l'essor de cette grande famille des technologies de l'artefact. A la différence des masques dans diverses traditions théâtrales, elles ne sont pas là pour "marquer" un rôle ou un caractère, pour acter sa reconnaissance. Elles se présentent plutôt comme un éternel figuratif à la portée de chacun d'entre nous. Comme l'amour dans "Voyage au bout de la nuit" de Céline, elle sont un "infini mis à la portée des caniches." Et peu de gens semblent encore se poser la question de la dignité. Etant entendu que comme l'écrivait cette fois Sartre dans "Qu'est-ce que la littérature", il ne demeure aucun doute concernant "la supériorité reconnue des chiens vivants sur les lions morts."

Le problème n'est d'ailleurs pas celui des technologies elles-mêmes. Des masques du théâtre antique à ceux du théâtre Nô, de l'effet Koulechov aux batteries d'effets spéciaux dont les Deep Fake ne sont que le dernier avatar numérique, les récits médiatiques ou artistiques ont toujours trouvé leurs propres dépassements en interrogeant leurs propres limites.

Je l'évoquais plus haut, au cinéma, l'effet Koulechov c'est "un effet de montage par lequel les spectateurs tirent plus de sens de l'interaction d'un plan (prise de vue) avec un autre plan auquel il est associé, que d'un plan isolé." Les technologies de l'artefact et notamment les Deep Fake procèdent comme des sortes d'effets Koulechov inversés. La narration qu'elles véhiculent, la manière dont elles procèdent presque "ontologiquement" est en effet de s'assurer que le spectateur tirera davantage de sens du plan isolé de ce visage d'un mort vivant ou d'un vivant prononçant des discours qu'il n'a jamais tenu, plutôt que de l'association avec d'autres plans et d'autres pans de réalité. Tout le plan du récit se subordonne à la seule transgression de l'incarnation impossible, de la (trans)figuration aporétique.

Mais le problème principal demeure celui de l'inscription de ces technologies dans la temporalité du champ social. Avec la possibilité de décontextualiser et de recontextualiser sans cesse, à des coûts toujours moindres, et pour des effets de réel toujours plus puissants, il devient très difficile, toujours à l'échelle d'une société et de l'économie médiatique qui l'environne et la traverse, de définir et de maintenir des cadres interprétatifs et des herméneutiques, des valeurs de preuve, qui soient pérennes et qui puissent se prévaloir d'une authenticité et d'une vérité au moins un temps partagée.

Dans quelques années qui sera encore capable de savoir que tel acteur ou telle actrice était morte au moment du tournage d'un film dans lequel il ou elle apparaît pourtant ? Qui dans des dizaines d'années tombant à la suite de recherches sur un film avec Gabin puis sur son interview dans Hôtel du temps, sera en capacité de documenter ce qu'il voit avec une capacité de discrimination suffisante pour rétablir la temporalité correcte ? Quel intérêt de visionner encore de vieux James Bond lorsqu'il est possible d'éditer rétrospectivement chaque plan pour remplacer des marques d'une époque révolue par d'autres plus contemporaines ? Peut-être que ces questions n'ont pas d'importance. Certaines ne sont d'ailleurs pas nouvelles : nombre de films et de dessins animés ont ainsi effacés numériquement les tours du World Trade Center depuis les attentats du 11 septembre 2001. Posant ainsi, derrière le trucage, la question bien plus fondamentale de la référence et du support, c'est à dire de l'intégrité documentaire : les modes de diffusion des biens culturels ainsi modifiés impactent directement notre capacité singulière et collective à documenter ces effets de trucage et donc à en discuter la légitimité. Si vous disposez d'un DVD de Lilo et Stitch, vous verrez encore les tours du World Trade Center, mais dans les logiques de consommation en streaming, à la demande, ou même dans la multiplicité des copies circulantes des oeuvres, cette tracabilité devient impossible. La mémoire même de l'original devient inaccessible en dehors de celle d'une subjectivité regardante dont la parole pourra toujours être alors mise en doute et en délibéré, fabriquant ainsi une incrédulité structurelle et une incapacité à convaincre dès lors que la documentation de cet effacement … s'effacera à son tour. D'où l'importance (j'y reviens dans le paragraphe suivant) de disposer aujourd'hui de points stables offerts à la lecture, à la critique et au visionnage.

Alors oui, peut-être que ces technologies de l'artefact n'ont pas d'importance. Mais peut-être sont-elles tout au contraire cruciales. Bien entendu il faudra du temps pour en décider. Nous n'en sommes qu'à l'aube des technologies de l'artefact.

Il me semble que les choses peuvent être vues en trois temps. Trois temps qui chacun à leur manière ont totalement ré-agencé nos manières de dire le vrai, nos régimes de vérité au sens de Foucault :

"Chaque société a son régime de vérité, sa politique générale de la vérité: c’est-à-dire les types de discours qu’elle accueille et fait fonctionner comme vrais ; les mécanismes et les instances qui permettent de distinguer les énoncés vrais ou faux, la manière dont on sanctionne les uns et les autres ; les techniques et les procédures qui sont valorisées pour l’obtention de la vérité ; le statut de ceux qui ont la charge de dire ce qui fonctionne comme vrai."

Ranking, Matching, Checking.

1er temps : l'enjeu du ranking (hiérarchiser / classer). En 1995, Hervé Le Crosnier écrivait :

"La modification d’un document porteur de sens, de point de vue, d’expérience est problématique. Ce qui change dans le temps c’est la connaissance. Celle d’un environnement social et scientifique, celle d’un individu donné … Mais ce mouvement de la connaissance se construit à partir de référents stables que sont les documents publiés à un moment donné. Les peintres pratiquaient le "vernissage" des toiles afin de s’interdire toute retouche. Les imprimeurs apposaient "l’achevé d’imprimer". Il convient d’élaborer de même un rite de publication sur le réseau afin que des points stables soient offerts à le lecture, à la critique, à la relecture … et parfois aussi à la réhabilitation." Hervé Le Crosnier. "De l’(in)utilité de W3 : communication et information vont en bateau." Présentation lors du congrès JRES’95, Chambéry, 22-24 Novembre 1995.

Avec les mécanismes inédits de publication en ligne liés à l'essor du web, mécanismes inédits tant dans leur ampleur que dans leurs modalités, des questions nouvelles d'intégrité documentaire se posent (cf entre autres l'effacement des tours du World Trade Center discuté plus haut). C'est surtout au travers de la question des algorithmes de ranking (Google arrive en 1998) que ce débat s'installera dans la sphère sociale et médiatique. Car pour classer et hiérarchiser, il faut figer. Au moins temporairement. Et la question centrale de cette époque était donc de savoir comment hiérarchiser et classer non seulement les documents eux-mêmes, mais également les métriques et les systèmes techniques qui permettent, supportent et autorisent ces opérations de classement et de hiérarchisation.

2ème temps : l'enjeu du matching (faire correspondre / apparier). En 2009 j'expliquais pourquoi l'Homme était devenu un document comme les autres. La planète web avait changé d'axe de rotation. Elle n'était plus structurée par l'économie des documents mais par celle des profils, de nos profils. Et là aussi il fallait inventer de nouvelles limites, bornes, et transgressions à l'expression et à la fixation de nos identités numériques plurielles et des traces qui les définissaient de manière explicite ou implicite. Et derrière, se posait une question centrale du point de vue des nouveaux maîtres des réseaux sociaux : comment faire correspondre, apparier puis maintenir artificiellement ensemble des gens qui partageaient les mêmes idées, ou des idées qui partageaient et traversaient les mêmes corps sociaux.

3ème temps : l'enjeu du checking. En 2016 puis en 2018 les phénomène des Deep Fakes devient un sujet médiatique de débat et de préoccupations. Précisément parce que ce qui est en jeu c'est désormais la modification de subjectivités incarnées, elles aussi porteuses de sens, de vie et d'expérience. Et parce que là aussi mais cette fois à l'échelle des documents que nous sommes devenus, ces modifications, ces Deep Fakes, ces technologies de l'artefact, nécessitent une forme de ritualisation de la temporalité de ce rendu public, ritualisation pour l'instant totalement absente et impensée. L'enjeu n'est plus le classement et la hiérarchisation, l'enjeu n'est plus non plus la correspondance et l'appariement, l'enjeu désormais c'est la conquête et la domination du champ de la vérification et du droit de modifier. Car ne nous y trompons pas, les Deep Fake et plus globalement l'ensemble des technologies de l'artefact vont totalement également bouleverser les questions juridiques liées au droit d'auteur et au code de la propriété intellectuelle.

Pour le dire différemment, à l'époque de Google (temps 1), celui qui contrôle les techniques de classement, contrôle toute l'économie (sociale et monétaire) du web. A l'époque de Facebook (temps 2), celui qui contrôle les techniques d'appariement, contrôle toute l'économie (sociale et monétaire) du web. Et probablement que le prochain leader de l'économie du web qui émergera devra, au moins pour partie, être en situation de contrôler les techniques de vérification et de certification. Les Deep Fake n'en seront d'ailleurs pas le seul fer de lance. Pourquoi croyez-vous que Zuckerberg tienne tant à développer (et à dominer) ce qu'il appelle le "metavers" ?

[pour le dire autrement]

Temps 1. Il était possible de décontextualiser et de recontextualiser rapidement et à moindre coût (économique et cognitif) des documents pour leur faire dire autre chose que ce qu'ils signifiaient initialement.
Temps 2. Il était possible de décontextualiser et de recontextualiser rapidement et à moindre coût (économique et cognitif) des profils mais également et surtout des dynamiques informationnelles pourtant déjà artificiellement construites.
Temps 3. Il est désormais possible de décontextualiser et de recontextualiser rapidement et à moindre coût (économique et cognitif) des figures subjectives d'un intangible de la permanence. Par delà leur propre mort.

[pour le dire autrement]

Temps 1 : l'enjeu est de déterminer ce qui est populaire et ce qui ne l'est pas. Popularité.
Temps 2 : l'enjeu est de déterminer ce qui est semblable ou dissemblable. Similarité.
Temps 3 : l'enjeu est de déterminer ce qui est vraisemblable et ce qui ne l'est pas. Authenticité.

Trois régimes du contrôle de l'information qui sont aussi trois de ses dérives. Google (pour l'essentiel) continue de contrôler les régimes de popularité, en tout cas à l'échelle du web. Facebook (pour l'essentiel) contrôle les régimes de similarité. La clé des régimes médiatiques de demain résidera dans la capacité de contrôle de l'authenticité. Et quand j'indique qu'il faut construire de nouvelles heuristiques de preuve, il faut commencer par déconstruire les actuelles. Heuristiques actuelles qui procèdent le plus souvent en considérant que si une information est à la fois populaire collectivement et "similaire" singulièrement (en ce sens qu'elle s'aligne sur nos propres régimes de croyance) alors elle serait nécessairement authentique. De la même manière, ce que l'on entrevoit dans l'usage médiatique des technologies convoquant des Deep Fakes (et assimilés) c'est la construction d'une artificialisation de l'authentique tant qu'il peut s'appuyer sur des indices de similarité singulièrement forts s'appuyant eux-mêmes sur des traces mémorielles populaires.

Ce qui compte dans le concept de l'émission Hôtel du temps, comme dans probablement les autres qui suivront, ce qui est essentiel, ce ne sont pas les visages travestis et les masques mortuaires rendus artificiellement et numériquement "vivants". Ce qui compte et qu'il faut constater c'est la dislocation progressive mais inéluctable des narrations vraisemblables de nos horizons politiques, culturels et sociaux. Non pour le condamner ou l'approuver, mais pour l'accompagner et construire avec certains et avant d'autres, les cadres interprétatifs mais aussi peut-être juridiques qui nous permettront de faire de ces narrations inédites des embranchement féconds plutôt que moribonds. Bref, de rester en contrôle des instanciations des futurs métavers.

DeepFakes et ventriloquie.

Voir un avatar numérique d'une personnalité (décédée ou non) prononcer des mots qu'elle n'a jamais dits relève d'un art d'abord religieux puis profane qui est celui de la ventriloquie ou de "l'engastrimythe" (terme grec désignant la même chose et que je trouve aussi rigolo que pédant).

Le Deep Fake n'est rien d'autre qu'une forme de ventriloquie. Et l'histoire de la ventriloquie est à ce titre éclairante. Cette histoire se découpe en trois grandes périodes détaillées par Laure Fernandez (1) :

"Une première, des origines à la fin du 18ème, est celle de l’occulte, des nécromanciennes (il s’agissait généralement de femmes) qui, en vocalisant l’au-delà, donnaient voix aux absents. Les historiens de la ventriloquie (…) n’hésitent pas à faire remonter son origine à l’Antiquité et à la figure de la pythie (…) Alors passible de condamnation, celle-ci est crainte et perçue comme maléfique : par le ventre s’exprime le mort ; l’apparition d’une parole dans un corps qui ne lui appartient pas ne peut que dire la présence du démon. (…) Diderot et d’Alembert (…) proposent les deux entrées Engastremithe (1755) et Ventriloque (1765), mentionnant la division entre ceux qui font de cette parole un acte divinatoire et ceux qui y voient une maladie. (…)

La seconde époque de la ventriloquie, dont ces études marquent d’une certaine manière le commencement, irait dès lors de cette fin du 18ème à celle du 19ème: si la pratique est toujours perçue comme magique (…) elle devient néanmoins un divertissement spectaculaire, se libérant de tout caractère divinatoire ou religieux. (…)

Ce qui nous amène à notre troisième et dernière époque, et à un autre degré d’illusion : la ventriloquie dialoguée, ou le dialogue théâtralisé. (…) le 20ème siècle voit apparaître une forme d’autant plus schizophrénique qu’elle implique constamment la présence du ventriloque lui-même comme personne et personnage de l’acte. Et si le maître, aux origines, était cette divinité ou ce démon vocalisant un corps-contenant, puis, au 19ème, l’artiste polymorphe qui donne vie à des scènes, il devient, au 20ème – époque où les avancées technologiques ont fait de la voix dissociée, avec la radio, le disque ou le téléphone, une habitude –, double, oscillant (et c’est le jeu auquel, évidemment, les sketchs se prêtent), passant constamment du ventriloque à la poupée (devenue traditionnellement un mannequin de la taille d’un enfant, au visage mobile, apparu vers 1880 pour faciliter l’itinérance de cette pratique)."

Les Deep Fakes, ces technologies de voix dissociée mais aussi pourrait-on dire de présence dissociée, ont dès leur commencement été perçues comme autant de troubles à l'ordre documentaire public. A peine quelques années après leur apparition, nous en sommes déjà avec l'annonce de l'émission d'Ardisson, à la seconde époque de cette ventriloquie moderne et computationnelle, c'est à dire celle d'un "divertissement spectaculaire" qui continue de convoquer une "pratique toujours perçue comme magique". La troisième étape, qui se produira très rapidement, sera également celle de ventriloquies dialoguées d'une multiplicité potentiellement infinie de présences dissociées non plus de "doubles oscillants" mais d'altérités singulières oscillantes. Et là encore les ambitions de métavers de Zuckerberg ne relèvent pas que d'un énième effet de mode liée à la réalité virtuelle ou augmentée. Là où il est déjà parvenu à disposer des droits d'administration et de gestion du plus grand pan-catalogue des individualités humaines (qué lo apelorio Facebook), il ambitionne de gérer également celui de l'ensemble de leurs doubles numériques pendulaires, tant pour les vivants que pour les morts.

Je le répète : le Deep Fake n'est rien d'autre qu'une forme de ventriloquie. Mais où l'on ne voit plus le ventriloque alors qu'il n'a jamais été aussi présent, ni aussi loquace.

Un nouveau turc mécanique aussi.

"L'éternité c'est long. Surtout vers la fin."

Et nous n'en sommes qu'au début de ces éternités numériques pourtant si contre-intuitivement éphémères. Pour en terminer avec le "concept" de l'émission de Thierry Ardisson, celui-ci n'est d'ailleurs que très relativement inédit. Voilà en effet plusieurs années que tous les vendredis dans l'émission "Par Jupiter" sur France Inter, Christine Gonzalez pratique les "interviews posthumes" à base d'archives sonores. Mais "entendre" parler les morts et "voir" parler les morts n'est pas un simple passage de l'un à l'autre de nos 5 sens. D'autant que l'intention comique de Christine Gonzalez est claire et que les effets de vraisemblance recherchés (en se rattachant à une actualité par exemple) ne font que la renforcer.

Et la question n'est pas celle de la satire, de la caricature ou de la comédie en tant qu'elle sont non seulement légitimes mais surtout essentiellement décelables contextuellement (lorsqu'elles cessent de l'être, c'est bien qu'il ne s'agit plus de satire ou de caricature).

La question des émissions comme Hôtel du temps et plus globalement des entreprises de virtualisation prolongeant ou transcendant l'expérience et la limite de la mort à des fins qui ne sont plus ni artistiques, ni satiriques, ni scientifiques, participent d'une dynamique globale de l'effondrement de toutes les références partagées qui cimentent un horizon de confiance permettant à une société de ne pas en permanence douter de tout et de se trouver à la merci du cauchemar déjà décrit par Hannah Arendt :

"Quand tout le monde vous ment en permanence, le résultat n’est pas que vous croyez ces mensonges mais que plus personne ne croit plus rien. Un peuple qui ne peut plus rien croire ne peut se faire une opinion. Il est privé non seulement de sa capacité d’agir mais aussi de sa capacité de penser et de juger. Et avec un tel peuple, vous pouvez faire ce que vous voulez."

Alors certes, "les morts en ont vu d'autres" écrivait Daniel Schneidermann. Certes. Mais ce qui compte dans les technologies de l'artefact, ce n'est pas ce que les vivants font des morts : c'est de savoir et de comprendre ce que ce qui n'est plus et que l'on recrée à dessein, peut faire aux vivants.

___________________________
(1) Fernandez Laure, « La voix de son maître : ventriloquie et engastrimythe, de la parole de l'au-delà au dialogue troublé », Revue de la BNF, 2014/2 (n° 47), p. 26-32. DOI : 10.3917/rbnf.047.0026. URL : https://www.cairn.info/revue-de-la-bibliotheque-nationale-de-france-2014-2-page-26.htm

2 commentaires pour “Le ventriloque et les Deep Fakes : Hôtel du temps suspends ton vol (de visages)”

Frédéric CAMARA. dit :

9 septembre 2021 à 18h00

Très intéressant article.
Merci !

Répondre
Anne dit :

10 septembre 2021 à 22h08

Se faire une opinion, est-ce penser?
Et penser, est-ce juger?
Et puis, vous n’en avez pas marre de faire semblant de cogiter?
De créer sans cesse des liens comme le fait l’événementiel et le virtuel, soit artificiels?
Et de défendre toujours les mêmes idoles, les mêmes dieux, les mêmes papes, au moyen des mêmes citations?
Tant de questions qui n’étonne t plus tant elles interrogent du vent.

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.