Reconnaissance faciale … de dos.

<Edit> Article repris sur Rue89 </Edit>

Au Far-West, dans les Westerns il y avait une règle d'or, un code de bonne conduite, un code d'honneur : on ne tire pas sur les gens de dos. Par exemple dans le chef d'oeuvre "Mon nom est personne", Jack Beauregard (aka Henry Fonda) déclare :

"D'accord Nevada était mon frère mais c'était aussi un salaud de la plus belle espèce. Pour une poignée de dollars, il tirait dans le dos d'un ami, et je ne vais pas risquer ma peau pour le venger."

Comme on n'arrête pas le progrès, après avoir développé ceux déjà redoutablement efficaces de la reconnaissance faciale, voici que Facebook annonce avoir à mis au point un nouvel algorithme capable de vous reconnaître sur une photo ou dans une vidéo même si vous êtes de profil ou … de dos. Oui oui.

La reconnaissance faciale de dos.

L'article dans lequel les chercheurs du labo IA de Facebook expliquent comment ils cherchent à aller au delà de la seule reconnaissance faciale au travers de la détection d'une multitude d'autres "indices" est disponible en ligne. La méthode utilisée par l'algorithme a même un petit nom sympatoche : elle s'appelle PIPER pour "Pose Invariant PErson Recognition". En gros "Les poses identiques pour la reconnaissance de personnes.

Très précisément il ne s'agit pas de "reconnaître quelqu'un de dos" (mais avouez que ça fait un bon titre :-), ni même de reconnaître quelqu'un uniquement sur la base de ses mouvements ou attitudes, mais – c'est déjà pas mal – de se servir de la reconnaissance desdites attitudes (baptisées "poselets") pour améliorer la reconnaissance faciale.

"We propose the PIPER method, which accumulates the cues of poselet-level person recognizers trained by deep convolutional networks to discout for the pose variations, combined with a face recognizer and a global recognizer" (.pdf)

Tels que présentés dans l'étude, les résultats sont assez bluffants :

"83,05% de réussite pour les 581 identités du corpus (1 identité étant décrite par plusieurs photos) dans lesquelles ont ne dispose pas de photo "de face". De plus, quand une photo de face est disponible, le taux de réussite de DeepFace (l'algo de reconnaissance faciale) passe de 89,3% à 92,4% faisant baisser de 40% le taux d'erreur relatif." (.pdf)

A noter enfin que les datasets utilisés sont directement piochés dans la base Creative Commons de Flickr (source et liens dans cette annexe .pdf).

(image extraite de l'article original)

Le poids des mots et le choc de la reconnaissance des photos.

Nous sommes en train de vivre, à l'échelle de l'image et de la vidéo, la même révolution scientifique et technologique que celle que nous vécûmes au début des années 80 à l'échelle de l'ingénierie linguistique et de la fouille de corpus de textes avec l'invention du TAL (traitement automatique des langues) dont Jean Véronis fut un des pionniers.

Le côté positif c'est que grâce à ces progrès nous avons aujourd'hui Google, des livres numériques, nous pouvons travailler à l'échelle de corpus considérables, chercher des mots-clés facilement dans à peu près n'importe quel texte, bénéficier de services de traduction automatique de plus en plus efficaces, de correcteurs d'orthographe et de syntaxe, etc. Le côté obscur c'est que l'ensemble des technologies de surveillance dont on débat aujourd'hui au travers des différents scandales d'écoute ou de fliquage des populations reposent sur les mêmes progrès de l'ingénierie linguistique.

La même chose se produira, est déjà en train de se produire, à l'échelle des technologies de ce que nous pourrions baptiser le TAIFA (Traitement Automatiques des Images Fixes et Animées). Et de la même manière que nous en retirerons de grands services, elles nous exposeront simultanément à de grandes dérives liées à la surveillance et au contrôle.

Il faut se souvenir qu'il y a à peine 15 ans, au début des années 2000, la plupart des spécialistes de ces questions butaient sur d'immenses difficultés pour simplement parvenir à faire avec les images ce que l'on avait réussi à faire à peu près correctement avec les textes, c'est à dire parvenir à les indexer. Quinze ans plus tard, non seulement l'indexation des images et des vidéos se fait à l'identique ou sans poser guère plus de problèmes que celle du texte, mais l'on est également capable, comme pour le texte, de descendre à des niveaux de granularité très fins dans cette indexation, grâce donc notamment aux technologies de reconnaissance faciale. Autre exemple, à l'aide à la fois de technologies relevant du "Deep Machine Learning" croisées avec les métadonnées associées à notre navigation qui permet de déterminer avec un taux de précision assez étonnant (même si certains résultats sont encore très … aléatoires), l'âge d'une personne en se basant simplement sur une de ses photos comme en témoigne le projet "How Old" de Microsoft :

(Henri Fonda est né en 1905 et a tourné "Mon nom est personne" en 1973, il avait donc 68 ans sur cette photo mais avait, pour les besoins du film, un maquillage le vieillissant légèrement, bref c'est pas si mal, si vous n'êtes pas convaincus, faites l'essai avec une de vos photos, c'est quand même assez bluffant …)

<Mise à jour de beaucoup plus tard> Voir aussi le prototype de Wolfram : https://www.imageidentify.com/ </Mise à jour>

Textes, images, sons, vidéos sont donc désormais indexés et des programmes sont capables d'y retrouver aussi bien des mots-clés que d'y reconnaître des visages et d'en déterminer l'âge.

Who's next ? Indexer les attitudes.

Après les textes, les images, les sons, les vidéos que reste-t-il encore à "reconnaître" ou à "retrouver" ? Précisément les "attitudes", nos attitudes. Étendre la fouille textuelle, le "search and retrieve", jusqu'à parvenir à des niveaux très fins de compréhension, niveaux permettant à leur tour la production de nouveaux textes. Étendre la reconnaissance faciale, le "look and find", jusqu'à des niveaux très fins d'identification, niveaux permettant à leur tour une automatisation et une systématisation de logiques qu'il faut bien désigner comme s'apparentant pour l'essentiel à des logiques de … surveillance.

A la recherche de toujours plus de singularité et d'essentialisation comme s'efforcent de le faire, en parallèle, les techniques de biométrie en permettant de nous loguer ou de débloquer notre smartphone avec notre empreinte digitale, demain peut-être avec notre iris ou pourquoi pas avec l'analyse d'un échantillon de notre ADN (ok, faudrait alors lécher l'écran ou cracher dessus mais avouez que ce serait rigolo, et c'est … inéluctable 🙂

Car par-delà la tentative d'isoler chacune de nos attitudes pour mieux nous "reconnaître", d'autres techniques utilisent la même approche aux fins cette fois de caractériser ce qui correspond à une attitude gestuelle dans notre comportement en ligne, c'est à dire l'activité de navigation. L'idée est d'utiliser – en gros – notre historique de navigation pour remplacer les innombrables mots de passe qui nous sont demandés par différents services : au lieu de taper "azerty" pour accéder à votre email et "administrateur" pour ouvrir une session parentale sur votre ordinateur, on vous demanderait "quel est le film que vous avez visionné hier soir ?", "à qui avez-vous envoyé votre dernier SMS ?", "quel album avez-vous ajouté ce matin à votre playlist Deezer ?", etc. Bref on ne vous reconnaîtrait plus par votre mot (de passe) mais par votre comportement (de navigation).

Et là encore le parallèle avec l'ingénierie linguistique est frappant. Dans les premières années de son développement – à l'ingénierie linguistique – on se contentait et s'émerveillait d'être capables d'aller simplement "retrouver" un mot dans un texte. Puis on commença à s'intéresser à la possibilité de retrouver ce mot mais également les mots de la même famille, puis ses synonymes, puis la totalité du champ lexical y compris métaphorique rattaché à ce mot ou à ce contexte, et ainsi de suite jusqu'aux derniers progrès dans le domaine de la reconnaissance et de l'extraction des entités nommées et de tout ce qu'elles permettent de faire.

Faux-positif attitude.

Même chose donc, même progrès dans le domaine des images et de la vidéo : après avoir détecté et reconnu des visages, on s'efforce de détecter et de reconnaître des attitudes. C'est fascinant, c'est vertigineux et c'est bien sûr dangereux.

(exemple frappant de faux-positif sur la chanteuse Lorie en train d'interpréter son tube "positive attitude")

Dangereuse attitude ou comportement suspect ?

C'est dangereux car l'une des différences de taille entre les technologies du TAL et celles du TAIFA c'est que pour les 1ères on disposait – et on dispose encore – d'un volet d'applications très large, même s'il incluait également des pratiques plus que contestables de surveillance, alors que pour les secondes, l'essentiel des applications qui en résulteront seront d'abord orientées vers des pratiques très discutables de surveillance. Pour le dire différemment, être capable de reconnaître des mots peut permettre de faire plein de choses, et accessoirement de mieux écouter des conversations ; être capable de détecter des visages et des attitudes, à part vous aider à trier automatiquement vos milliers de photos – ce qui n'est déjà pas si mal – on ne voit pas très bien à quoi ça peut servir d'autre, à part en effet à développer des technologies de surveillance et de contrôle plus efficaces, plus intrusives, plus omniprésentes.

Un danger que renforce en même temps qu'il le souligne et le met en évidence le nouveau fétichisme du fichier et son cortège d'algorithmies permettant de "détecter" tout type de comportement.

<Pas pu résister> Nombre de nos comportements, de nos attitudes en ligne relèvent de pratiques jaculatoires. De "jaculations" au sens premier "d'élan d'enthousiasme" ou d'éjaculations aux sens figurés non pas de "Prières" mais de "statuts courts, émis à intervalles réguliers, avec force et un débit rapide", ou bien alors de "propos courts généralement insultants ou vulgaires" (cf, entre autres, le compte Twitter de Nadine Morano), ou bien enfin de "Production ou manifestation spontanée et qui a généralement une certaine force, ou qui se manifeste violemment" (un des ressorts du principe de viralité sur les réseaux). Les algorithmes détectaient jusqu'à présent sans peine la moindre de ces jaculations. Ils viennent d'étendre cette détection aux jaculations … faciales. </Désolé>

Méritons-nous une bonne correction ?

Plus sérieusement, à la la personnalité des algorithmes ou aux logiques de personnification succédant à celles de personnalisation, aux détections algorithmiques de nos moindres comportements, s'ajoutent désormais de nouvelles "couches" (la reconnaissance faciale, celle de nos attitudes) qui favorisent le déploiement de "technologies de l'empathie" et de leur angoissant cortège de correcteurs comportementaux là où nous ne connaissions jusqu'ici que la tyrannie et les affres des correcteurs orthographiques. Lesquels correcteurs orthographiques ont commencé par régler effectivement quelques problèmes avant de nous suggérer des recherches ou des réponses avant que nous ne leur ayons soumis la moindre question, la "libération" promise sur la gestion orthographique se transformant très vite en aliénation subie de nos processus de requêtage et de navigation.

Une évolution qui sera vraisemblablement la même mais cette fois à l'échelle encore plus problématique d'une "correction de nos comportements". Des algorithmes reconnaissant l'ensemble des nos attitudes et de nos postures, des algorithmes dotés de "personnalités" s'adaptant à ce qu'ils supposent ou infèrent être la notre – de personnalité -, des algorithmes, enfin, corrigeant nos comportements pour les rendre plus … pour les rendre plus … pour les rendre plus … Et oui. Tout le problème est là. Dans ces quelques points de suspension et dans les logiques commerciales, politiques ou idéologiques qui les façonneront. Sans que nous n'ayons plus les moyens ni le temps d'y déceler les moyens, l'ampleur ou même les vrais acteurs à l'origine de ce phénomène de manipulation parfaitement inédit à cette échelle.

Manipulations singulières

Les médias traditionnels du 20ème siècle avait érigé en champ d'étude la manipulation des masses et les différentes techniques de propagande. Les algorithmes du 21ème siècle nous promettent une nouvelle forme de manipulation qui reste encore largement à étudier et à décrire, une manipulation ne reposant plus sur "les masses" mais sur des agrégats volatiles fait de requêtes, de comportements, de visages et d'attitudes permettant d'essentialiser chaque individu sorti de la masse. Ils conjuguent le verbe manipuler au singulier. Du latin "Manipulare : conduire par la main". De l'index blanc qui navigue au pouce bleu qui Like, nous sommes entre leurs mains. Nous nous sommes pris les doigts dans le digital.

Les algos nous racontent la fable du cyclope rendu aveugle. Mais ils ont choisi le rôle d'Ulysse pour nous laisser celui de Polyphème.

"D'accord les algorithmes étaient mes frères mais c'étaient aussi des salauds de la plus belle espèce. Pour une poignée de dollars, ils reconnaissaient un ami de dos, et je ne vais pas adopter de comportement à risque pour me venger."

Le web n'est pas le Far-West, mais aucune règle n'empêche de reconnaître un homme dans son dos. Le fait qu'il soit aujourd'hui impossible – ou réservé à quelques geeks – d'y être "personne" est à la fois la cause et la conséquence du problème. N'est-ce pas, Jack ?

L'algorithme dit "on t'a reconnu". Et se tira avec le butin.

2 commentaires pour “Reconnaissance faciale … de dos.”

Alain Pierrot dit :

11 mai 2015 à 20h05

« Pose Invariant PErson Recognition ». En gros « Les poses identiques pour la reconnaissance de personnes.
Serait plutôt: « Reconnaissance de personnes indépendante de la posture »

Répondre
solavite dit :

12 mai 2015 à 16h24

intéressant article merci 🙂

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.