J’ai toujours été fasciné par les représentations visuelles, cartographiques ou non, établies sur la base de corpus de textes. Dans ce domaine, le blog Information Aesthetics est une mine inépuisable que j’ai déjà eu l’occasion de citer maintes fois. Dans ce domaine également, les travaux les plus aboutis que je connaisse sont ceux de la société Trivium et leur logiciel See-K (ex Umap, ex Gingko), reposant sur le principe des "arbres de connaissance" tel que défini par Michel Authier et Pierre Lévy.
L’algorithmie permettant de générer des représentations visuelles de textes est (archi-super-ultra-méga-giga-bientrop)complexe. De l’algorithmie quoi. Ses applications vont du DataMining "professionnel" à la recherche d’information "lambda", avec par exemple des moteurs comme Kartoo. Il est souvent difficile d’aborder de manière pédagogique ces techniques pour un public non averti. Or donc, via Infosthetics, le dispositif "Topic Flowers" me paraît constituer une bonne entrée en la matière. Le principe est simple :
- les textes sont représentés sous forme de fleurs, avec un code couleur selon les thématiques principales et secondaires ("bleu" pour la technologie, "vert" pour l’économie, "rouge" pour l’art, etc.)
- Plus le texte est long, plus il y a de pétales
- La ou les deux thématiques principales sont présentées dans les deux premières couronnes de pétales, et les autres thématiques viennent colorer les pétales périphériques.
Bon d’accord, dit comme ça on ne se rend pas bien compte …
Premier exemple : j’ai pris comme "texte" la vingtaine de billets apparaissant en page d’accueil d’Affordance. Résultat :
D’où l’on conclut :
- Que ça part un peu dans tous les sens … mais que la Science et la Technologie sont bien au coeur du sujet (ouf !) avec même un petit peu d’économie (des moteurs) sur les bords (ce qui à l’air d’être rouge est en fait du violet, mais la copie d’écran l’a affadi). En revanche si vous veniez chercher du divertissement ("Recreation"), c’est perdu. Quoi que 🙂
Deuxième exemple : un article scientifique (un vrai avec des références bibliographiques et tout et tout, pas un de ces brûlots de fonctionnaire réactionnaire 😉 rédigé avant l’été et à paraître bientôt (je vous en reparlerai) sur l’impact de Google Books et de Google Scholar sur la diffusion de la recherche scientifique. Résultat :
"Chkrois k’sé clair" comme aimait à le dire le regretté Serge July, là on est bien dans de l’homogène. Ca ne part pas dans tous les sens et ça parle très clairement de deux thématiques : l’une scientifique (la diffusion de la recherche) et l’autre technologique (l’impact de moteurs de recherche et de leurs algorithmes de classement), le tout en lien avec une troisième thématique moins présente mais qui donne du liant au deux autres : celle de l’économie (de l’édition scientifique et des moteurs de recherche).
Tout cela reste très simpliste et ce genre de représentation comporte nombre de limites (soulignées par l’auteur de l’application lui-même). Mais c’est efficace tout en restant basique et surtout ludique. "Basique" et "ludique" qui souvent riment avec … "pédagogique" 🙂
Je montre ça à mes étudiants et je vous en reparle. D’ici là, à vous de jouer 🙂