Compte-rendu de lecture de l’article : Hearst M., Hurst M., Dumais S., "What shoulg blog search look like ?" (.pdf)
Si cet article a attiré mon attention, c’est pour plusieurs raisons, et tout d’abord le "profil" de ses trois auteurs. L’article est en effet rédigé par Marti Hearst, professeur à Berkeley et spécialiste de la navigation et des interfaces "à facette", Susan Dumais (Microsoft), inventeur de l’indexation sémantique latente et spécialiste des interactions homme-machine, et Matthew Hurst (Microsoft), blogueur et inventeur du remarquable outil BlogPulse.
L’article part d’un constat : les outils actuels de recherche de blogs n’exploitent pas les fonctionnalités structurelles spécifiques de ces plateformes. Ce constat peut – de mon point de vue – être discuté dans la mesure ou les usagers (sauf certains geeks et professionnels de l’info) ne feraient probablement pas trop usage de fonctionnalités de recherche avancées.
Deuxième constat plus intéressant et qui nous en apprend beaucoup sur la manière dont les gens "cherchent" de l’information : l’article mentionne une étude portant sur 500 requêtes prises au hasard et qui les décompose comme suit : 52% contiennent des noms "d’entités nommées" (des personnes, des produits, des entreprises). Sur les 48% restant, 25% expriment des requêtes de "haut-niveau" (les exemples donnés sont "stock trading" "gay rights"). Les derniers 23% sont des requêtes navigationnelles et des requêtes "adultes", auxquelles s’ajoutent un petit lot d’inclassables. L’étude citée comprend une autre info intéressante : ses auteurs ont établi que concernant les requêtes sur des entités nommées, le "besoin" des requêtants était en général de voir ce qui se disait (sur le web, dans la presse) de l’entité en question, au moment de la requête. Bref, du requêtage dans une logique de "recherche d’actualité". Par ailleurs, 20% des requêtes les plus populaires étaient corrélées à une actualité récente. Bref encore, les usagers vont sur le Net pour les même raisons qu’ils se rendent dans des maisons de la presse : l’actualité, l’actualité, l’actualité.
L’article revient ensuite sur les caractéristiques propres de l’information publiée sur les blogs : l’unité n’est plus la page HTML mais le billet, le ton est souvent plus personnel, les opinions dominent l’information, etc. Les auteurs proposent alors de se focaliser autour de 3 scénarios :
- "Find out what are people thinking or feeling about X over time.
- Find good blogs/authors to read.
- Find useful information that was published in blogs sometime in the past."
Je serai tenté de résumer ces trois scénarios par 3 mots-clés :
- Hubs (vue la plus large possible de points de vue sur un sujet, approche synchronique),
- Authorities (repérage de blogs "de confiance")
- et Trends (vue diachronique d’un sujet).
Tout le monde aura reconnu derrière les deux premiers scénarios la patte de Kleinberg, rien de très nouveau donc, mais une bonne grille d’analyse.Voici les pistes proposées par les auteurs pour chacun des trois scénarios :
- Scénario 1 : l’objectif est d’aider les "market researchers" à utiliser "the results of sentiment mining (…) to help get a timely understanding of reactions to products and policy proposals alike." La solution proposée est la suivante : "It should organize and aggregate the results better, and by having a focus on author information, including who has commented on the post, and who
has blogged about the post." - Scénario 2 : l’idée est ici clairement d’instrumentaliser le processus de sérendipité qui joue à plein pour l’identification de blogs de référence (par l’exploration des blogrolls notamment). Les annuaires de blogs ne semblant pas (plus …) être capable de proposer des pistes fiables et étant délaissés par les utilisateurs. Les pistes proposées sont au nombre de trois. Primo : une caractérisation de la qualité des blogs sur la base d’une analyse quantitative et d’une identification des contenus "originaux" et des contenus "repris". Deuxio : "Subtopics within topics. A reader may want to find blogs that provide high-quality commentary on one topic specically within a general subject area, for example, commentary on a particular television show or on a particular model of motorcycle. Often these are interspersed with high-quality commentary on other related topics, such as other TV shows or other vehicles. A blog selection interface should allow for the automatic creation of a feed reader on only the subtopics of interest across several high-quality blogs simultaneously, with little or no additional work needed on the part of the user." Ce qui est ici décrit ressemble furieusement à ce que Wikio met en place depuis déjà pas mal de temps dans sa page "catégories" avec autant de fils RSS que de sous-catégories. Tertio : la caractérisation fine des auteurs et des lecteurs du blog, caractérisation construite autour des questions suivantes (je souligne celles qui me paraissent les plus prometteuses mais aussi les plus délicates à "mesurer") : "Who are the people who do the interacting on the blog, including in comments ? Whom does the blog link to, and which others are linked to it ? What forms of media link to it ? How many people write for this blog? What are
their reputations ? How many people post comments for the authors of the blog? What is the quality of the comments ? Does this blog link to others with similar or different viewpoints ?" A noter que sur ce dernier point, une approche façon "controverse" telle qu’elle est mise en place (manuellement) par SmallBrother.info me semble très intéressante.
Avant d’aborder le dernier scénario, les auteurs proposent la mise en place d’une interface "à facettes" pour résoudre les problèmes à multiples dimensions posés par la recherche de blogs. On aurait notamment une facette "sociale" pour en savoir plus sur les auteurs et les commentateurs de blogs, et une autre facette davantage orientée "typologie des blogs" (tiens, tiens …), une typologie qui là encore est le centre névralgique de l’approche (et du succès) de Wikio, via son célèbre classement. L’article relève la difficulté de faire entrer un blog dans une catégorie et une seule en fonction de son contenu (beaucoup de blogs traitant de beaucoup plus d’une seule thématique), difficulté augmentée par d’autres catégorisations possibles (en fonction de l’audience, du rattachement institutionnel, etc …) et il propose 4 pistes pour affiner et produire des typologies pertientes et adaptées :
- "standard text classification" : avec des trucs du genre "sérieux", "ironique", "artistique" … De fait, les outils de l’ingénierie linguistique permettent aujourd’hui de "parser" des contenus pour en extraire des "tendances stylistiques". Il serait intéressant de les faire tourner sur un corpus large de blogs (par exemple ceux du classement wikio) pour voir le résultat et affiner les appartenances actuelles de tel ou tel blog.
- "filtrage collaboratif" : un grand classique. Permettre aux gens de soumettre leurs blogs préférés en les rattachant à des blogs existants et déjà "catégorisés" ou "typologisés".
- "sélection implicite" : plus osé (mais bien dans la ligne d’un web implicite de plus en plus présent …). Il s’agirait en fait de "pister" les comportements de navigation pour ensuite implémenter un système de recommandation plus ou moins personnalisé.
- "requêtes descriptives" : l’idée serait ici d’analyser les requêtes pour proposer, par exemple, des blogs "humoristiques" à quelqu’un qui tape "faites-moi rire avec mon divorce", ou des blogs plus sérieux et à dominante juridique à quelqu’un qui tape "comment choisir un avocat pour mon divorce".
Au final, même si l’article ne dit rien du "comment faire" (du fait des enjeux commerciaux et des brevets probablement déjà en cours de dépôt sur ces questions), il fourmille de pistes intéressantes.
M’est avis que Pierre Chappaz ainsi que le nouveau conseiller scientifique de Wikio et l’équipe prometteuse des Wikio Labs devraient y trouver quelques idées à creuser. Disons que ce sera là ma première contribution au dîner parisien de demain 😉
// Temps de rédaction de ce billet : 2h30 //
Merci Olivier. En effet, de bonnes pistes à creuser demain.