Bonne analyse en provenance de ReadWriteWeb (via ITligentia) sur les différentes "générations" de moteurs :
- ère génération : moteurs de contenus ou plus exactement reposant sur l’analyse du contenu des pages indexées. Information retrieval (IR) classique ne prenant en compte que le "matching" (croisement) entre des mots-clés (ceux de la requête et ceux des pages indexées)
- ème génération : moteurs de liens ou plus précisément prenant en compte la structure du web. IR "augmentée" et "révolution" du Pagerank.
- ème génération : moteurs "sociaux" (de type Rollyo, Eurekster, auxquels il faudrait ajouter leurs historiques prédécesseurs, les sites de signets partagés genre del.icio.us) "designed to combine the scalability of
existing internet search engines with new and improved relevancy models; they bring into
the equation user preferences, collaboration, collective intelligence, a rich user
experience, and many other specialized capabilities that make information more productive."
Cela vaudrait le coup de croiser cette analyse générationnelle avec la même prenant cette fois comme objet les interfaces de représentation et d’accès à l’information. Rapidement on s’aperçoit :
- qu’aux moteurs de première génération correspond un affichage de type "liste",
- qu’avec ceux de seconde génération apparaît la notion de cartographie
- et qu’avec les troisièmes c’est un renvoi à des fonctionnements arborescents (clusterisation, affichage par dossier thématique) qui prédomine.
On pourrait aussi croiser les deux analyses (rapides) précédentes avec une troisième qui concernerait cette fois les pratiques/usages/modalités de recherche.
- Les moteurs de première génération et leurs interfaces favorisent un modèle de type "pêche au filet" (= je balance un mot-clé et je voie ce que je ramène) et une dictature du mot-clé pour l’affinage des requêtes,
- les seconds un modèle plus contextuel (je replace dans un contexte) et une vue globale favorisant l’affinage des requêtes mais avec une granularité assez faible (= l’échelle des cartographies est trop importante pour des requêtes génériques),
- les troisièmes enfin marquant l’avènement de pratiques de recherche communautarisées avec pour l’affinage un avantage de taille, celui du feedback de la communauté. Mais avec également un inconvénient majeur qui conditionne leur pertinence à l’obtention d’une "taille critique communautaire" difficile à atteindre. Au travers de chacun de ces usages, c’est une forme particulière de "sérendipité" qui prédomine.
L’horizon qui pourrait émerger de tout cela serait peut-être une quatrième génération alliant les avantages de trois premières. C’est l’exemple frappant du lancement à quelques jours d’intervalle des possibilités de Géotagger des photos sur FlickR et du jeu-qui-n’en-est-pas-un du Google Image labeller.
On a ici la puissance d’une communautarisation des usagers (ceux de FlickR ou de Google), au service d’une indexation par mot-clé (ou par ancrage géographique pour FlickR mais l’exemple vaut aussi pour l’ensemble des pratiques de tagging – dépôt de mots-clés – que mettent en oeuvre les usagers du service FlickR sur l’ensemble de la base image disponible). On a donc de la première génération (mot-clé) et de la troisième (communautarisation). Et la seconde me direz-vous ? Et bien c’est là que réside la nouveauté et les probables moteurs de quatrième génération : la cartographie n’est plus une interface de contextualisation, elle est le reflet du territoire réel. Car tous les bibliothécaires, tous les documentalistes et tous les scouts vous le diront : la meilleure manière de se repérer sur un territoire est de disposer d’une carte à son échelle exacte.
Les moteurs de quatrième génération seront donc ceux qui permettront une mise à l’échelle, point par point, de la carte de nos requêtes avec le territoire réel de l’information (ce qui est explique l’intérêt – et l’essor – partagé par TOUS les acteurs majeurs de la recherche d’information pour les services de géolocalisation de type Google/Yahoomaps pas exemple, j’en passe et d’autres GoogleEarth ou géoportails).
Non pas "une" carte à l’échelle "du" territoire, mais autant de cartes que le nécessite ma mouvante territorialité et celle de ma communauté. Comme l’indique Daniel Kaplan : "la carte est le territoire, non parce qu’elle en serait devenue le
reflet fidèle et exhaustif, mais parce qu’elle le produit, parce
qu’elle le remplace à l’occasion, parce qu’elle interagit sans cesse
avec lui."
Je ne suis pas d’accord avec l’analyse qui est donnée. En effet :
– si j’utilise Rollyo, qui est un moteur social, j’obtiens mes résultats sous forme de liste ; il n’y a pas vraiment de clusterisation à l’exception d’un classement par type de source (blog, news, web) ;
– si j’utilise Clusty, j’obtiendrai de la clusteristion, mais l’outil ne fait pas partie des moteurs sociaux. Il s’agit d’un métamoteur exploitant des moteurs que vous reprendriez dans la 1ère et la 2ème génération ;
– si j’utilise Kartoo, j’obtiens un résultat cartographique, or Kartoo ressemble à Clusty sur ce point, il s’agit d’un métamoteur exploitant d’autres moteurs.
Ainsi, ma réalité expérimentale infirme l’analyse qui est donnée.
Personnellement, je ne verrais que deux types de moteurs. Les premiers seraient algorithmiques, et les seconds sociaux. Quant à la présentation des résultats, il ne fait nul doute que nous n’en sommes qu’au début, et qu’il est probable qu’un « Google » arrivera un jour dans le secteur qui rendra leur utilisation plus importante qu’elle ne l’est pour le moment.
Manu> L’analyse que je propose ne vaut qu’à une échelle « macro ». Il est évident que pris indépendamment, chaque outil, chaque moteur (et je ne parle même pas des métamoteurs) utilise à des degrés divers les fonctionalités présentées dans mon billet. Cependant, je maintiens que la tendance générale est bien celle que je décris : mot-clé/liste, liens/cartographie, communauté/socialisation. Pour le dire autrement, il était impensable de penser cartographier le net (et les relations entre site) avant l’arrivée du PageRank. De même, aucun moteur ne s’intéressait à la communautarisation de résultats de recherche avant que l’essor de sites de signets partagés ne décolle vraiment (et ne fasse preuve d’une certaine pertinence). Davantage convaincu ?
Le problème est que je ne « vois » pas cette tendance. Je vois l’actualité du domaine, mais mon interprétation ne va pas dans le mmême sens. Peut-être n’ai-je pas les mêmes signes sous les yeux ?
Ainsi, concernant la cartographie du Net, on pourrait imaginer construire une carte repoduisant la proximité des documents correspondants à une requête. Pour calculer cette proximité, on utiliserait les méthodes classiques (cosinus par exemple, mais ils en existent beaucoup d’autres), et l’on constuirait la carte de cette manière, sans employer une analyse des liens. Cete description s’appuie sur des souvenirs de lecture dans le domaine de l’IR (en l’occurrence Modern Information Retrieval de Baeza-Yates et Ribeiro-Neto).
En ce qui concerne la future génération de moteur, il est probable qu’elle s’appuiera sur une évolution des habitudes du Web ; les moteurs devenant sociaux après le web, peut-être deviendront-ils sémantique d’ici peu ?
Manu> « mon interprétation ne va pas dans le même sens ». Tant mieux 🙂 Je ne propose qu’un angle d’analyse. La sémantique que vous soulevez est effectivement une piste très sérieuse. Peut être que la quatrième génération de moteurs prendre en charge l’adressage sémantique si cher à Tim Berners-Lee. Ou pour rester dans le domaine francophone, un web socio-sémantique : http://www.sociosemanticweb.org/
Oui, dans mon commentaire précédent, j’ai finalement supprimé avant de poster que ce n’était pas bien grave que nous ayons des vues différentes. Au final, cela m’aura fait réfléchir sur le sujet, ce qui est finalement le but recherché lors de la lecture de vos billets.
Par contre, je n’ai pas encore réussi à ouvrir le lien que vous donnez. Je testerai cela à partir de chez moi ce soir.