La clusterisation, c’est à dire le fait de proposer des mots-clés contextuels permettant d’affiner une requête est l’une des fonctionnalités les plus intéressantes que proposent certains moteurs (Exalead en tête). Google semble depuis quelques temps s’y intéresser, comme le montre cette copie d’écran repérée par Sylvie Dalbin. Un intérêt sur lequel Christophe Asselin a mené l’enquête indiquant, je cite, que "Le service Google Co-op lancé en mai 2006, vous permet notamment de vous abonner à des catégories dont le contenu web à été indexé par des professionnels selon des critères déterminés (des labels : annotations du contenu via des étiquettes)." (voir le reste de son billet).
Pour l’heure, seuls 6 grands thèmes sont proposés à l’annotation, avec pour chacun entre 10 et 15 "labels" accessibles derrière une seconde arborescence. Au total donc 3 niveaux d’indexation. Mais rien n’indique que cela soit figé.
A la différence de ce qu’indique le billet de Christophe, n’importe qui peut participer à ce travail d’indexation. Il suffit de disposer d’un compte sur Google Co-op. On peut alors ajouter "contribuer" à n’importe laquelle des 6 grandes catégories en ajoutant des "labels" choisis dans la liste des 15 proposés.
Au final, pour l’usager, une requête dans l’un des 6 grand thèmes renvoie dans un premier temps les labels associés au thème qui permettent de venir enrichir la recherche via l’opérateur "more:" (avec, d’après mes premiers tests, quelques très étranges résultats sur l’augmentation et la diminition du nombre de sites trouvés avec cet opérateur … à suivre …). Dans un deuxième temps, une fois seulement que l’on a choisi d’ajouter un label parmi ceux proposés, on voit alors apparaître, dans la description du site, le surnom de l’utilisateur ayant ainsi labellisé le site en question.
Preuve en image :
Difficile pour l’heure de dire vers quoi évoluera ce service. Mais il est intéressant de constater qu’il propose une sorte d’hybridation entre des services existants :
- l’ajout de sites par des utilisateurs enregistrés fait penser au fonctionnement des annuaires.
- l’ajout de "labels" pourrait évoquer les folksonomies, mais ces "labels" étant en nombre restreint et comme il ne semble pas possible d’en ajouter de nouveaux (ou alors je n’ai pas trouvé comment …), c’est bien de taxonomie qu’il s’agit
- enfin, l’affichage des labels "annuarisés" sur une page de résultats "moteurisés" évoque clairement une logique de clusterisation.
A suivre de près. D’autant que je reste convaincu que les techniques de clustering (alliées à un habillage en "nuage de tags") sont l’une des perspectives les plus intéressantes pour les moteurs.
Au sujet du clustering encore, on consultera avec intérêt l’un des derniers billets de Read/WriteWeb au sujet de Clusty, qui m’a permis de découvrir 2 moteurs : Dumbfind et Infocious, surfant eux aussi sur la même vague clusterisée.
Attention avec l’offre d’Exalead, c’est automatique : les thèmes sont extraits automatiquement d’une « analyse » des ressources (http://dossierdoc.typepad.com/descripteurs/2005/09/les_rsultats_de.html), alors qu’avec Google c’est tout « simplement » de l’indexation humaine. Une différence majeure ! A suivre. Dalb
Sylvie> Oui oui, on est bien d’accord (l’entame de mon billet n’étant effectivement pas très claire). Ce qui est troublant dans l’affaire, c’est le dernier point que je pointe dans mon billet : « l’affichage des labels « annuarisés » sur une page de résultats « moteurisés » évoque clairement une logique de clusterisation. »
C’est cela qu’il va falloir suivre, pour voir si Google, apôtre du tout machinique, cédera aux sirènes de la validation humaine, ou s’en ira chasser sur les terres algorithmiques de clusterisation à la mode Exalead et autres Clusty (je parie pour cette dernière voie).
A suivre en effet 🙂
Co-op me semble vraiment très intéressant et surtout très astucieux, pour une raison qui n’est pas évoquée dans les papiers… ou bien j’ai lu trop vite ?
Le travail d’indexation n’est pas réalisé par des bénévoles laborieux… Au départ, Google propose une personnalisation de son moteur à des sites affiliés au programme. C’est donc un service rendu (gratuit) à une communauté, en échange d’un liste de sites référents validés. Le service est directement intégrable au site affilé.
Google récupère donc la liste des références validées par cette communauté, répond aux requêtes en suivant les préférences établies par cette communauté (les sites validés sont prioritaires) et évidemment scrute les mots-clés et mesure le trafic généré sur ce moteur ‘spécialisé’.
Les catégories d’affinage proposées à l’usager lambda ne sont donc que le sous-produit du service de recherche customisé offert au site affilé, en échange de son expertise.
Moi, je trouve ça plutôt pas mal. Très bien joué même car il y a un ressort dans le système pour que ça marche.
Pour Google, ça reste bien du ‘tout machinique’ comme dirait Olivier. Mais à quoi bon opposer les algorithmes et les automates à l’expertise humaine ? Les deux se renforcent mutuellement, dans tous les cas. Même pour PageRank, si les automates et les algorithmes fonctionnent correctement, c’est PARCE QUE les scripteurs du Web ont écrit et posés des liens de façon efficace !
A quoi bon opposer ces deux logiques ?
Un mot pour finir sur le vocabulaire – c’est mon côté casse-pied favori 🙂
Clusterisation ? Le terme décrit bien la logique de fonctionnement du moteur dans la phase d’analyse, en repérant les agglomération de mots clés autour de concepts ou de mot clé supllémentaire.
Mais pour l’usager, n’est-ce pas exactement l’inverse d’une clusterisation ? A mon avis, le service d’affinage relève plutôt de la segmentation, non ?
Je viens de taper ‘strauss’ dans Exalead… A droite, c’est vraiment impressionnant, ion croirait ouvrir un dictionnaire de noms propres ! Exalead, ‘apôtre du machinique’ ?
🙂