Arbres de connaissance

Le site drunkmenworkhere.org s’est lancé depuis un an (avril 2005) dans une expérimentation peu banale.

  • Phase 1 : construire un corpus de
    2,147,483,647 pages web
  • Phase 2 : les ordonner délibérément dans selon une arborescence binaire (en gros, chaque parent a deux enfants, en moins gros, voir les explications de Wikipedia)
  • Phase 3 : observer en enregistrer le comportement des 3 principaux crawlers que sont le Yahoo!Slurp, le GoogleBot et le MSNBot.
  • Phase 4 : contempler le résultat.

Et essayer de comprendre. Comprendre ce que sont ces nouveaux arbres de connaissance à la lumière ce ceux-ci devenus ceux-là mais tous issus du même. Comprendre pourquoi et comment une telle différence entre la voracité touffue et quasi-synaptique de Yahoo!Slurp, l’harmonie médiane et quasi-fractale du GoogleBot, et l’indigence erratique du MSNBot.
Comprendre qu’au vu de ce tableau synoptique et considérant le corpus de départ (plus de 2 milliards de pages web quand aux dernières informations publiées, Google en annonçait 8 milliards) cette expérimentation donne des résultats empiriques hallucinants de conformité avec ce que l’on ne faisait que jusqu’ici que supposer en terme de couverture des moteurs de recherche :
Overall_2
 

Comprendre – j’essaie encore 🙁 – comment la question de la pertinence ("relevance") peut se reposer à la lumière de celle de l’exhaustivité de la couverture.
Voici quelques informations piochées dans les analyses fournies sur le site (le mieux étant encore d’aller les lire et les découvrir) :

  • (Fig 1) la courbe de montée en puissance sur un an des 3 crawlers est sensiblement identique en respectant les échelles de résultat.
  • (Fig 3) le nombre de noeuds (et non de pages comme sur la fig 1) crawlés par niveau d’arborescence (et non plus dans le temps) selon une échelle logarithmique est très parlant (sauf que j’ai arrêté les maths en seconde) : on y observe une très grande régularité de Yahoo! alors que Google et MSN chutent tous deux sensiblement au même niveau (entre le 10ème et le 14ème niveau d’arborescence)
  • (Fig 8) le GoogleBot visite davantage les noeuds parents que leurs enfants, ce qui explique sa forme plus "naturelle".
  • etc … etc … tout le reste de la page des résulats commentés de l’expérimentation est à l’avenant et mériterait que l’on s’y attarde davantage.

A découvrir A-B-S-O-L-U-M-E-N-T.
(Via l’indispensable Infosthetics)

2 commentaires pour “Arbres de connaissance

  1. Un peu de BOT-anique !

    Sauras-tu identifier ces plantes ?
    Explications chez Olivier qui a été plus rapide (encore – mais le calembour était irrésistible).
    (via infosthetics)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut