Trois manières de fouiller le web

Dans la dernière livraison d’Inf@viz, Juan C. Dürsteler propose une carte conceptuelle (mindmap) inspirée des travaux de Patricio Galeas autour de la notion de "web mining" (fouille du web, à l’image du "Data" Mining, fouille de données).
Il propose de décomposer le web mining en trois sous groupes portant sur des analyses distinctes :

WUM : "Web Usage Mining" qui s’intéresse notamment à l’analyse des logs pour retracer des profils d’utilisateurs et s’attache également à déterminer des formes ("patterns") de navigation.
WCM : "Web Content Mining" qui s’intéresse au "contenu" (pages web et résultats d’une recherche)
enfin le WSM "Web Structure Mining" qui prend en compte les hyperliens (statiques ou dynamiques)

Sur la page de Patricio Galeas on trouvera une présentation plus détaillée de ces notions, une liste de chercheurs et d’organisations y travaillant ainsi qu’une liste de logiciels, d’articles et de projets sur la question. Bref, une remarquable page ressource.
Il est intéressant de remarquer au regard du précédent billet que sans être à proprement parler de la fouille de données, les trois directions que prend la recherche sur le web collent assez bien à cette typologie :

le fonctionnement "classique" des moteurs s’apparente au web content mining
les fonctionalités de type folksonomies permettant d’ajouter des "tags" sur telle ou telle page relèvent eux d’une recherche plus "structurelle" (web structure mining), même si en l’occurence cette structuration n’est pas inhérente et objectivée (il existe tant de liens entre tant de pages) mais opérée après coup et totalement subjectivée (les "tags" sont posés a posteriori et sans aucune logique ou vue globale de l’ensemble ou sans possibilité d’objectiver ce type d’indexation).
enfin les pratiques collaboratives de recherche (signets partagés, search party et autres MyWeb) reposent entièrement sur des catégories d’usages différenciés et permettent là aussi d’isoler des formes ("patterns")

Par ailleurs chacune de ces catégories dessert plus particulièrement deux des trois types de requêtages définis par François Bourdoncle : requêtes informationnelles d’une part et navigationnelles d’autre part (le troisième type étant réservé aux requêtes transactionnelles – du type "acheter un billet d’avion" – et pouvant donc être incluses dans le groupe générique des requêtes informationnelles).

Dès que j’ai 5 minutes je remets tout ça sous la forme d’une jolie mindmap 😉

Un commentaire pour “Trois manières de fouiller le web”

Crawling, Mining, Scraping

Au commencement était le crawling. L’exploration. La recherche d’informations. Celle menée par les crawlers des moteurs de recherche. Une errance exploratoire, navigationnelle, stochastique, de lien en lien, afin de bâtir des index à leur tour naviguab…

Répondre

Laisser un commentaire Annuler la réponse

affordance.info dit :

8 janvier 2008 à 11h55

Crawling, Mining, Scraping

Au commencement était le crawling. L’exploration. La recherche d’informations. Celle menée par les crawlers des moteurs de recherche. Une errance exploratoire, navigationnelle, stochastique, de lien en lien, afin de bâtir des index à leur tour naviguab…

Répondre

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Olivier Ertzscheid

Un commentaire pour “Trois manières de fouiller le web”

Laisser un commentaire Annuler la réponse

Articles similaires