Dans la dernière livraison d’Inf@viz, Juan C. Dürsteler propose une carte conceptuelle (mindmap) inspirée des travaux de Patricio Galeas autour de la notion de "web mining" (fouille du web, à l’image du "Data" Mining, fouille de données).
Il propose de décomposer le web mining en trois sous groupes portant sur des analyses distinctes :
- WUM : "Web Usage Mining" qui s’intéresse notamment à l’analyse des logs pour retracer des profils d’utilisateurs et s’attache également à déterminer des formes ("patterns") de navigation.
- WCM : "Web Content Mining" qui s’intéresse au "contenu" (pages web et résultats d’une recherche)
- enfin le WSM "Web Structure Mining" qui prend en compte les hyperliens (statiques ou dynamiques)
Sur la page de Patricio Galeas on trouvera une présentation plus détaillée de ces notions, une liste de chercheurs et d’organisations y travaillant ainsi qu’une liste de logiciels, d’articles et de projets sur la question. Bref, une remarquable page ressource.
Il est intéressant de remarquer au regard du précédent billet que sans être à proprement parler de la fouille de données, les trois directions que prend la recherche sur le web collent assez bien à cette typologie :
- le fonctionnement "classique" des moteurs s’apparente au web content mining
- les fonctionalités de type folksonomies permettant d’ajouter des "tags" sur telle ou telle page relèvent eux d’une recherche plus "structurelle" (web structure mining), même si en l’occurence cette structuration n’est pas inhérente et objectivée (il existe tant de liens entre tant de pages) mais opérée après coup et totalement subjectivée (les "tags" sont posés a posteriori et sans aucune logique ou vue globale de l’ensemble ou sans possibilité d’objectiver ce type d’indexation).
- enfin les pratiques collaboratives de recherche (signets partagés, search party et autres MyWeb) reposent entièrement sur des catégories d’usages différenciés et permettent là aussi d’isoler des formes ("patterns")
Par ailleurs chacune de ces catégories dessert plus particulièrement deux des trois types de requêtages définis par François Bourdoncle : requêtes informationnelles d’une part et navigationnelles d’autre part (le troisième type étant réservé aux requêtes transactionnelles – du type "acheter un billet d’avion" – et pouvant donc être incluses dans le groupe générique des requêtes informationnelles).
Dès que j’ai 5 minutes je remets tout ça sous la forme d’une jolie mindmap 😉
Crawling, Mining, Scraping
Au commencement était le crawling. L’exploration. La recherche d’informations. Celle menée par les crawlers des moteurs de recherche. Une errance exploratoire, navigationnelle, stochastique, de lien en lien, afin de bâtir des index à leur tour naviguab…