Crawling, Mining, Scraping

Au commencement était le "crawling". L’exploration. La recherche d’informations. Celle menée par les "crawlers" des moteurs de recherche. Une errance exploratoire, navigationnelle, stochastique, de lien en lien, afin de bâtir des index à leur tour naviguables, interrogeables.
Ensuite vînt le "mining". La fouille. La fouille de données (Data mining). Systématique. Analytique. Celle menée de plus en plus fréquemment par les mêmes moteurs de recherche, mais le plus souvent dans des environnements informationnels "fermés", des silos d’information comme on en trouve dans les bases de données et qu’il faut être capable non pas simplement de crawler (c’est à dire d’explorer pour ensuite les rapatrier dans le cadre d’un index – ou fichier inverse) mais bien davantage de "forer" pour, à l’issu d’un processus de raffinage parfois complexe, pouvoir pleinement les exploiter. Ce forage, cette fouille, quand elle gagna le web, le fît de trois manières différentes, sur trois terrains d’application inextricablement liés mais opérationnellement distincts : ses usages (hyper-liens), ses contenus (hyper-textes), sa structure (hyper-graphe).
– – – – – – – – – – – –
Il faudrait ici également citer pour être complet, le "moissonnage", la "récolte" (to harvest), qui permet aux moteurs de recherche, ou à des sites bâtis pour cela, d’être interopérables, inter-interrogeables (par exemple les sites d’archives ouvertes utilisant le protocole PMH – Protocol Metadata Harvesting)
– – – – – – – – – – – –
Aujourd’hui, Francis Pisani attire notre attention sur ce qui pourrait constituer une troisième étape, celle du "scraping". Scraping comme "racler". Ce terme désigne la technique utilisée par les sites de réseaux sociaux (notamment Facebook et son "Friend Finder") pour aller littéralement "racler" des données personnelles sur des sites tiers (importation de toutes vos adresses gmail par exemple) ou dans leur propre enceinte (cf la très récente affaire très bien décrite dans le billet de Francis Pisani, concernant l’importateur de données de la société Plaxo, utilisé par Robert Scoble sur Facebook pour "en sortir les noms, prénoms, dates de naissance et adresses courriel de ses 5.000 “amis”".)

Du scraping au "raping" (viol) il n’y a pas loin. A cette différence près que cette double violation (de l’intime d’une part, et des condition d’utilisation des sites tiers concernés d’autre part), est librement, aveuglément, naïvement consentie par ses "victimes", au nom du principe d’efficacité ("c’est pratique, ça va vite"). Comme le souligne également très justement Francis Pisani, ce "scraping" est la cause et la conséquence de l’inflation et de la montée en charge des sites de réseaux sociaux, au même titre que le crawling est la condition nécessaire à la construction d’index et donc, in fine, à la capacité pour chacun d’entre nous de naviguer sur le net via lesdits index.

Cette trilogie technologique (Crawling => Mining => Scraping) doit pour être bien comprise, être mise en relation avec les trois "temps" de ma petite théorie de la dérive des continents documentaires (voir ce billet pour le petit schéma explicatif). Après avoir exploré (crawling) les 4 plaques tectoniques constituant notre environnement informationnel quotidien (web public, privé, intime, personnel), après s’être mis en capacité de fouiller (mining) tant la structure que le contenu des informations et des données y transitant, le temps est désormais venu de racler (scraping) les fonds de tiroir. Le tort serait de croire que lesdits fonds de tiroir sont assimilables à de l’accessoire. Ils sont tout au contraire essentiels : la perte d’un texte ou du contenu d’un (ou plusieurs) courriel n’est rien à côté de la perte de l’ensemble d’un carnet d’adresse et de la "mine" d’informations qu’il contient.

<Update du soir>Les choses vont décidemment trop vite, heureusement, les commentateurs de ce blog suivent l’actualité en temps réel – merci Candide 🙂 Donc Plaxo (le "scraper"), Facebook, mais aussi … Google, viennent de rejoindre le Dataportability Group, un groupement d’intérêt dont le credo est "we need a DHCP for Identity" (pour les non geeks, le protocole DHCP permet d’attribuer une adresse IP automatique à votre ordinateur, pour approfondir, Wikipedia explique ça très bien). Et donc ? Donc que Google et Plaxo s’intéressent aux protocoles permettant de faciliter la gestion des traces numériques dans le cadre d’un standard interopérable, cela n’est pas une surprise (cf pour Google, l’initiative OpenSocial). En revanche, côté Facebook, c’est ce que l’on appelle un changement de bord (qui était par ailleurs prévisible). Car l’enjeu est d’importance comme le souligne Techcrunch il s’agit de permettre aux utilisateurs "to access their friends and media across all the
applications, social networking sites and widgets that implement the
design into their systems." (sur ce même sujet voir le dernier billet de ReadWriteWeb ainsi que celui de FredCavazza) Et donc ? Donc en quelques heures le scraping est redevenu le "degré zéro" du crawling, et nos chers moteurs pourront probablement très prochainement s’appuyer sur un protocole rendant interopérable les diverses données contenues dans les différents sites de réseaux sociaux et leurs applications tierces. Soit une bien belle transition de percolation en perspective … </Update>

8 commentaires pour “Crawling, Mining, Scraping”

Je suis assez sceptique sur ton interprétation. Je pense qu’il y a un gros pb en ce moment sur l’emploi du terme « données ». Ici (scrapping), il s’agit des données identitaires et comportementales, vieux trésor du marketing. Sans doute on est passé à une autre étape avec les dits réseaux sociaux, mais cela n’a rien à voir avec les données dans un environnement documentaire.
Autre erreur que l’on retrouve souvent ailleurs : confusion entre donnée, métadonnée et document. Si j’avais le temps j’en ferai un billet ;-).

Répondre

Jean-Michel> On est à moitié d’accord 🙂
Le scrapping dont parle Pisani dans son billet ne touche précisément pas les données comportementales au sens habituel du terme (actes d’achat, mots-clés saisis, etc …) Il s’attaque aux données « basiques ». Ce qui me semble intéressant dans la gradation entre « crawling », « mining » et « scraping » c’est que cela illustre assez bien le fait que tu soulignes toi même : il devient de plus en plus difficile (en dehors d’un cadre d’analyse théorique prédéfini – un bouquin de Roger par exemple:-) de catégoriser les choses de manière ternaire (données, information, métadonnées). L’indexation à large spectre, l’indexabilité et la porosité de l’ensemble des sphères documentaires font que n’importe quelle donnée/information est toujours la métadonnée d’une autre donnée/information. La « confusion » que tu soulignes à la fin de ton billet, est donc … volontaire 😉

Répondre

Le marketing s’est tjrs intéressé aux données « basiques » et les échanges plus ou moins licites et les histoires de vol, dans ce domaine ne datent pas d’hier.
Sur le deuxième point, je maintiens qu’il y a là un pb important.
Prenons une comparaison : pour un zoologue, l’homme est un animal parmi d’autres, qu’il faut étudier au même titre que d’autres ; pour un sociologue (sauf peut-être B. Latour 😉 c’est différent.
De même pour un informaticien, tous les objets sont de même nature, des données et ils peuvent et doivent être manipulés avec les mêmes méthodes et outils logiques. Pour quelqu’un des sciences de l’information, la problématique est sensiblement différente. Confondre les niveaux peut conduire à un chaos informationnel. Qu’il y ait des glissements et des échanges entre les disciplines est salutaire et permet de remettre en cause des vérités éphémères, mais il ne faut pour autant renoncer trop vite au cœur de la discipline. Sinon demain on sera tout simplement obligé de la réinventer après peut-être quelques dégâts, dont ceux que tu signales justement.

Répondre

Jean-Michel> Bigre … je ne pensais pas saper le coeur de notre belle discipline en un seul billet de blog :-))) Blague à part, disons que je crois – et il me semble que c’est ce que les travaux de pédauque démontrent en partie – qu’il faudra peut-être très prochainement sinon « refonder » ou « réinventer » à tout le moins « reproblématiser » ou « reposer » l’épistémologie de ces différentes notions dans le continuum historique de notre champ.

Répondre

Complément à mon commentaire précédent …
Le positionnement définitoire des notions ne change pas. Leur contexte d’usage est en revanche très instable et mouvant, et ce avec des radicalités qui nécessitent effectivement une analyse de fond.

Répondre

le scraping est aussi utilisé pour la veille automatique du web : c’est une étape qui existe déjà depuis quelques temps : après la recherche et l’exploration, l’information pertinente vient à nous (par exemple, le scrapping permet de créer des flux rss sur des sites qui n’en ont pas). la dimension légale du scrapping est importante car cela peut freiner l’expansion de cette étape : ces outils peuvent ils être utiliser librement (voir la difficulté avec l’outil concernant facebook) mais on peut aussi penser que le crawling est une atteinte forte au droit d’auteur puisqu’il faut en principe une autorisation de l’auteur pour que son oeuvre soit « copiée » et « indexée » (le cache de google est en ce sens une atteinte extrêmement forte à ce droit mais personne ne semble s’en plaindre sauf la presse en ligne…)

Répondre

Rémy> Oui, sur le dernier point (cache de Google et crawling), la question est celle de la balance entre l’opt-in et l’opt-out. Laquelle (balance) entre en résonnance avec l’usage équitable (fair-use) qui peut ou non être fait des contenus indexés.

Répondre

(une partie au moins de) la question semble résolue: http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/

Répondre

Laisser un commentaire Annuler la réponse

JM Salaun dit :

8 janvier 2008 à 12h56

Je suis assez sceptique sur ton interprétation. Je pense qu’il y a un gros pb en ce moment sur l’emploi du terme « données ». Ici (scrapping), il s’agit des données identitaires et comportementales, vieux trésor du marketing. Sans doute on est passé à une autre étape avec les dits réseaux sociaux, mais cela n’a rien à voir avec les données dans un environnement documentaire.
Autre erreur que l’on retrouve souvent ailleurs : confusion entre donnée, métadonnée et document. Si j’avais le temps j’en ferai un billet ;-).

Répondre
Olivier dit :

8 janvier 2008 à 13h10

Jean-Michel> On est à moitié d’accord 🙂
Le scrapping dont parle Pisani dans son billet ne touche précisément pas les données comportementales au sens habituel du terme (actes d’achat, mots-clés saisis, etc …) Il s’attaque aux données « basiques ». Ce qui me semble intéressant dans la gradation entre « crawling », « mining » et « scraping » c’est que cela illustre assez bien le fait que tu soulignes toi même : il devient de plus en plus difficile (en dehors d’un cadre d’analyse théorique prédéfini – un bouquin de Roger par exemple:-) de catégoriser les choses de manière ternaire (données, information, métadonnées). L’indexation à large spectre, l’indexabilité et la porosité de l’ensemble des sphères documentaires font que n’importe quelle donnée/information est toujours la métadonnée d’une autre donnée/information. La « confusion » que tu soulignes à la fin de ton billet, est donc … volontaire 😉

Répondre
JM Salaun dit :

8 janvier 2008 à 15h15

Le marketing s’est tjrs intéressé aux données « basiques » et les échanges plus ou moins licites et les histoires de vol, dans ce domaine ne datent pas d’hier.
Sur le deuxième point, je maintiens qu’il y a là un pb important.
Prenons une comparaison : pour un zoologue, l’homme est un animal parmi d’autres, qu’il faut étudier au même titre que d’autres ; pour un sociologue (sauf peut-être B. Latour 😉 c’est différent.
De même pour un informaticien, tous les objets sont de même nature, des données et ils peuvent et doivent être manipulés avec les mêmes méthodes et outils logiques. Pour quelqu’un des sciences de l’information, la problématique est sensiblement différente. Confondre les niveaux peut conduire à un chaos informationnel. Qu’il y ait des glissements et des échanges entre les disciplines est salutaire et permet de remettre en cause des vérités éphémères, mais il ne faut pour autant renoncer trop vite au cœur de la discipline. Sinon demain on sera tout simplement obligé de la réinventer après peut-être quelques dégâts, dont ceux que tu signales justement.

Répondre
Olivier dit :

8 janvier 2008 à 15h32

Jean-Michel> Bigre … je ne pensais pas saper le coeur de notre belle discipline en un seul billet de blog :-))) Blague à part, disons que je crois – et il me semble que c’est ce que les travaux de pédauque démontrent en partie – qu’il faudra peut-être très prochainement sinon « refonder » ou « réinventer » à tout le moins « reproblématiser » ou « reposer » l’épistémologie de ces différentes notions dans le continuum historique de notre champ.

Répondre
Olivier dit :

8 janvier 2008 à 15h36

Complément à mon commentaire précédent …
Le positionnement définitoire des notions ne change pas. Leur contexte d’usage est en revanche très instable et mouvant, et ce avec des radicalités qui nécessitent effectivement une analyse de fond.

Répondre
Rémy dit :

8 janvier 2008 à 17h43

le scraping est aussi utilisé pour la veille automatique du web : c’est une étape qui existe déjà depuis quelques temps : après la recherche et l’exploration, l’information pertinente vient à nous (par exemple, le scrapping permet de créer des flux rss sur des sites qui n’en ont pas). la dimension légale du scrapping est importante car cela peut freiner l’expansion de cette étape : ces outils peuvent ils être utiliser librement (voir la difficulté avec l’outil concernant facebook) mais on peut aussi penser que le crawling est une atteinte forte au droit d’auteur puisqu’il faut en principe une autorisation de l’auteur pour que son oeuvre soit « copiée » et « indexée » (le cache de google est en ce sens une atteinte extrêmement forte à ce droit mais personne ne semble s’en plaindre sauf la presse en ligne…)

Répondre
Olivier dit :

8 janvier 2008 à 17h48

Rémy> Oui, sur le dernier point (cache de Google et crawling), la question est celle de la balance entre l’opt-in et l’opt-out. Laquelle (balance) entre en résonnance avec l’usage équitable (fair-use) qui peut ou non être fait des contenus indexés.

Répondre
Candide Kemmler dit :

8 janvier 2008 à 19h43

(une partie au moins de) la question semble résolue: http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/

Répondre

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Olivier Ertzscheid

8 commentaires pour “Crawling, Mining, Scraping”

Laisser un commentaire Annuler la réponse

Articles similaires