Commentaires sur : Crawling, Mining, Scraping

Par : Candide Kemmler

Candide Kemmler — Tue, 08 Jan 2008 18:43:35 +0000

(une partie au moins de) la question semble résolue: http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/

Par : Olivier

Olivier — Tue, 08 Jan 2008 16:48:03 +0000

Rémy> Oui, sur le dernier point (cache de Google et crawling), la question est celle de la balance entre l’opt-in et l’opt-out. Laquelle (balance) entre en résonnance avec l’usage équitable (fair-use) qui peut ou non être fait des contenus indexés.

Par : Rémy

Rémy — Tue, 08 Jan 2008 16:43:17 +0000

le scraping est aussi utilisé pour la veille automatique du web : c’est une étape qui existe déjà depuis quelques temps : après la recherche et l’exploration, l’information pertinente vient à nous (par exemple, le scrapping permet de créer des flux rss sur des sites qui n’en ont pas). la dimension légale du scrapping est importante car cela peut freiner l’expansion de cette étape : ces outils peuvent ils être utiliser librement (voir la difficulté avec l’outil concernant facebook) mais on peut aussi penser que le crawling est une atteinte forte au droit d’auteur puisqu’il faut en principe une autorisation de l’auteur pour que son oeuvre soit « copiée » et « indexée » (le cache de google est en ce sens une atteinte extrêmement forte à ce droit mais personne ne semble s’en plaindre sauf la presse en ligne…)

Par : Olivier

Olivier — Tue, 08 Jan 2008 14:36:31 +0000

Complément à mon commentaire précédent …
Le positionnement définitoire des notions ne change pas. Leur contexte d’usage est en revanche très instable et mouvant, et ce avec des radicalités qui nécessitent effectivement une analyse de fond.

Par : Olivier

Olivier — Tue, 08 Jan 2008 14:32:25 +0000

Jean-Michel> Bigre … je ne pensais pas saper le coeur de notre belle discipline en un seul billet de blog :-))) Blague à part, disons que je crois – et il me semble que c’est ce que les travaux de pédauque démontrent en partie – qu’il faudra peut-être très prochainement sinon « refonder » ou « réinventer » à tout le moins « reproblématiser » ou « reposer » l’épistémologie de ces différentes notions dans le continuum historique de notre champ.

Par : JM Salaun

JM Salaun — Tue, 08 Jan 2008 14:15:06 +0000

Le marketing s’est tjrs intéressé aux données « basiques » et les échanges plus ou moins licites et les histoires de vol, dans ce domaine ne datent pas d’hier.
Sur le deuxième point, je maintiens qu’il y a là un pb important.
Prenons une comparaison : pour un zoologue, l’homme est un animal parmi d’autres, qu’il faut étudier au même titre que d’autres ; pour un sociologue (sauf peut-être B. Latour 😉 c’est différent.
De même pour un informaticien, tous les objets sont de même nature, des données et ils peuvent et doivent être manipulés avec les mêmes méthodes et outils logiques. Pour quelqu’un des sciences de l’information, la problématique est sensiblement différente. Confondre les niveaux peut conduire à un chaos informationnel. Qu’il y ait des glissements et des échanges entre les disciplines est salutaire et permet de remettre en cause des vérités éphémères, mais il ne faut pour autant renoncer trop vite au cœur de la discipline. Sinon demain on sera tout simplement obligé de la réinventer après peut-être quelques dégâts, dont ceux que tu signales justement.

Par : Olivier

Olivier — Tue, 08 Jan 2008 12:10:27 +0000

Jean-Michel> On est à moitié d’accord 🙂
Le scrapping dont parle Pisani dans son billet ne touche précisément pas les données comportementales au sens habituel du terme (actes d’achat, mots-clés saisis, etc …) Il s’attaque aux données « basiques ». Ce qui me semble intéressant dans la gradation entre « crawling », « mining » et « scraping » c’est que cela illustre assez bien le fait que tu soulignes toi même : il devient de plus en plus difficile (en dehors d’un cadre d’analyse théorique prédéfini – un bouquin de Roger par exemple:-) de catégoriser les choses de manière ternaire (données, information, métadonnées). L’indexation à large spectre, l’indexabilité et la porosité de l’ensemble des sphères documentaires font que n’importe quelle donnée/information est toujours la métadonnée d’une autre donnée/information. La « confusion » que tu soulignes à la fin de ton billet, est donc … volontaire 😉

Par : JM Salaun

JM Salaun — Tue, 08 Jan 2008 11:56:43 +0000

Je suis assez sceptique sur ton interprétation. Je pense qu’il y a un gros pb en ce moment sur l’emploi du terme « données ». Ici (scrapping), il s’agit des données identitaires et comportementales, vieux trésor du marketing. Sans doute on est passé à une autre étape avec les dits réseaux sociaux, mais cela n’a rien à voir avec les données dans un environnement documentaire.
Autre erreur que l’on retrouve souvent ailleurs : confusion entre donnée, métadonnée et document. Si j’avais le temps j’en ferai un billet ;-).