<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	
	>
<channel>
	<title>
	Commentaires sur : Crawling, Mining, Scraping	</title>
	<atom:link href="https://affordance.framasoft.org/2008/01/crawling-mining/feed/" rel="self" type="application/rss+xml" />
	<link>https://affordance.framasoft.org/2008/01/crawling-mining/</link>
	<description>Le blog d&#039;un maître de conférences en sciences de l&#039;information. ISSN 2260-1856</description>
	<lastBuildDate>Tue, 08 Jan 2008 18:43:35 +0000</lastBuildDate>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=7.0</generator>
	<item>
		<title>
		Par : Candide Kemmler		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9902</link>

		<dc:creator><![CDATA[Candide Kemmler]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 18:43:35 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9902</guid>

					<description><![CDATA[(une partie au moins de) la question semble résolue: http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/
]]></description>
			<content:encoded><![CDATA[<p>(une partie au moins de) la question semble résolue: <a href="http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/" rel="nofollow ugc">http://www.techcrunch.com/2008/01/08/this-day-will-be-remembered-facebook-google-and-plaxo-join-the-dataportability-workgroup/</a></p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : Olivier		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9901</link>

		<dc:creator><![CDATA[Olivier]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 16:48:03 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9901</guid>

					<description><![CDATA[Rémy&gt; Oui, sur le dernier point (cache de Google et crawling), la question est celle de la balance entre l&#039;opt-in et l&#039;opt-out. Laquelle (balance) entre en résonnance avec l&#039;usage équitable (fair-use) qui peut ou non être fait des contenus indexés.
]]></description>
			<content:encoded><![CDATA[<p>Rémy> Oui, sur le dernier point (cache de Google et crawling), la question est celle de la balance entre l&rsquo;opt-in et l&rsquo;opt-out. Laquelle (balance) entre en résonnance avec l&rsquo;usage équitable (fair-use) qui peut ou non être fait des contenus indexés.</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : Rémy		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9900</link>

		<dc:creator><![CDATA[Rémy]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 16:43:17 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9900</guid>

					<description><![CDATA[le scraping est aussi utilisé pour la veille automatique du web : c&#039;est une étape qui existe déjà depuis quelques temps : après la recherche et l&#039;exploration, l&#039;information pertinente vient à nous (par exemple, le scrapping permet de créer des flux rss sur des sites qui n&#039;en ont pas). la dimension légale du scrapping est importante car cela peut freiner l&#039;expansion de cette étape : ces outils peuvent ils être utiliser librement (voir la difficulté avec l&#039;outil concernant facebook) mais on peut aussi penser que le crawling est une atteinte forte au droit d&#039;auteur puisqu&#039;il faut en principe une autorisation de l&#039;auteur pour que son oeuvre soit &quot;copiée&quot; et &quot;indexée&quot; (le cache de google est en ce sens une atteinte extrêmement forte à ce droit mais personne ne semble s&#039;en plaindre sauf la presse en ligne...)
]]></description>
			<content:encoded><![CDATA[<p>le scraping est aussi utilisé pour la veille automatique du web : c&rsquo;est une étape qui existe déjà depuis quelques temps : après la recherche et l&rsquo;exploration, l&rsquo;information pertinente vient à nous (par exemple, le scrapping permet de créer des flux rss sur des sites qui n&rsquo;en ont pas). la dimension légale du scrapping est importante car cela peut freiner l&rsquo;expansion de cette étape : ces outils peuvent ils être utiliser librement (voir la difficulté avec l&rsquo;outil concernant facebook) mais on peut aussi penser que le crawling est une atteinte forte au droit d&rsquo;auteur puisqu&rsquo;il faut en principe une autorisation de l&rsquo;auteur pour que son oeuvre soit « copiée » et « indexée » (le cache de google est en ce sens une atteinte extrêmement forte à ce droit mais personne ne semble s&rsquo;en plaindre sauf la presse en ligne&#8230;)</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : Olivier		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9899</link>

		<dc:creator><![CDATA[Olivier]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 14:36:31 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9899</guid>

					<description><![CDATA[Complément à mon commentaire précédent ...
Le positionnement définitoire des notions ne change pas. Leur contexte d&#039;usage est en revanche très instable et mouvant, et ce avec des radicalités qui nécessitent effectivement une analyse de fond.
]]></description>
			<content:encoded><![CDATA[<p>Complément à mon commentaire précédent &#8230;<br />
Le positionnement définitoire des notions ne change pas. Leur contexte d&rsquo;usage est en revanche très instable et mouvant, et ce avec des radicalités qui nécessitent effectivement une analyse de fond.</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : Olivier		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9898</link>

		<dc:creator><![CDATA[Olivier]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 14:32:25 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9898</guid>

					<description><![CDATA[Jean-Michel&gt; Bigre ... je ne pensais pas saper le coeur de notre belle discipline en un seul billet de blog :-))) Blague à part, disons que je crois - et il me semble que c&#039;est ce que les travaux de pédauque démontrent en partie - qu&#039;il faudra peut-être très prochainement sinon &quot;refonder&quot; ou &quot;réinventer&quot; à tout le moins &quot;reproblématiser&quot; ou &quot;reposer&quot; l&#039;épistémologie de ces différentes notions dans le continuum historique de notre champ.
]]></description>
			<content:encoded><![CDATA[<p>Jean-Michel> Bigre &#8230; je ne pensais pas saper le coeur de notre belle discipline en un seul billet de blog :-))) Blague à part, disons que je crois &#8211; et il me semble que c&rsquo;est ce que les travaux de pédauque démontrent en partie &#8211; qu&rsquo;il faudra peut-être très prochainement sinon « refonder » ou « réinventer » à tout le moins « reproblématiser » ou « reposer » l&rsquo;épistémologie de ces différentes notions dans le continuum historique de notre champ.</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : JM Salaun		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9897</link>

		<dc:creator><![CDATA[JM Salaun]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 14:15:06 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9897</guid>

					<description><![CDATA[Le marketing s&#039;est tjrs intéressé aux données &quot;basiques&quot; et les échanges plus ou moins licites et les histoires de vol, dans ce domaine ne datent pas d&#039;hier.
Sur le deuxième point, je maintiens qu&#039;il y a là un pb important.
Prenons une comparaison : pour un zoologue, l&#039;homme est un animal parmi d&#039;autres, qu&#039;il faut étudier au même titre que d&#039;autres ; pour un sociologue (sauf peut-être B. Latour ;-) c&#039;est différent.
De même pour un informaticien, tous les objets sont de même nature, des données et ils peuvent et doivent être manipulés avec les mêmes méthodes et outils logiques. Pour quelqu&#039;un des sciences de l&#039;information, la problématique est sensiblement différente. Confondre les niveaux peut conduire à un chaos informationnel. Qu&#039;il y ait des glissements et des échanges entre les disciplines est salutaire et permet de remettre en cause des vérités éphémères, mais il ne faut pour autant renoncer trop vite au cœur de la discipline. Sinon demain on sera tout simplement obligé de la réinventer après peut-être quelques dégâts, dont ceux que tu signales justement.
]]></description>
			<content:encoded><![CDATA[<p>Le marketing s&rsquo;est tjrs intéressé aux données « basiques » et les échanges plus ou moins licites et les histoires de vol, dans ce domaine ne datent pas d&rsquo;hier.<br />
Sur le deuxième point, je maintiens qu&rsquo;il y a là un pb important.<br />
Prenons une comparaison : pour un zoologue, l&rsquo;homme est un animal parmi d&rsquo;autres, qu&rsquo;il faut étudier au même titre que d&rsquo;autres ; pour un sociologue (sauf peut-être B. Latour 😉 c&rsquo;est différent.<br />
De même pour un informaticien, tous les objets sont de même nature, des données et ils peuvent et doivent être manipulés avec les mêmes méthodes et outils logiques. Pour quelqu&rsquo;un des sciences de l&rsquo;information, la problématique est sensiblement différente. Confondre les niveaux peut conduire à un chaos informationnel. Qu&rsquo;il y ait des glissements et des échanges entre les disciplines est salutaire et permet de remettre en cause des vérités éphémères, mais il ne faut pour autant renoncer trop vite au cœur de la discipline. Sinon demain on sera tout simplement obligé de la réinventer après peut-être quelques dégâts, dont ceux que tu signales justement.</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : Olivier		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9896</link>

		<dc:creator><![CDATA[Olivier]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 12:10:27 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9896</guid>

					<description><![CDATA[Jean-Michel&gt; On est à moitié d&#039;accord :-)
Le scrapping dont parle Pisani dans son billet ne touche précisément pas les données comportementales au sens habituel du terme (actes d&#039;achat, mots-clés saisis, etc ...) Il s&#039;attaque aux données &quot;basiques&quot;. Ce qui me semble intéressant dans la gradation entre &quot;crawling&quot;, &quot;mining&quot; et &quot;scraping&quot; c&#039;est que cela illustre assez bien le fait que tu soulignes toi même : il devient de plus en plus difficile (en dehors d&#039;un cadre d&#039;analyse théorique prédéfini - un bouquin de Roger par exemple:-) de catégoriser les choses de manière ternaire (données, information, métadonnées). L&#039;indexation à large spectre, l&#039;indexabilité et la porosité de l&#039;ensemble des sphères documentaires font que n&#039;importe quelle donnée/information est toujours la métadonnée d&#039;une autre donnée/information. La &quot;confusion&quot; que tu soulignes à la fin de ton billet, est donc ... volontaire ;-)
]]></description>
			<content:encoded><![CDATA[<p>Jean-Michel> On est à moitié d&rsquo;accord 🙂<br />
Le scrapping dont parle Pisani dans son billet ne touche précisément pas les données comportementales au sens habituel du terme (actes d&rsquo;achat, mots-clés saisis, etc &#8230;) Il s&rsquo;attaque aux données « basiques ». Ce qui me semble intéressant dans la gradation entre « crawling », « mining » et « scraping » c&rsquo;est que cela illustre assez bien le fait que tu soulignes toi même : il devient de plus en plus difficile (en dehors d&rsquo;un cadre d&rsquo;analyse théorique prédéfini &#8211; un bouquin de Roger par exemple:-) de catégoriser les choses de manière ternaire (données, information, métadonnées). L&rsquo;indexation à large spectre, l&rsquo;indexabilité et la porosité de l&rsquo;ensemble des sphères documentaires font que n&rsquo;importe quelle donnée/information est toujours la métadonnée d&rsquo;une autre donnée/information. La « confusion » que tu soulignes à la fin de ton billet, est donc &#8230; volontaire 😉</p>
]]></content:encoded>
		
			</item>
		<item>
		<title>
		Par : JM Salaun		</title>
		<link>https://affordance.framasoft.org/2008/01/crawling-mining/#comment-9895</link>

		<dc:creator><![CDATA[JM Salaun]]></dc:creator>
		<pubDate>Tue, 08 Jan 2008 11:56:43 +0000</pubDate>
		<guid isPermaLink="false">https://affordance.framasoft.org/2008/01/08/crawling-mining/#comment-9895</guid>

					<description><![CDATA[Je suis assez sceptique sur ton interprétation. Je pense qu&#039;il y a un  gros pb en ce moment sur l&#039;emploi du terme &quot;données&quot;. Ici (scrapping), il s&#039;agit des données identitaires et comportementales, vieux trésor du marketing. Sans doute on est passé à une autre étape avec les dits réseaux sociaux, mais cela n&#039;a rien à voir avec les données dans un environnement documentaire.
Autre erreur que l&#039;on retrouve souvent ailleurs : confusion entre donnée, métadonnée et document. Si j&#039;avais le temps j&#039;en ferai un billet ;-).
]]></description>
			<content:encoded><![CDATA[<p>Je suis assez sceptique sur ton interprétation. Je pense qu&rsquo;il y a un  gros pb en ce moment sur l&#8217;emploi du terme « données ». Ici (scrapping), il s&rsquo;agit des données identitaires et comportementales, vieux trésor du marketing. Sans doute on est passé à une autre étape avec les dits réseaux sociaux, mais cela n&rsquo;a rien à voir avec les données dans un environnement documentaire.<br />
Autre erreur que l&rsquo;on retrouve souvent ailleurs : confusion entre donnée, métadonnée et document. Si j&rsquo;avais le temps j&rsquo;en ferai un billet ;-).</p>
]]></content:encoded>
		
			</item>
	</channel>
</rss>

<!--
Performance optimized by W3 Total Cache. Learn more: https://www.boldgrid.com/w3-total-cache/?utm_source=w3tc&utm_medium=footer_comment&utm_campaign=free_plugin

Mise en cache de page à l’aide de Disk: Enhanced 
Chargement différé (feed)
Minified using APC

Served from: affordance.framasoft.org @ 2026-06-23 10:20:54 by W3 Total Cache
-->