Le problème est épineux. L’histoire est feuilletonesque et maintes fois chroniquée (sur ce blog par exemple). C’est celle de l’accès aux contenus numérisés des livres. Derniers rebondissements : après le groupe La Martinière, après le Syndicat National de l’Edition, c’est maintenant la Société des Gens de lettre (SGDL) qui attaque Google en justice (voir le communiqué de presse en .pdf). Je ne crois pas que tout cela mènera bien loin. Si ce n’est à renforcer les crispations autour de deux modèles de distribution et d’une pensée dichotomique : papier d’un côté et numérique de l’autre. Droits héxagonaux soi-disant inaliénables et imprescriptibles d’un côté et nouvelle économie de la diffusion des contenus de l’autre. Il faut ici noter que le groupe La Martinière (notamment propriétaire des éditions du Seuil) est le seul en France à avoir assigné Google en justice. D’autres comme Gallimard ont eu, à mon avis, l’intelligence de jouer le jeu, en appliquant la possibilité d’opt-out permise par Google. Il est parfois des batailles qu’il faut avoir l’intelligence de perdre ou de ne pas livrer. Demandez donc à la presse belge le goût amer qui lui laissa sa "victoire" sur la pieuvre de Mountain View … Je n’en remettrai pas une couche sur ce que je pense des logiques de complémentarité papier/numérique, tout (ou presque) est dans ce billet (si vous êtes préssé, cet extrait résume assez bien ma pensée 😉
Danny Sullivan, grand maître es moteurs de recherche présente sur son blog une manière inversée mais à mon avis tout à fait pertinente d’aborder le problème. Je résume : "On reproche aux moteurs de recherche de ne pas demander la permission d’indexer. Or cette permission, ils la demandent systématiquement et explicitement. Par le biais du fichier Robots.txt." S’ensuit alors un rappel pédagogique bien qu’un peu technique – pour les non-initiés – sur la procédure d’indexation par les moteurs de "ce grand livre qu’est le web", la construction d’un fichier inversé, etc., etc., lequel rappel se conclut par l’assertion suivante : "An index is not a copy of a page." Si l’on ajoute à cela les quelques accablantes preuves qualitatives et quantitatives concernant la numérisation produite par le même Google, on se dit que les éditeurs ont devant eux un champ complétement ouvert en termes de services et de valorisation. Et qu’ils n’ont peut être point besoin de se lancer dans de quichottesques initiatives de métadonnées, mais plutôt à réfléchir – vite – sur leur niveau de compréhension (et d’appréhension) des us et coutumes du numérique.
(Compléments et sources : site officiel de l’initiative ACAP, billet de Cluster21, de Danny Sullivan)
Je ne connaissais pas encore le blog de David Gale, c’est chose faite, et qui plus est, son billet est fort intéressant.
Dans mon mémoire, écrit il y a 4 ou 5 ans, dont le thème était le fonctionnement des moteurs de recherche, j’avais expliqué le fonctionnement des fichiers robots.txt. Mais ce qu’oublie de dire Gale, c’est que le respect de ces fichiers robots.txt n’est absolument pas garanti. En effet, c’est à la charge du spider/crawler/robot de vérifier qu’un tel fichier existe, et d’en appliquer les règles. Et c’est à la charge de l’administrateur du site web de vérifier que les règles sont bien appliqués, et dans le cas contraire de mettre en place des solutions pour bannir les robots concernés. Il se fait que ces conventions sont appliquées, mais ce ne sont que des conventions et des ‘best practices’.
Il est bon de noter aussi que la recherche de ces fichiers robots.txt sont un truc et astuce connu depuis longtemps par les documentalistes pour dénicher des infos « cachées » sur des sites : une simple recherche sur votre moteur préféré vous en convaincra.
En ce qui concerne la position des éditeurs, j’espère que la prise de conscience se fera bientôt. En effet, pour un certain nombre de documents, je me contenterai d’une version électronique, malheureusement, la politique tarifaire est loin d’être systématiquement avantageuse. Un exemple de notre profession, le prix d’un abonnement papier à Archimag est le même que celui de l’abonnement électronique. C’est dommage…
Olivier, si le SNE a rejoint La Martinière dans son action, il ne peut agir que pour le compte des éditeurs, non ?
D’où vient votre info selon laquelle « Gallimard aurait eu l’intelligence de jouer le jeu » ?
Sur le problème de fond, il me semble nécessaire de distinguer l’indexation elle-même et la présentation d’extraits aux internautes. Ce sont les extraits qui posent problème et non l’indexation elle-même.
D’ailleurs, il me semble avoir lu fin aout, début septembre, qu’une des bibliothèques associées au programme Google Search Book avait renoncé à présenter les extraits de pages pour les livres ‘sous droit’ en se contentant d’afficher la liste des occurrences de mots clés sous la forme : page x, ligne n, etc… Et le lecteur peut se reporter à l’exemplaire sur place.
Sinon, comme traduction d’opt-out, pourquoi pas « opt-oust »… 🙂