Spinning The Web : Le web à l’essorage

L'un des enjeux cruciaux de la transition numérique porte – à mon avis en tout cas – sur la notion "d'intégrité documentaire", c'est à dire ce qui permet (ou non) de garantir l'originalité d'un texte ou d'une oeuvre (= le fait qu'il soit conforme à l'intention originale de l'auteur et que sa diffusion respecte les droits que ce même auteur aura souhaité y attacher). C'est cette intégrité qui permet d'assurer une traçabilité des documents et de leurs auteurs, et qui régule donc également l'ensemble des processus de retribution associés et les logiques économiques qui vont de pair, mais également les logiques de prêt, d'échange, de partage, etc. Bien au-delà des seuls enjeux économiques de la propriété intellectuelle, la question du numérique pose nécessairement la question – complexe – d'un acte de "publication" devenu simple routine "cliquable" et des régulations ou dérégulations qui peuvent lui être associées.

Content Spinning : les versions plutôt que le texte.

Depuis longtemps déjà, à l'aide d'outils linguistiques il est possible, le plus souvent dans une logique de black hat SEO (même si les White Hat s'y intéressent aussi) d'effectuer des opération de "content spinning" : littéralement "essorage" ou "filage" de contenu. Sur la base d'un texte original, ces outils permettent d'en produire plein d'autres en opérant de légères, subtiles et presqu'indécelables variations dans la syntaxe, la ponctuation ou le vocabulaire utilisé. L'idée black hat SEO (côté obscur de la force) est d'influencer le positionnement en multipliant les sites satellites composés de reprises déclinées d'un même texte, l'idée white hat SEO (côté pas obscur de la même force, mais l'on sait que la frontière est ténue …) est de s'en servir pour générer des expression uniques utiles pour mieux définir des stratégies de positionnement.

Versioning : le texte plutôt que ses versions.

Dans la lignée déjà ancienne des "générateurs automatiques de contenu", le content spinning ancre dans une phase de production industrielle les réfexions théoriques de Ted Nelson (inventeur du terme hypertexte et penseur de référence du web) autour du versioning :

Définition courte : "Le versioning désigne l’ensemble des manières de gérer,
indépendamment de tout niveau d’échelle, les procédures permettant de
rattacher différentes versions d’un même document à un (des) auteur(s),
tout en permettant à chacun de s’approprier tout ou partie des documents
produits par d’autres ou par eux-mêmes, et en assurant un suivi des
différentes modifications apportées." (définition extraite du chapitre de ma thèse consacré au sujet, thèse disponible ici).

Définition un peu plus longue : "Le versioning désigne l’ensemble des manières de gérer, à l’échelle de l’hypertexte planétaire, les procédures permettant de rattacher un texte à un auteur (ou à un collectif d’auteurs), tout en permettant à chacun de s’approprier – de se ré-approprier – tout ou partie de documents produits par d’autres ou par eux-mêmes afin, premièrement, de limiter la prolifération « bruyante » des versions différentes d’une même information sur le réseau et deuxièmement, d’identifier la nature et les origines de ces modifications dans l’optique d’une gestion cohérente de l’ensemble des documents électroniques actuellement disponibles, indépendamment de leur format, de leur statut et en dehors de tout institution centralisée. Autant dire que plus qu’une problématique, il s’agit là d’un véritable « idéal »." (définition toujours extraite du chapitre de ma thèse, toujours disponible ici).

Définition à rapprocher de celle qu’il propose pour le terme document :
"Un document est une collection arbitraire de versions disposant d’un
nom propriétaire et de limites."**

Penseur et théoricien aussi unanimement reconnu que controversé, Nelson fut à mon avis le premier et le seul à avoir immédiatement perçu le potentiel et les enjeux essentiels du bouleversement de la notion d'autorité introduit par le numérique. L'un des premiers à avoir mis au centre de sa réflexion sur le web comme système, la notion de "copie" (les "versions") comme figure instrumentale permettant d'inaugurer de nouvelles stratégies de navigation, de découverte, d'attachement au double sens du terme.

Sidim : le DRM de l'aversion du texte.

Mais venons-en maintenant à la littérature. Comment s'assurer de la traçabilité d'un texte, d'une oeuvre littéraire dans un environnement numérique ? Comment en tracer les copies ? Une des réponses consiste à y déployer des DRM. On connaissait jusqu'ici ces DRM sur une gamme allant de l'aniénation pure et simple de certains droits des lecteurs (chronodégradabilité, vertouillage de certaines options de prêt, etc …) à de "simples" tatouages" numériques attachés à une version éditeur d'un texte. Or voici qu'Actualitté rend compte d'un DRM du troisième type, baptisé "Sidim", et qui permet, pour mieux tracer l'origine d'un fichier illégamenet mis en ligne, d'en modifier le contenu. Vous ne rêvez pas.

Du "content spinning littéraire". On le croyait jusqu'ici réservé à la collection Harlequin, et ben non.

Ce matin ma génitrice est 6 pieds sous terre.

Voici le résultat de l'application d'un outil de content spinning à l'incipit de l'étranger d'Albert Camus.

L'original :

Aujourd’hui, maman est morte. Ou peut-être hier, je ne sais pas. J’ai
reçu un télégramme de l’asile : "Mère décédée. Enterrement demain.
Sentiments distingués." Cela ne veut rien dire. C’était peut-être hier.

La "formule" à entrer dans l'outil (formule améliorable et adaptable avec n'importe quel dictionnaire de synonymes ou un peu d'imagination) :

{aujourd'hui|maintenant}, {maman|ma mère|ma génitrice} est {morte|décédée|kaputt|au paradis|6 pieds sous terre}. Ou peut-être {hier|avant-hier|hier soir|hier matin}, je ne sais {pas|plus|plus trop}.J'ai reçu un {télégramme|mail|fax|courier|courier électronique|coup de téléphone|coup de fil} de l'asile : "{maman|mère|génitrice} {morte|décédée|kaputt|au paradis|6 pieds sous terre}. {Enterrement|Inhumation|Mise en terre} demain. Sentiments {distingués|cordiaux|respectueux|attristés}. {Cela ne veut rien dire|Ca veut rien dire|Ca veut dire que dalle|J'y comprends rien}. C'était {peut-être|probablement|certainement|approximativement} {hier|avant-hier|hier soir|hier matin}.

Les textes "spinnés" :

"maintenant, maman est 6 pieds sous terre. Ou peut-être hier matin, je ne sais plus. J'ai reçu un courier de l'asile : "génitrice 6 pieds sous terre. Enterrement demain. Sentiments distingués. J'y comprends rien. C'était certainement hier matin."

"aujourd'hui, ma génitrice est 6 pieds sous terre. Ou peut-être hier matin, je ne sais plus trop. J'ai reçu un coup de fil de l'asile : "mère 6 pieds sous terre. Mise en terre demain. Sentiments cordiaux. Ca veut dire que dalle. C'était approximativement hier matin."

"aujourd'hui, ma mère est morte. Ou peut-être hier, je ne sais plus trop. J'ai reçu un mail de l'asile : "mère morte. Enterrement demain. Sentiments respectueux. Ca veut rien dire. C'était certainement hier."

"aujourd'hui, maman est au paradis. Ou peut-être hier soir, je ne sais pas. J'ai reçu un fax de l'asile : "mère au paradis. Mise en terre demain. Sentiments cordiaux. Cela ne veut rien dire. C'était peut-être hier soir."

Et ainsi de suite, ad libitum. Chaque texte "spinné", "essoré", "filé" est livré avec le pourcentage de ressemblance par rapport au texte initial. Un curseur que l'on règle. Est-il besoin d'imaginer un lycéen découvrant ce nouvel incipit de l'Etranger de Camus :

"aujourd'hui, ma mère est au paradis. Ou peut-être hier matin, je ne
sais plus. J'ai reçu un fax de l'asile : "génitrice au paradis.
Enterrement demain. Sentiments attristés. Cela ne veut rien dire.
C'était probablement hier matin."

Les éditeurs seraient contents de pouvoir ainsi repérer que ce lycéen est un horrible pirate téléchargeur, le lycéen en question trouverait à raison que le style de Camus est occasionnellement à chier (ou pas), et Camus n'aurait heureusement jamais connaissance de cet hallucinant pataquès. Comme souligné par Actualitté, il y a – ouf – de fortes chances pour que Sidim ne soit jamais mis en place puisque ce type de DRM heurte de front le 1er article du code de la propriété intellectuelle. Mais sait-on jamais, puisqu'ils en ont eu l'idée, ils seraient bien capable de …

You Web Spin Me Round.

Depuis l'arrivée de Google, du pagerank et des métriques de "popularité", le web s'est inscrit dans un cycle documentaire analysable de manière "classique" (effets d'empilement, d'écrasement, de "désherbage"), à cette différence près du traitement algorithmique associé et régissant l'ensemble de la chaîne, et avec cette autre différence notable que constitue la dilution des "autorités", des "corporations du filtre", et l'émergence de nouveaux cycles d'autoritativité.

Il est intéressant de noter qu'à l'heure actuelle, les moteurs et leurs fonctionnalités de "suggestion" avec l'affichage instantanné de pages de résultats répondant à une requête que nous n'avons ni choisie ni saisie, permettent d'envisager ladite page de résultats comme un document "propre", spécifique, dédié, mais aussi "dégradé", correspondant à une représentation fractale de l'accès à l'information et exemplifiant parfaitement ce que Heck* et d'autres qualifiaient dès 1996 (soit 2 ans avant la naissance de Google) "d'information fluide" :

"Nous sommes entrés dans une nouvelle ère : celle de l’information fluide. (…) Ce nouveau concept en implique d’autres tels que la stabilité ou l’instabilité des documents, ainsi que la génétique de document : au-delà de son éventuelle évolution propre permanente, un document peut donner le jour à d’autres (…) d’abord liés à lui-même ; la pertinence de ceux-ci peut (…) supplanter celle du document géniteur qui ‘meurt’ virtuellement."

Cet empilement d'information, appelant une propriété "miscible" des documents et pages web concernées (côté "fluide" de l'information), correspond assez bien à l'effet dilatoire de la popularité sur lequel repose le PageRank originel : la pertinence des documents hyperliés peut à tout moment supplanter celle de la page web initialement liée (= document géniteur) qui "meurt virtuellement" en disparaissant dans les abysses des 2èmes, 3èmes, etc. pages de résultats du moteur.

Le HIT du Pagerank.

Tout l'enjeu d'une partie des évolutions actuelles dudit PageRank, notamment avec le renforcement des logiques d'autorité ("authorship" comme identification d'un auteur associé à une ou plusieurs pages) va d'ailleurs dans le sens d'une 2ème époque documentaire "pagerankisée", époque où il s'agit désormais de reconstruire, comme dans un cycle documentaire classique, une démarche de repérage et d'accès principalement fondée sur une autorité déclarée à défaut d'être reconnue. Là j'ai pas le temps mais faudra un jour que je vous explique en quoi ce changement (ainsi que d'autres que je n'ai pas le temps de développer) donne rétrospectivement raison aux travaux de Kleinberg, dans les années 1996-1998 dans le cadre du projet "Clever" avec l'algorithme HITS, précurseur du PageRank. A l'époque, la différence principale entre le Pagerank de Google et l'algo HITS du projet "Clever" de Kleinberg *** venait du fait que dans Google, c’est l’ordre de classement initial qui est utilisé quelle que soit la requête, fournissant ainsi des réponses rapides, alors que dans Clever, un ensemble de base différent est construit pour chaque terme recherché, l’algorithme permettant alors de fixer les priorités des pages dans le contexte de cette requête.

Pour le dire plus simplement, Google remporta la victoire de la pertinence et de la rapidité d'accès car son algo permettait de gérer à la volée une masse informe et gigantesque d'informations ne relevant d'aucune autre hiérarchie que celle établie par les liens associés à chacune des pages composant ladite masse informe. Kleinberg raisonnait différemment en "isolant" des ensembles de pages a priori, c'est à dire en construisant une hiérarchisation de l'information préexistante au requêtage. La réalité actuelle du web, dans lequel des niveaux de hiérarchisation sont désormais avérés (par exemple un blog "lambda" versus une page d'un grand journal sur le même sujet) oblige en quelque sorte les algorithmes à tenir compte de cette hiérarchie pour offrir à l'internaute un régime documentaire d'autorités et de preuves qui correspondent à ses attentes ou plus exactement n'apparaissent pas en trop grand décalage avec celles-ci. La personnalisation étant alors la variable d'ajustement essentielle qui permet de pondérer les préférences "autoritatives" de chacun en fonction de son historique de navigation notamment.

Essorer la représentation du monde.

Alors que les moteurs réécrivent déjà en partie certaines pages (exemple ici, analyse là), alors que les lectures industrielles font flores, alors que les stratégies d'écritures et leurs claviers disparaissent, alors que le tactile et la voix remplacent de plus en plus systématiquement l'écrit, alors que la mutation du web d'un média de l'écrit en un média de l'image et de la voix (là et là) se confirme en laissant comme centrale la question de la publication comme nouvel alphabet, les questions de la traçabilité auctoriale, de l'intégrité documentaire, et les routines et stratégies de versioning afférentes constituent dès aujourd'hui une préoccupation majeure pour l'avenir de ce média, pont mouvant entre technologies du contrôle, de l'accès et du partage.

Et à la fin, c'est la version qui gagne.

Seule une approche "versionnée" peut permettre de réconciler des
intérêts politiques, économiques et éthiques par nature et par histoire
nécessairement divergents. C'est très conscientes de cela que les "industries culturelles" ont pris grand soin à disposer de plusieurs coups d'avance mais dans l'optique diamétralement inverse à celle du versioning, c'est à dire l'acopie :

"L'acopie ce serait alors l'antonyme de la copie. Un terme désignant la
mystification visant à abolir, au travers d'un transfert des opérations
de stockage et d'hébergement liées à la dématérialisation d'un bien, la
possibilité de la jouissance dudit bien et ce dans son caractère
transmissible, en en abolissant toute possibilité d'utilisation ou de
réutilisation réellement privative."

Et pourtant. Une réflexion approfondie permettrait de dégager des pistes intéressantes et opérationnelles sur un ensemble de champs considérables.

Par exemple celui de l'Open Access et du financement des revues de recherche : une ingénierie fine et négociée du versioning appliquée aux articles scientifiques permettrait à partir d'un même texte source de décliner différentes versions (auteur ou éditeur par exemple), d'isoler sur certaines d'entre elles les jeux de données associées (open data), etc.

Du côté des immondes DRM, le versioning permettrait de pouvoir isoler des versions en fonction des usages associés voulus par les auteurs, et ainsi de "libérer" certaines versions dédiées à un partage non-marchand, tout en en maintenant d'autres dans un cadre réglementaire de rémunération.

Les oeuvres orphelines trouveraient une parentalité nouvelle dans l'une ou l'autre de leurs versions numérisées, on pourrait même en ReLIRE certaines à l'aune d'un ADN de paternité enfin correctement assumé.

Rien que pour ces 3 exemples applicatifs, Ted Nelson nous a encore mâché le terrain théorique en précisant que techniquement, une "version" est "Une structure de contenus propriétaires, représentable
par une liste d’adresses et de l’information liée à la structure." Il
indique par ailleurs que "une version peut contenir des
éléments qui sont la propriété de quelqu’un d’autre" **.

Le reste n'est que soumis aux contraintes de la technique (elles sont dépassables), de notre imagination (elle est illimitée), et du bon vouloir de l'ensemble des acteurs de la chaîne concernée (et là j'avoue que ça va être plus compliqué, mais la bonne nouvelle c'est que l'on n'a pour l'instant pas besoin d'eux pour avancer). Nous avons pour nous d'autres guides.

"La modification d’un document porteur de sens, de point de vue, d’expérience est problématique. Ce qui change dans le temps c’est la connaissance. Celle d’un environnement social et scientifique, celle d’un individu donné … Mais ce mouvement de la connaissance se construit à partir de référents stables que sont les documents publiés à un moment donné. Les peintres pratiquaient le « vernissage » des toiles afin de s’interdire toute retouche. Les imprimeurs apposaient « l’achevé d’imprimer ». Il convient d’élaborer de même un rite de publication sur le réseau afin que des points stables soient offerts à le lecture, à la critique, à la relecture … et parfois aussi à la réhabilitation." Hervé Le Crosnier ****

——————–

* Heck A., "Facettes et challenges de l’évolution du traitement de l’information.", pp. 103-133, in Ciel et Terre, n°102, 1996. [en ligne] http://vizier.u-strasbg.fr/~heck/ctinfo.htm, consulté le 10/06/2002.

** Nelson T. H., "Versions.", Contribution au forum de discussion Xanadu, message en date du 30/03/1996. [en ligne] http://xanadu.com.au/mail/xanadu/msg00098.html, consulté le 08/12/2001.

*** Kleinberg Jon M., "Hubs, Authorities, and Communities.", in ACM Computing Surveys, vol. 31, n°4, Décembre 1999. [en ligne] http://www.cs.brown.edu/memex/ACM_HypertextTestbed/papers/10.html, consulté le 22/03/2002.

**** Le Crosnier H., "De l’(in)utilité de W3 : communication et information vont en bateau." Présentation lors du congrès JRES’95, Chambéry, 22-24 Novembre 1995. [en ligne] http://www.cru.fr/JRES95/actes/appliu2/1/le-crosnier.html, consulté le 28/11/1997.

Un commentaire pour “Spinning The Web : Le web à l’essorage”

Patrice dit :

25 juin 2013 à 19h27

Bonsoir,
je pense que dans le paragraphe intitulé :
« Le HIT du Pagerank. »
la phrase suivante contient un « par » en trop (juste après 1996-1998) :
« Là j’ai pas le temps mais faudra un jour que je vous explique en quoi ce changement (ainsi que d’autres que je n’ai pas le temps de développer) donne rétrospectivement raison aux travaux de Kleinberg, dans les années 1996-1998 par dans le cadre du projet « Clever » avec l’algorithme HITS, précurseur du PageRank. »
Merci pour vos textes

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.