Le 11 Avril 2008 sur son blog Webmaster Central, Google annonçait qu’il allait désormais se donner les moyens d’indexer certaines données disponibles "derrière" un formulaire, faisant ainsi reculer encore un peu le périmètre du web invisible. Comme je l’avais souligné au moment de cette annonce, un certain nombre de paramètres restaient encore dans le flou (quels formulaires ? sur quels sites ? comment ?). Six mois plus tard, sur le même blog, Google vient d’annoncer sa solution partielle au problème : cela s’appelle le First Click Free. Et comme souvent avec Google, c’est une très bonne idée, une idée par ailleurs très simple … mais une idée que lui seul est en mesure de proposer et d’implémenter de manière significative du fait de sa situation quasi-monopolistique, une idée qui met également en péril une certaine conception du Net. Mais revenons au First Click Free.
De quoi s’agit-il ?
Les webmasters proposant du contenu protégé (par exemple sur le modèle payant par abonnement, comme les grands quotidiens de presse), auront la possibilité d’ouvrir leurs pages "privées" au crawler du moteur. Résultat ? Ce contenu sera indexé par Google, et l’internaute qui arrivera sur cette page depuis Google, y aura accès. Et oui. L’internaute qui arrivera sur cette page depuis Google. Pas "depuis un autre moteur". Google offre comme garantie que l’internaute qui souhaitera consulter les pages liées au contenu ainsi "dé-protégé" ne pourra pas le faire. C’est donc la technique bien connue des marchands d’aspirateurs du siècle dernier qui est retenue : celle du pied dans la porte. Le problème, c’est que ladite fonctionnalité instaure de facto un web à deux vitesses, qui semble contraire au principe que Google se fait par ailleurs fort de défendre, celui de la neutralité du Net en tant que réseau, en tant qu’infrastructure. Pour bien comprendre et sans faire trop long sur le sujet, rappelons que derrière la problématique de la neutralité du Net, la question est de savoir si les fournisseurs d’accès ont ou non la possibilité d’élargir ou de restreindre "sur mesure" la bande passante dédiée à certains sites. Naturellement, dans le cas des First Click Free, Google ne se positionne pas sur le créneau de l’infrastructure (ce qui lui permet de continuer à "militer" pour le maintien d’une neutralité du net), mais sur celui (c’est son métier) des contenus.
Alors en quoi est-ce contraire au principe de neutralité du Net ?
Et bien jusqu’ici, les moteurs se différenciaient par deux points : leur algorithmie, et leur infrastructure technologique leur permettant d’indexer le plus grand volume possible d’informations disponibles et de mettre à jour leur base d’index. Pour le dire différemment, si certains contenus étaient disponibles sur certains moteurs et pas sur d’autres, ce n’était en rien dû au fait que les éditeurs de ces contenus avaient ou non passé un "contrat d’indexation" avec tel ou tel moteur, mais simplement au fait que les routines d’indexation de tel moteur étaient plus efficaces que celles de tel autre. Avec First Click Free, la donne est radicalement changée. Pour la première fois à l’échelle du Net, des éditeurs vont pouvoir contractualiser l’accès à des parties payantes de leur site, avec un seul acteur au détriment des autres.
Tempête dans un verre d’eau ?
Pas vraiment. On savait déjà que les moteurs aimaient bien tisser des liens d’affection, soit avec des services dépendant directement de leur propre écosystème (ex : les vidéos de YouTube et les blogs de Blogger sont légèrement surpondérés dans les résultats de Google), soit avec des services tiers desservant prioritairement leur propre modèle économique (Ebay, Amazon …). On savait également que les mêmes moteurs prospéraient sur des liens d’affiliation (offre Google Adsense).
Après les liens d’affiliation et d’affection, voici venue le temps des monopoliens.
Ce qui est explicitement proposé aux webmasters (pardon d’insister un peu lourdement), c’est l’indexation exclusive de certains contenus. Jusqu’ici, l’ouverture d’un contenu à un moteur, signifiait également l’ouverture de ce même contenu à tous les autres acteurs de la recherche d’information.
Quelle est la cible ?
Poser la question des (monopo)liens, c’est nécessairement poser la question de la cible d’un tel service. Pas besoin en l’occurence d’aller chercher bien loin. Si certains sites de particuliers ou certains portails d’entreprises peuvent être intéressés par cette visibilité accrue sur des contenus jusqu’ici inaccessibles, c’est (à mon avis) très clairement la presse en ligne qui est visée. Souvenez-vous en la matière de la complexité de l’indexation des contenus de la presse par Google (service Google News). Après les procès intentés par les sites de presse dans différents pays, après les accords passés avec certaines agences, Google ne se contente plus de son pourtant déjà très remarquable coup du chapeau. Prenons la question du côté d’un site de presse généraliste national ; les données sont les suivantes : je veux que mon contenu (y compris une partie de mon contenu payant) soit indexé et visible sur les moteurs de recherche. Je veux cela parce que je n’ai pas le choix et que je ne peux pas me passer du traffic généré par les moteurs. J’avais donc jusqu’ici le choix entre "garder mes contenus fermés à l’indexation" (et donc me priver du traffic qu’ils auraient pu générer), ou "donner mes contenus ouverts" (et là aussi me priver du traffic généré puisque les internautes consulteront lesdits contenus sur Google News plutôt que sur mon propre site). Avec les monopoliens, j’aurai désormais la possibilité d’amener du traffic vers mon site, en contrôlant la visibilité de mes contenus, sans risquer de voir mon audience sur lesdits contenus "déportée" vers les moteurs de recherche et leurs services d’agrégation d’actualités. Cette proposition de Google va donc probablement ravir ou à tout le moins donner du grain à moudre à ceux qui planchent en ce moment sur l’avenir de la presse.
Monopoliens sous conditions.
Si vous n’êtes pas encore convaincus que c’est bien la presse en ligne qui est directement visée, les conditions (Guidelines) fixées par Google (bé oui, en plus il fixe des conditions) devraient achever de vous convaincre. Pour ceux qui choisiront de mettre en oeuvre ces monopoliens, il faudra : (1) "que les internautes qui arriveront sur ces pages puissent voir le texte intégral du contenu", (2) "que le contenu affiché soit identique à celui offert à l’indexation du GoogleBot", (3) "que si la source liée est un article affiché sur plusieurs pages" (ce que font fréquemment tous les sites de presse) "il soit possible de consulter l’intégralité de l’article en une seule page sans qu’on lui demande (à l’usager) de s’enregistrer ou de payer".
Un nouveau contrat de dupe ?
Concrètement, en autorisant ainsi Google à indexer certaines données "privées / payantes" de leurs sites,
et même si Google donne comme garantie que les usagers ne pourront pas aller au-delà du contenu ainsi autorisé, rien n’est en revanche garanti sur le comportement du GoogleBot … à partir du moment où celui-ci disposera du mode d’accès à l’ensemble des contenus payants du site, il y a de fortes chances pour qu’il ne se prive pas de les indexer à des fins que pour l’instant lui seul connaît (même s’il est naturellement toujours possible de "re"-sécuriser des contenus mais vu le volume et l’architecture des grands sites de presse, il y a de grandes chances pour qu’un certain nombre de pages "fuitent" ainsi vers le moteur, et étant entendu que ce qui intéresse Google ce sont précisément ces contenus d’actualité qui lui restaient partiellement fermés).
Et donc ?
Et donc là encore, comme il le fit déjà avec GoogleBooks pour la partie concernant les ouvrages encore sous droits, Google avance, Google fait sans cesse reculer les frontières de l’indexation, Google alimente son coeur de métier sur des logiques tenant à proprement parler de la dévoration. Ceci doit d’autant plus nous interpeller qu’à mon avis (côté obscur de la force) nous n’avons jamais été aussi près de voir émerger demain un authentique GoogleNet se substituant au réseau Internet tel que nous le connaissons aujourd’hui, et que (côté optimiste de la force) d’autres sont en passe de montrer qu’il est possible d’être à la fois visionnaire et tout aussi "malin" que le Cronos du Net.
(Via Google Blogoscoped // Temps de rédaction de ce billet :1h30)
rien n’empeche un webmaster d’ouvrir son contenu aux crawlers d’autres moteurs de recherche (avec la même méthode IP/user-agent) et de proposer une lecture gratuite par http-ref – ou simplement de travailler avec session / login et de servir p.ex. un document gratuit par jour…
Bernhard> Tout est effectivement possible … mais la question que pose cette « approche » de Google est celle d’une « content neutrality » à l’échelle de l’écosystème du web. Comme le fait astucieusement remarquer Phillip Lenssen dans son billet, il y a toujours eu sur le web des logiques « best view with internet explorer » (ou avec un autre navigateur), mais la question de la visibilité des contenus ne s’était jusqu’ici jamais posée en ces termes.
Effectivement, la question est vachement problèmatique, mais comme avec sitemap.xml on peut espérer qu’il aura rapidement des best practices qui sont neutres par rapport aux services de recherche. Parce qu’effectivement, la chose est attractive, percer un peu plus le Web est toujours intéressant…
Bonjour,
Je comprend mal comment implémenter techniquement de manière fiable ce ‘First Click Free’. S’il se base sur le referer (comme indiqué), rien de plus simple que d’en forger un adéquat (c’est le client qui envoie ce qu’il veut), mon filtre anti-pub le fait déjà, ajouter une règle par site d’info est ensuite trivial. Je ne donne pas 1 mois avant qu’un set de règles approprié ne soit disponible dans Adblock…
S’ils arrivaient vraiment à forcer le passage par google (avec un cookie cross-site sur mesure, ou je ne sais quoi de vraiment tordu et probablement impossible à faire en pratique), qui paierait alors qu’un simple passage par google fournira l’accès gratuit?
Autant faire passer le contenu en tout gratuit…
Yannick