Après le papier (dont nous vous parlions ici) de Jean-Paul Delahaye dans "Pour la Science" qui plaidait pour que Google rende public son algorithme (ou à tout le moins une part significative de ce dernier), John Battelle relève un débat relayé dans les pages de The Economist et qui agite la communauté scientifique américaine suite à un article déposé dans ArXiv : cet article intitulé "The egalitarian effect of search engines" prétend, à l’inverse des idées habituellement répandues selon lesquelles les moteurs de recherche favoriseraient les sites déjà bien "référencés" (ou "effet saint Thomas" ou encore "on ne prête qu’aux riches"), cet article prétend donc que contre toute attente les moteurs de recherche ont un effet égalitaire (egalitarian effect), favorisant les sites les moins "vus". La sérendipité l’emporterait-elle donc sur le PageRank ? En tous les cas il est troublant de constater, au moment ou s’achève le Sommet Mondial sur la Société de l’Information que de part et d’autre de l’Atlantique, chercheurs, économistes et éditorialistes plaident plus que jamais pour une transparence accrue de l’algorithmie des moteurs. Sinon …
Point de vue d’un praticien de la recherche documentaire et de la veille : les moteurs à la fois confirment les sites bien référencés dans leur statut et permettent la découverte d’autres.
Lors de mes recherches, les moteurs favorisent plus souvent les sites déjà populaires, mais ils me sortent également de temps à autre des sites très peu connus *et* de qualité et ce dans les 20 premiers résultats. Il suffit dès lors que je parle d’eux sur mon annuaire ou sur mon blog et du fait que mon site est bien référencé, ils grimpent en « ranking ».
Voilà comment j’interprète la chose : un membre d’une communauté virtuelle, même portant sur un sujet très pointu, repère un site intéressant pour cette communauté et aussitôt, il va le sortir des résultats, ce site inintéressant pour les autres, pour en parler, le référencer, le citer ou le bloguer. Le dit site sort alors de l’anonymat.
Un bravo sincère pour vos analyses.
Trois remarques :
1) Oui, il est indispensable de contrôler les moteurs, notre démocratie cognitive est en jeu et aussi un fonctionnement non biaisé du marché. Cela ne signifie pas une transparence de leurs algorithmes qui les conduiraient à l’impuissance en favorisant les comportements opportunistes. Mais plutôt un (ou plusieurs) organisme(s)indépendant(s) étudiant et mesurant leur fonctionnement du type OJD, médiamétrie, CNC, CSA.. si l’on a jugé nécessaire de fonder ceux-là, pourquoi un contrôle démocratique serait illégitime ici ?
2)Le phénomène n’est vraisemblablement pas égalitaire, mais les notoriétés moindres ont plus à gagner à une exposition plus large et un accès immédiat et les faibles demandes restent relativement importantes compte-tenu de l’ampleur globale des requètes. Autrement dit, la courbe aurait toujours la même forme (loi de puissance) mais la traîne serait plus longue et plus haute.
3) À mon avis, cela n’a pas grand chose à voir avec la sérendipidité. Il s’agit bien de résultats de recherche et non de navigation au hasard.
J’ai blogué mon commentaire de votre post blogué sur
http://www.precisement.org/blog/article.php3?id_article=131
Ma conclusion :
«Pour trouver, il ne suffit plus de chercher, il faut participer.»
Encore merci pour vos réflexions, elles m’aident à « propulser » les miennes 🙂
Emmanuel> Merci pour vos commentaires (et vos compliments). L’idée de « participation » que vous soulevez est en effet cruciale. Le documentaliste/veilleur est en effet de plus en plus amené à se mettre en situation « d’observation participante ».
Jean-Michel> Sur le point 1, personne ne sera surpris de me voir entièrement partager ton avis. Sur le point 2, l’article cité en arrive à des conclusions plus « radicales » (d’où le débat qu’il suscite). Sur le point 3, ma référence à la sérendipité s’explique par la méthodologie employée et décrite dans l’article qui utilise comme « étalon » un surf totalement aléatoire (sérendipité donc)
Bonjour,
Pour ma part j’ai un avis un peu opposé sur la diffusion des algorithmes de calcul de pertinence. En effet le référencement est une guerre perpétuelle entre les référenceurs etles moteurs de recherche : si Google livrait son algorithmede calcul c’est vraiment là que l’index serait biaisé il me sembble. Je prends souvent comme exemple les keywords et autres meta balises : si on regarde 5 ans en arrière le poids dans l’algorithme depertinence était important. Ces métabalises censées structurer le contenu Web ont ainsi été détournées de leur utilisation originelle pour « optimiser » le référencement en les truffant de mots clés choisis de façon statistique et allant même jusqu’à intégrer les fautes de frappe potentielles.
Je suis donc plutôt contre …ou alors un algorithme dévoilé uniquement à un organisme de contrôle indépendant.
Le secret de l’algorithme reste selon moi une clé essentielle permettant de préserver les moteurs du spamdexing.
Je me suis mal fait comprendre. J’ai écrit :
« Cela ne signifie pas une transparence de leurs algorithmes qui les conduiraient à l’impuissance en favorisant les comportements opportunistes. »
Donc, accord sur l’idée que l’algorithme doit rester secret. Mais cela n’empêche pas un contrôle des performances des différents moteurs et de leurs biais par un organisme indépendant. Il n’est pas besoin de connaitre l’algorithme pour cela.
Mais il est essentiel que le citoyen ait toutes les informations sur les capacités et limites des outils qui manipulent à grande échelle les connaissances. Cela relève du niveau premier de la liberté au sens fort du politique.
Frédéric & Jean-Michel> Vos messages m’inspirent plusieurs réflexions (un peu embrouillées, j’ai une bonne grippe) :
– concernant les organismes de contrôle, la difficulté tient au saut « paradigmatique » qu’occasionne Google dans l’économie des médias : le CSA contrôle la télé, le CNC le cinéma, etc. Or Google c’est (et cela va être de plus en plus) tout cela à la fois. Il faudrait donc inventer un « super » contrôleur. Un big father pour le big brother ? Par contre, il est effectivement établi que les algorithmes de Google de « fonctionnent » pas pareil selon qu’il s’agit de classer des « news » et des pages web. Avec le développement de GoogleBase et de leurs autres chevaux de bataille (GoogleBooks) il est probable que cette différenciation dans l’algorithmie s’accroisse encore.
Un organisme fédérateur pourrait alors « demander un minimum de comptes » aux moteurs sur la prise en compte précise de certains facteurs (exemple : le facteur temps pour les news, le facteur linguistique pour d’autres, etc.)
Ce que cette concentration autour de Google Base a (aura) peut être de salutaire pour l’économie cognitive que mentionne Jean-Michel est qu’elle va obliger Google à plus fortement encore différencier ses algo. Je viens de lire à ce sujet un billet indiquant que l’industrie du « porno » américaine venait d’envahir Google Base et montrait une dextérité particulière dans l’utilisation du modèle à facette que propose GoogleBase.
Ce qui me laisse songeur pour reprendre des réflexions plus pragmatiques et que je maîtrise mieux que les algorithmes (surtout quand je suis grippé) c’est l’écart qui continue de se creuser entre une infime minorité de personnes et la grande masse des utilisateurs. Je refais inlassablement chaque année le même sondage avec tous mes étudiants et avec quelques collègues : et chaque année une écrasante majorité avoue ignorer l’existence des liens sponsorisés. Quand un peu de lassitude m’étreint je confesse un « pourquoi pas après tout », la majorité des usages et des requêtes étant d’ordre transactionnel et/ou marchand autant qu’on leur affiche des pubs pour des voitures ou des Ipods quand ils veulent en acheter. Mais qu’en est-il pour une recherche de livre ou de biens « culturels » ?
Olivier,
Entièrement d’accord avec toi en ce qui concerne le big father…Je ne le proposais que comme une alternative envisageable sans grande conviction…En fait je crois que je ne suis pas encore atterré comme toi par le big brother Google et la meilleure solution n’est elle pas celle que tu ecris à demi-mot…Toi tu demandes à tes etudiants s’ils connaissent l’existence des liens sponsorisés. Moi je leur demande s’ils ne connaissent pas d’autres moteurs de recherche… 🙂
Bon rétablissement Olivier en tout cas.
On peut en effet demander des comptes aux moteurs, mais c’est une bataille longue. Il suffirait déjà que soient systématiquement réalisés des tests comparatifs, comme le font ponctuellement et de façon dispersée bien des experts internautes.
Si un organisme sérieux et indépendant le réalisait, les résultats seraient alors repris par l’ensemble des médias, mais aussi des profs, tout comme le sont par exemple ceux de l’audimat. Il serait ainsi plus simple d’éduquer les internautes. Et ce serait à la fois un aiguillon et un garde-fou pour les acteurs industriels. On peut aussi penser que chaque pays ou culture ayant le sien, on aurait des éléments plus précis sur les différences de traitement que les grands élans et défenses de principe actuels.
Je suis persuadé qu’il ne s’agit pas d’un lourd investissement public, que c’est très simple à mettre en oeuvre et que le retour serait rapide et spectaculaire dans la couverture des connaissances locales.