Les moteurs de recherche délaissent globalement la prise en compte des balises <META> du fait que celles-ci, censées initialement permettre une prise en main de l’indexation des sites par leurs concepteurs, sont trop souvent détournées (spamdexing) à des fins de marketing (par exemple). Pourtant, dès lors que les contenus sont homogènes (des articles scientifiques) et l’indexation effectuée par des professionnels s’appuyant sur des protocoles et des normes garantissant l’interopérabilité desdits fonds, les mêmes moteurs voient comme une aubaine l’absorbtion de ces gigantesques entrepôts de données. Il s’agit des archives ouvertes et institutionnelles structurées selon le protocole dit OAI-PMH. Donc d’un côté, des gisements documentaires (de plus en plus) considérables. De l’autre, des moteurs se positionnant comme autant de médiateurs incontournables dans la diffusion de la recherche. Et au centre, des intérêts convergents : assurer l’interopérabilité des fonds en augmentant autant que faire se peut leur visibilité. La question se pose alors de savoir quel pourcentage de ces fonds est effectivement visible et indexé par les moteurs. En d’autres termes : quel est le meilleur moteur pour trouver des articles scientifiques ? Une étude (.pdf) du laboratoire de Los Alamos s’est intéressée à la question. Michel Roland en a traduit le résumé. En voici les principaux résultats :
- sur un échantillon de 3,3 millions d’URI (= d’articles) pris sur 10 millions d’articles en provenance de 776 archives, Yahoo! en indexe 65%, Google 44% et MSN 7%. 22% des ressources ne sont indexées par aucun des trois. On est donc tenté de clamer : oublions Google et autres Scholar, et vive Yahoo! qui semble avoir récolter les grains semés au gré de son Content Acquisition Program auprès de diverses archives institutionnelles. MAIS …
- en ce monde comme en d’autres il est important de relativiser. Ainsi la même étude (page 6) fait état de grosses différences de prise en compte selon l’archive concernée. Exemple : pour BioMed central, 82% des articles sont disponibles via Google contre "seulement" 69,4% dans Yahoo!. A l’inverse la "Library of Congress" est à 99,1% dans Yahoo! et à 1,3% dans Google …
Ces écarts stigmatisent les résultats des partenariats commerciaux (ou non) entre certains moteurs et certaines institutions/bibliothèques. Avec au final pour l’usager en général et la recherche d’information en particulier une nécessité toujours plus grande de disposer de clés de lecture et d’analyse.
(Via Catalogablog)
Update de 10 min plus tard : pour plus d’informations (techniques) sur le moissonnage, l’interopérabilité et la recherche fédérée, voir par là.
« Michel Roland » please
Miichel Rolland 😉
Michel> Oups. C’eeessssst cccoooorrriiigggé.
Grazie!