Web de surface. Web profond. Web invisible. Ces trois expressions sont issues d’un article "culte" qui remonte à Juillet 2001 et qui est une étude de la société "Brightplanet", laquelle étude avait à l’époque permis de prouver que les ressources du web "invisible" (non-indexable et/ou non-indexé) étaient considérables au regard de celles du web habituellement visibles. Rappelons-le, à cette époque là, les moteurs de recherche n’étaient par exemple pas capable d’indexer autre chose que du HTML, et ainsi l’ensemble des documents désormais habituels (fichiers word, acrobat, excel, powerpoint …) passaient à la trappe. Depuis ce temps, la dérive des continents documentaires s’est mise en place (voir le petit schéma dans ce billet), les moteurs se sont rendus capables de grouper un nombre gigantesque de ressources et de documents dans la même sphère d’indexabilité, ces mêmes moteurs vont de plus en plus "racler" les fonds de tiroir à la recherche de données que l’on croyait jusqu’à lors inindexables.
Pour autant, le web "invisible" aux moteurs demeure, et reste un gisement de données et d’informations très attractif pour ces mêmes moteurs. Et c’est encore une fois Google (qui fut le premier moteur à indexer des formats de fichiers bureautiques) qui fait en la matière une percée singulièrement significative : ce dernier vient en effet d’annoncer qu’il allait être capable d’indexer (crawling) les données situées "derrière" les formulaires web. Exemple : une base de donnée immobilière vous permettant de trouver la location de vos rêves pour vos prochaines vacances. Les informations de cette base sont pour l’instant inaccessibles car elle relèvent de ce qu’on appelle le web "dynamique" (par opposition au web "statique"). Ces pages sont générées à la demande de l’internaute, suite au remplissage du formulaire idoine.
Comme rappelé dans le billet de Google annonçant la chose, les limites de ce genre d’approche sont encore considérables et relèvent aussi bien d’aspects techniques (procédure GET des formulaires ou sécurisation par mot de passe ou captcha par exemple) que d’aspects éthiques (la plupart des sociétés n’ayant pas envie que leur "base de donnée" – d’annonces immobilières par exemple – se retrouve du jour au lendemain intégralement "visible"). Google annonce donc qu’il n’indexera finalement que très peu de ces formulaires, et continuera naturellement de respecter les instructions du fichier robots.txt (qui autorise ou interdit tout ou partie de l’indexation d’un site aux moteurs de recherche).
Attendons de voir quels types d’informations remonteront ainsi dans la page de résultats de Google pour juger sur pièces, mais il n’en reste pas moins que cette nouvelle avancée dans la dérive des
continents documentaires indexables et le recul qu’elle marque pour la
définition (et la préservation ?) d’un web invisible est importante.
(Sources : JournalDuNet, Abondance // Temps de rédaction de ce billet : 45 minutes)
Merci de cette remontée dans le temps, j’ignorais l’origine du Web invisible 😉
Jean-Marie
(recherche) > Google veut indexer le Web Invisible
Le Web invisible ou profond est cette portion du Web que les moteurs de recherche ne peuvent pas indexer pour toute une série de raisons. Mais voilà que Google annonce son intention d’indexer uen partie de ce Web jusque là inaccessible par les moteurs.
Juste pour info : la notion de web invisible est bien antérieure à l’étude de Bright Planet…
Cordialement,
Armelle
Armelle> A ma connaissance, l’étude de Bright Planet est la première “mesure” quantitative du phénomène. Mais, si vous avez d’autres références à me signaler, “juste pour info”, je suis preneur 🙂