(English version / Version anglaise)
Que représentent finalement les 8 milliards de pages (peut-être même un peu plus) disponibles dans Google ?
Finalement peu de choses au vu du rappel de ces chiffres datant de 2003 (Rapport ahurissant "How Much Information in The World" de l’Université de Berkeley) :
- le web "de surface" (= indexé ou susceptible de l’être par les moteurs) représente 167 TéraBits d’information
- les données des bibliothèques : 2,000 TB
- le web profond ("invisible" ou "deep web") : 91,850 TB
(Pour mémoire 1 TB = 1000 GigaBits)
Et maintenant un peu de mathématiques :
- PROBLEME :
"Sachant que (selon le même rapport que plus haut) la taille moyenne d’une page web est de 605 Kb (prenant pour cela en compte le fait que nombre de pages incluent des images, des films et des animations) quel est le volume de données indexé par Google et que représente-t-il à l’échelle de l’ensemble des données existantes ?"
- SOLUTION : 605 x 8 000 000 000 = 4 840 000 000 000 Kb
ou encore 4,84 Terabits ou encore …
Google permet d’accéder à 0,005 % de l’information mondiale.
Le calcul est amusant.
Cependant, pourquoi n’accède-t-il pas à certaines données ? Est-ce du fait de la petitesse de son index – en partie bien sûr ? Ou est-ce lié au fait que bien des bases de données, consitutant le « web profond » ne sont pas prévues pour être indexées de l’extérieur (bases de données d’agents immobilier par exemple, fiches biographiques du Who’s Who, etc.) ? Cela peut-même avoir des bons côtés, pour certains vendeurs de contenus, de ne pas être indexés par les moteurs (même si la contrepartie est souvent un manque de visibilité) : ça permet de le vendre…
Dans ce même web de surface, de quoi sont fait les 167 TB ?
Malgré tout ce qu’on peut critiquer, les moteurs semblent relavivement bien indexer les pages web. Ils ont plus de mal à indexer des documents non liés qui constituent une grande partie de ce web de surface qui échappe aux moteurs. Quant au web profond, ils ne pourront y accéder que si on le leur ouvre… Et tout le monde ne fera pas le même choix.
Faut que j’arrête de faire mon avocat du diable 🙂
Bonjour Hubert,
La petitesse de l’index joue surement. D’après l’étude de berkeley, le web de surface correspond à la définition qu’en a donné BrightPlanet, à savoir les pages statiques. 167 Tb de pages statiques … ce n’est peut être pas si mal que Google n’en indexe « que » 0,005 %. J’imagine les syncopes le cas échéant : « vous avez 6 milliards de réponses sur Mille deux cent cinquante milliards de pages ».
Mis à part ça, l’une des réponses à « Où sont passés les 99,995 % restant du web de surface » est probablement à chercher dans l’algorithmie de Google et ses dérives qui à force de ne prêter qu’aux riches, laisse en déshérance un grand nombre de pages. Mais tout n’est pas là loin s’en faut. Pour ce qui est de la méthodologie de calcul précise le mieux est d’aller directement voir la page :
http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm
et notamment l’une des premiers schémas sur la « composition du web de surface par type de fichier » dans lequel on voit que les pages HTML statiques ne sont « que » 17,8% de ce web de surface.
Donc en fait mon calcul est faux … il aurait fallu prendre la totalité des fichiers indexés par Google (web mais aussi images, vidéo, groupes, etc .) ou bien alors faire le même calcul mais par rapport à 17,8% des ces 167 Tb. Si quelqu’un à 5 minutes et une calculatrice sous la main … faut que j’aille expliquer à des étudiants que tout n’est pas dans Google 😉
SOLUTION : 605 x 8 000 000 000 = 4 840 000 000 000 Kb
ou encore 4,84 Terabits ou encore …
=> on ne fait pas les memes calculs…
4 840 000 000 Mb
4 840 000 Gb
4 840 Tb