Bon d’accord ce n’est pas très fair-play et il est probable que si c’était une petite société humaniste qui avait numérisé le contenu de textes libérés de leurs droits (d’auteur) tout le monde aurait applaudi des deux mains. Il n’empêche, Google annonce officiellement le "chapitre premier" de son opération de numérisation avec la mise en ligne des premiers corpus de textes antérieurs à 1923. Un premier essai avec la requête : "date:1500-1923" est tout à la fois alléchant et vertigineux puisqu’il affiche (déjà) 11 700 000 pages (on verra plus loin qu’il n’en est rien ou pas tant que ça …) avec sur les 10 premiers résultats (ça va faire plaisir à Mr Jeanneney …) 2 ouvrages en français, un en allemand et un en latin (et dans les 10 suivants, 5 en allemand et 1 en espagnol). Alléchant donc. Or après consultation de quelques pages de n’importe quel ouvrage on bute sur la page suivante :
Une fois la petite case (captchas) renseignée il semble que l’on puisse de nouveau consulter quelques pages avant … que cela ne recommence encore et encore … Donc de 2 choses l’une :
- soit il s’agit d’un bug et on ne va pas tarder à voir un message sur le même blog officiel indiquant quelque chose du genre "lors de l’ouverture de notre service révolutionnaire nous avons été soumis à une attaque virale en règle orchestrée par la BNF"
- soit il s’agit d’une phase transitoire pour éviter une surcharge de requêtes en réaction à l’annonce de l’arrivée des premiers fonds
- soit il s’agit du vrai fonctionnement de Google Print et là …
Voici pour gagner du temps quelques indications séculaires pour jauger du fonds et de l’avancée de Google-Print (préparez vous à rire …)
- "date:1500-1600" (16ème siècle donc) : "no results". Bon.
- "date:1600-1700" : 3 livres (1 français, 1 latin, 1 anglais … Jean-Noël si tu me lis …)
- et là … il y a quelque chose que je ne comprends pas : je n’ai à l’affichage que 3 ouvrages de respectivement : 206, 78 et 288 pages. Or dans le bandeau d’affichage je lis : "
20900 pages on date:1600-1700". Alors 572 pages ou 20900 ??? Si notre expert mondial en bidonnage de comptes peut nous éclairer de ses lumières … mais du coup avec une bonne calculatrice les 11 millions 700 000 pages annoncées en page d’accueil se réduisent comme peau de chagrin :-(( et le meilleur est à venir …
- et là … il y a quelque chose que je ne comprends pas : je n’ai à l’affichage que 3 ouvrages de respectivement : 206, 78 et 288 pages. Or dans le bandeau d’affichage je lis : "
- "date:1700-1800" : 442 000 pages et/mais 62 résultats.
- "date:1800-1900" : là c’est le ponpon … 7 680 000 pages pour … 14 ouvrages !!!
- "date:1900-1923" : 45 ouvrages … et 5 280 000 pages.
Bon je résume (mais on va encore dire que j’accable 🙂 :
- siècle après siècle (1500 – 1923) pour les comptes de Google on a : 13 422 900 millions de pages. On va donc considérer qu’ils savent faire des additions en leur accordant que sur chacune de mes requêtes il y a chevauchement de dates, ce qui peut expliquer la différence avec les 11 700 000 pages affichées sur leur page d’accueil (il eût fallu saisir "date:1700-1799", puis "date:1800-1899", etc … mais bon j’ai quand même pas que ça à faire). Donc ils savent faire
desleurs additions. Par contre tout cela ne concerne apparemment que 124 ouvrages … soit des ouvrages de 94 354 pages. Chacun.
Ce serait urgent que quelqu’un leur dise que leur machine à numériser est en fait une photocopieuse qui pour une page scannée leur en sort 100 exemplaires …
P.S. : spéciale dédicace à Jean pour l’emprunt (d’une moitié) du titre de ce billet.
Update du soir : bon d’accord ils ont du mal avec les additions et ils prennent un peu les enfants du bon dieu pour des canards sauvages MAIS … cela n’en reste pas moins un très bon outil pédagogique. pour mon prochain cours d’histoire de la bibliographie on va pouvoir tranquillement feuilleter le "Manuel du libraire" de Brunet. Pratique. Avant il aurait fallu se déplacer dans l’une de ces BU. Pas pratique.
[ Bugbliothéque ]
Olivier a une obsession et une calculatrice.
…
Si tu veux éviter de renseigner le captcha, tu peux consulter le manuel du libraire de Brunet sans souci sur………Gallica 😉 : http://gallica.bnf.fr/notice?N=FRBNF30169533&UC=o
Merci Got. J’avoue sur le coup avoir un peu pêché par excès de Googlecentrisme 🙁 D’autant que j’avais le matin même cité Gallica aux étudiants :-(( D’ailleurs après une sommaire vérification, il semble que la plupart des ouvrages français disponibles dans GooglePrint soient aussi dans Gallican (reste les autres …) … Mais, à décharge cette fois, le problème de Captchas de Google semble terminé.
Merci en tout cas de me rappeler à la qualité des outils de notre bel hexagone 😉
Gallica, pas Gallican ! 😉
Bugbliothèque (suite)
Bon ben voilà. Il suffisait de le dire. Dont acte.
4 4=5
Google à aujourd’hui 8 ans et fête ça avec un logo de gâteau d’anniversaire sur lequel figurent … 5 bougies. Ne sait décidément pas compter 🙁