Malgré deux mois d'interruption d'Affordance, le monde ne s'est pas arrêté de tourner, et dans le monde qui nous préoccupe, il s'est passé plein de choses du côté du géant de Mountain View. Petite revue de liens :
- Colonne vertébrale de données et coeur battant d'algorithmie
- on commence par l'impressionnante visite de l'un des centres névralgiques du cloud computing planétaire, les fameux DataCenters de Google. Visite guidée en vidéo à suivre chez PCImpact et également reprise par Jean-Michel Salaun.
- après la colonne vertébrale (DataCenters) on enchaîne avec le coeur palpitant de la firme, à savoir son algorythme et cet article qui liste la manière dont 4 de ses critères ont évolué dans le temps. Des 4 critères retenus, c'est celui de l'autorité du domaine d'hébergement ("trust/authority of host domain") qui fait apparaître la hausse la plus significative. Rappelons par ailleurs qu'en 2008 il y eut pas moins de 450 substantielles modifications apportées à l'algorithme de Google.
- Le bras armé du téléchargement …
- En Chine, Google propose un service de téléchargement légal de musique. Zorgloob nous apprend que : "Le nombre de titres proposés au téléchargement s'élève à 350 000 et devrait prochainement dépasser le million. Des accords ont été noués avec les maisons de disques Sony Music, Warner Music, EMI et Universal Music ajoute Reuters, et c'est avec eux que Google partagera ses recettes publicitaires. C'est le même genre d'accord qui a échoué au Royaume-Uni il y a quelques semaines." Cette nouvelle laisse naturellement présager de l'arrivée d'une offre semblable sur le marché européen, notamment sur la place laissée libre par la gabegie Hadopienne. Google serait alors rapidement en situation de contrôler la monétisation publicitaire de l'offre en téléchargement des majors de l'industrie musicale. Ce qui ne serait pas une mince affaire …
- Côté coeur : le portefeuille.
- Côté gros sous, la publication des derniers résultats financiers de Google peut-être lue de deux manières : c'est la première fois que ces résultats sont en baisse (moins 3% par rapport au trimestre précédent), mais ces résultats restent en hausse (+ 6% sur un an). Ne connait pas la crise donc. Principalement grâce au secteur de la publicité en ligne qui ne connaît pas (non plus) la crise (même si l'on observe quelques menus ralentissements largement compensés par le transfert de gros budgets publicitaires depuis le monde de l'affichage "classique" vers celui de l'affichage "en ligne"), secteur qui ne connaît pas la crise et secteur que Google domine outrancièrement. Ce qui fait dire aux camarades d'Ecrans que "Google invente la décroissance rentable".
- Ces résultats financiers se retrouvent dans l'impressionnante liste des parts de marché de Google dans différents pays du monde :
- côté modèle économique toujours, voir l'analyse de Jean-Michel Salaun sur cet oligopole à frange qu'est Google, un oligopole jamais en manque d'appétit comme le confirment ses récentes visées sur LE site du moment : Twitter.
- Google à la marge
- on poursuit par un petit gadget fort utile qui m'avait jusqu'ici échappé : la traduction de la page des résultats. Exemple ici.
Searchology. Tel est le nom de l'événement au cours duquel Google a présenté de nouvelles options de recherche. La dernière "searchology" s'était tenue il y a deux ans de cela et elle avait vu l'annonce de la recherche universelle. Petite revue de détail … Nota-Bene : ces options sont pour l'instant disponibles uniquement dans la version anglaise du moteur (http://www.google.com). Danny Sullivan en livre l'analyse détaillée la plus complète et la plus intéressante.
- You're my Wonder Wheel : une oasis de recherche dans le désert de la catégorisation (clustering). Il s'agit là d'une représentation cartographique de l'outil de catégorisation tournant déjà dans Google (affichage tout en haut ou en bas de la première page de résultats). Ici, Google marque deux points. Le premier parce que la catégorisation est incontestablement une clé importante pour le guidage (affinage) des recherches. Sur ce terrain Google avait un temps de retard. Le second parce que cette catégorisation est représentée de manière cartographique. Mais si les moteurs cartographiques sont pléthore (Kartoo en tête), leur interface graphique chargée est très souvent déroutante pour l'utilisateur lambda. Avec sa Wonder Wheel, Google allie la puissance de la catégorisation et de la cartographie mais de manière non-déroutante pour l'usager, sans que celui-ci ait besoin de faire appel à une acculturation particulière. Comme le rappele Danny Sullivan dans son billet la catégorisation avait été "inventée" (dans le monde des moteurs de recherche) par AltaVista avec son algorithme "Live Topics", notamment développé par un certain François Bourdoncle, actuel PDG d'Exalead.
- A la recherche du temps perdu : Google Timeline : dans toute activité de recherche d'information, la capacité de replacer une information en contexte sur une ligne du temps est un énorme avantage qualitatif qui permet de trancher dans le quantitatif des résultats délivrés. Le passage des moteurs à l'indexation temps réel ("world live web") ne doit pas faire oublier l'aspect fondamentalement discriminant qui permet de disposer d'une archéologie (même sommaire) de l'inscription numérique des informations diffusées en ligne. C'est précisément pour répondre à ce besoin que Google propose une fonctionnalité de type Timeline. Laquelle fonctionalité est remarquablement intuitive : l'affichage se fait d'abord par clusters de "dizaines d'années" pour, en deux clics, permettre de descendre au niveau du cluster mensuel. Le gros défaut de cette Timeline est qu'elle ne permet pas réellement de "dater" une information. Elle se contente de récupérer les "années" figurant dans le coprs du texte. Ainsi, je n'ai pas écrit d'articles en Juin 1944, mais l'un de mes articles (et mon nom) se retrouve dans un recueil qui comprend également le discours de De Gaulle du 6 Juin 1944. C'est là tout le problème de l'information "non-structurée" avec laquelle doivent se débrouiller les moteurs de recherche. Et c'est ce qui m'amène au troisième point, le moins souligné par les différents analystes, le moins visible également, mais à mon avis pourtant de loin le plus important.
- Google embarque sur le web de données et s'empare des microformats. Ce n'est là rien moins que l'entrée officielle de Google dans la course au web sémantique. Dans un article produit à l'occasion du dernier séminaire INRIA j'écrivais ceci : "A l’inverse d’une approche descendante impliquant que soient déjà franchis les différents obstacles techniques permettant la mise en œuvre d’un web totalement sémantique, l’évolution des fonctionnalités sémantiques des moteurs de recherche suivra plus probablement une approche ascendante, émergente. Il s’agit cette fois de prendre progressivement en compte les différentes avancées des protocoles, langages et formalismes liés au web sémantique, non pas de manière globale mais sur des contenus très ciblés, ou dans le cadre de contextes de recherche là encore très spécialisés. En Mars 2008, Yahoo ! a ainsi annoncé qu’il prendrait en compte le standard RDF ainsi que les microformats. Pour ne prendre que ce dernier exemple, de nombreux développements existent actuellement. La dernière course de fond engagée par les moteurs consistera donc à en prendre le maximum en compte (sans nécessairement attendre une harmonisation globale ou une standardisation univoque de l’ensemble des développements applicatifs en cours), tout en trouvant le moyen de s’en servir pour « enrichir » l’expérience utilisateur lors d’une recherche d’information, par exemple en présentant des résultats de recherche davantage structurés ou permettant davantage d’interactions synchrones avec d’autres recherches, d’autres services, d’autres terminaux d’accès. Dit autrement, les moteurs sémantiques pourraient fournir une solution aux limitations de la recherche par mot-clé." Sur son blog, Google écrit ainsi : "today we are announcing that some of our snippets are going to get richer. These "rich snippets" extract and show more useful information from web pages than the preview text that you are used to seeing. For example, if you are thinking of trying out a new restaurant and are searching for reviews, rich snippets could include things like the average review score, the number of reviews, and the restaurant's price range (…) In this example, you can quickly see that the Drooling Dog Bar B Q has gotten lots of positive reviews, and if you want to see what other people have said about the restaurant, clicking this result is a good choice. We can't provide these snippets on our own, so we hope that web publishers will help us by adopting microformats or RDFa standards to mark up their HTML and bring this structured data to the surface." L'enrichissement sémantique des résultats (rendu possible par l'ajout de microformat du côté des utilisateurs qui créent les contenus) est la face la plus avancée d'un web sémantique idéalisé. L'autre côté de ce rêve est l'enrichissement sémantique des requêtes elles-mêmes (en s'appuyant par exemples sur des bases de questions). Quand ces deux là seront effectifs, c'est à dire propablement dans quelques – très – courtes années, l'expérience de la recherche d'information n'aura alors plus rien à voir avec celle que l'on ressent aujourd'hui. Et de la même manière qu'il est impossible de faire mesurer à une jeune internaute à quel point la recherche sur Gopher ou Véronica étaient à des années lumières de ce qu'il connaît aujourd'hui, la recherche sémantique de demain (après-demain ?) renverra à l'âge de pierre notre pratique actuelle de la recherche d'information.
Et puis pour tout connaître des entrailles du moteur, ne manquez pas la page "ressources" que lui consacre l'URFIST de Rennes.
Enfin pour combler les lacunes de ce billet, lire l'excellente revue de blog opérée par Blogus Operandi.