(My) State of Search 2012

Toujours difficile de modéliser un scénario de recherche d'information. Peut-être parce qu'il n'existe pas de scénario-type de recherche d'information. J'aime bien la difficulté. Au boulot.

Scénario 1.

Aujourd'hui, quand je cherche quelque chose de simple, c'est à dire quelque chose que je sais que je peux facilement trouver, quelque chose dont je sais que la recherche débouchera rapidement et presque nécessairement sur une trouvaille, je vais en général sur Google. Je vais sur Google ne serait-ce que pour arriver rapidement sur la page Wikipédia du truc que je cherche en sachant que je vais le trouver, vu que 9 fois sur 10 c'est cette page Wikipédia que Google m'affichera en premier.

Comme 8 fois sur 10 (estimation à la louche corrélée à vue de pif), comme 8 fois sur 10 ce que je cherche se trouve dans Wikipédia, je pourrais directement aller sur Wikipédia. Si je ne le fais pas c'est parce que Google est un meilleur moteur de recherche que le moteur de recherche (interne) de Wikipédia, mais c'est aussi et surtout parce qu'il existe une possibilité – faible mais non-négligeable – que Google me renvoie un résultat inattendu en réponse à ma requête, juste après la page Wikipédia que j'attendais. Si je continue donc de faire ce genre de recherche sur Google et non sur Wikipedia directement c'est uniquement au nom d'une possibilité de fortuité heureuse, au nom d'une possibilité de sérendipité.

Scénario 2.

Quand on cherche quelque chose de compliqué, c'est à dire quelque chose que l'on sait que l'on ne trouvera pas directement sur Google, ou alors au prix d'une reformulation complexe en différents mots-clés séparés entre eux par des opérateurs variés autant que booléens, bref quand on a une question longue en langage naturel et qu'on a la flemme … on va poser sa question sur Twitter. Et on obtient en général presqu'immédiatement la réponse.

C'est ce qui m'est arrivé pas plus tard que y'a 2 heures.

C'est ce qui m'est arrivé pas plus tard que y'a 2 heures donc. Un copain me soufflait une idée sympa que nous allons (les copains de mon copain et moi) mettre bientôt en oeuvre. Pour la mettre en oeuvre, il nous fallait poser une question répondant aux critères du second scénario, question formulée comme suit :

"quelqu'un sait comment trouver une liste des auteurs qui entreront dans le domaine public en 2013 (=morts en 1942) ?"

Posée sur Twitter auprès d'une audience qualifiée (= mes 2776 followers), les réponses fournies sont un indicateur précieux (si, si), non pas de l'état de la recherche en 2012, mais de la place des différentes stratégies et outils de recherche à un instant donné (= maintenant). Voici donc "(my) state of (this) search 2012."

(my) state of (this) search 2012.

Le tout classé par ordre de pertinence.

Le wikipédiste

Parmi toutes les (bonnes) réponses à la question posée, nombre de mes followers répondant sont allés farfouiller dans Wikipédia. Oui bon bon, j'ai pas non plus dit que j'allais vous annoncer des scoops hein ? Donc ils ont trouvé la réponse dans Wikipédia. Mais en fouillant dans les coins. En utilisant trois méthodes qui se complètent :

la recherche de la page de l'année 1942, là.
la recherche "sémantisée", des gens morts en 1942 : via les catégories, qui renvoient rapidement la catégorie : décès en 1942
la recherche avancée des gens morts en 1942 et qui sont des écrivains :
```
 écrivain* incategory:"Décès en 1942" 
```
qui renvoie là et permet d'isoler les écrivains (mais on pourrait aussi isoler les peintre*, musicien*, etc …

Le dataïste (jeu de mot poussif je vous l'accorde).

Il s'appuie sur le web sémantique ET les données publiques ET les institutions concernées par la question, pour autant que les troisièmes disposent des secondes et les utilisent dans le cadre du premier. Donc il va là : http://data.bnf.fr/ Et il répond ceci.

L'applicatiste.

Il se connecte depuis son smartphone. Il utilise donc pour l'instant un peu moins obligatoirement Google, et se laisse encore séduire par des outils alternatifs. Au rang desquels beaucoup d'apps de moteurs "sémantiques" (qui se contentent en fait souvent d'interroger la sémantique de DBPedia mais c'est un autre débat déjà traité, cf ce magnifique article qui n'a pas pris une ride), dont Evi, qui lui répond ceci.

Le perfectionniste.

Est allé sur Persée.fr, dénicher les statistiques dans le numéro 294 des annales de géographie : 632 496 décès pour l'année 1942. Ça m'aide pas vraiment pour répondre à la question posée, mais savoir que les annales de géographie sont dans Persée.fr et proposent notamment ce genre de statistiques me sera certainement utile pour une prochaine recherche (ou me permettra à mon tour de conseiller quelqu'un).

Moralité(s).

Twitter est le nouveau Google. C'est Twitter qui, de plus en plus, joue aujourd'hui le rôle que jouait Google depuis tant d'années. C'est à dire non pas de nous renvoyer des réponses avant que nous n'ayons posé une question, mais de nous renvoyer vers des sites qui nous renvoient des réponses à nos questions. Et je crois que c'est là l'une des principales raisons du succès de Twitter.

Mais Twitter n'est pas que le nouveau Google. Parce qu'en plus de nous renvoyer vers des sources, vers des autorités "adaptatives", "responsives" (anglicisme intraduisible, avec l'idée d'apporter une réponse – response, et de le faire de manière sensible et en interaction très étroite avec la question – responsive design), parce qu'en plus, disais-je, de nous renvoyer vers des autorités "adaptatives", Twitter ajoute ses propres niveaux de qualification sur les sources vers lesquelles il pointe ou sur les éléments de réponse qu'il livre, nous permettant de gagner ainsi un temps précieux et allégeant considérablement le coût cognitif de la recherche en cours.

Wikipédia domine outrageusement. Non pas tant par ou pour son exhaustivité. Mais parce que, comme le dessine et l'explique magistralement Vidberg, "pour toutes ces connaissances pour lesquelles on ne prendrait pas la
peine de se lancer dans des recherches plus complexes, Wikipédia m'est
devenu (sic) indispensable."

L'arrivée de la sémantique. Plus exactement d'un web socio-sémantique. Alliant la puissance de la recommandation d'une audience "qualifiée" mais de manière non déterministe ( = mix moteurs et réseaux sociaux, par exemple Google +1 qui m'affiche les résultats de "mes amis"), la puissance d'une audience qualifiée bâtie empiriquement sur et autour d'une communauté d'intérêt ( = ceux qui me suivent sur Twitter et les gens que je "suis" également), et l'extraction de plus en plus fine et efficiente de données permettant des parcours sémantiques. Les 5 prochaines années vont, j'en suis convaincu, changer complètement nos manières de mener une recherche, grâce à la montée en puissance et au basculement dans les usages – enfin ! – de résultats de recherche "sémantisés".

Un dernier mot ?

Ces observations me semblent confirmer que le web de demain pourra enfin marcher sur deux jambes : celle des connaissances déclaratives (le web des données) et celle des connaissances procédurales (la sémantique associée aux données). Mais les physiciens vous le diront, le véritable équilibre réclame un troisième point d'ancrage : un tabouret muni de 2 pieds ne tient pas seul en équilibre. Il lui en faut un troisième. Ce troisième point semble voué à rester humain, à passer par l'humain. Car seul un humain est capable de "qualifier" le dosage nécessaire entre le déclaratif et le procédural pour mener à bien une requête dans un contexte de tâche donné (que ladite tâche soit explicite ou implicite). Seul un humain. Seules des interactions entre humains. En tout cas pour l'instant …

Des données, de la sémantique et des hommes. C'est peut-être cela le web 3.0.

3 commentaires pour “(My) State of Search 2012”

Pierre-Carl Langlais dit :

28 novembre 2012 à 0h45

Merci pour ce billet avec lequel je suis en complet accord. La recherche d’information ne se réduit pas seulement à un processus unilatéral (1. je veux ceci 2. je l’obtiens). L’élément humain permet de découvrir tout une gamme de réponses insoupçonnées. Et l’acte de discussion et d’échange, est en soi créateur et révélateur…
Sinon, ce n’est pas pour tout de suite, mais je suis en train de mettre au point un projet d’éphéméride universel sur Wikipédia. (cf. http://fr.wikipedia.org/wiki/Projet:Chronologie et un exemple ici : http://fr.wikipedia.org/wiki/11_mars_1837) Voilà qui devrait peut-être constituer de nouvelles modalités de recherches d’ici quelques années.

Répondre
Kumar (Docnews) dit :

28 novembre 2012 à 8h22

Votre métier vous incite à bénéficier de l’utilisation de ressources en ligne et en réseau et de leur évaluation.
Votre article montre aussi que « l’humain » vient pallier les erreurs du web sémantique, qui croyait qu’avec les ontologies, on s’assurait l’universalité d’accès aux données.
Les chercheurs, depuis bien longtemps, utilisent leurs réseaux pour obtenir informations et documents, et font aussi, pour les plus judicieux, appels aux professionnels de l’information (eux-mêmes très accros aux réseaux) afin de se concentrer sur leur coeur de métier, qui est d’exploiter l’information, l’analyser, la modéliser, faire avancer la recherche.
N’est-ce pas un raccourci que d’assimiler vos pratiques à celle de la recherche en général, notamment en dehors de votre spécialité?

Répondre
olivier ertzscheid dit :

28 novembre 2012 à 8h43

Kumar > être convaincu du rôle crucial que l’humain joue et continuera de jouer n’empâche pas d’être également convaincu de la part de + en + grande qu’occupera la sémantique dans les recherches.
Sur le « raccourci » entre mes pratiques et la recherche en général vous n’êtes pas sans avoir noté que je présentais dans ce billet « MY » state of search 🙂

Répondre

Laisser un commentaire Annuler la réponse

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.