Pourquoi google Scanne ?

Olivier Ertzscheid7 septembre 2006

(Why is Google scanning books ?)

Cette question n’appelle évidemment pas de réponse unique (cf ici …) Mais François Planque apporte un des éléments de réponse primordiaux : "pour récolter un maximum d’information sur les modèles linguistiques". A rapprocher de cet extrait de l’excellent documentaire "Google behind the scene". Google qui par ailleurs obtient régulièrement d’excellents résultats dans les "compétitions" internationales de recherche sur la traduction automatique. Oui Jean-Marie, les traducteurs ont probablement du souci à se faire …

Olivier Ertzscheid

Site https://www.affordance.info

Articles créés 3001

5 commentaires pour “Pourquoi google Scanne ?”

claude dit :

7 septembre 2006 à 13h52

Il se trouve que pour une fois, je peux peut-être apporter à ce débat une vision « d’expert ». Je travaille depuis plus de quinze ans dans le monde fascinant du TAL ou Traitement Automatique des Langues (NLP pour les anglo-speakorants). Le problème de l’utilisation de vaste quantité de données livresques pour améliorer les performances de Google me semble très limité. En effet, il existe une multitude de méthode dite d’apprentissage automatique (Machine Learning pour les anglo-speakorants) qui se divisent grosso-modo en deux sous-groupes : Les méthodes supervisées et les méthodes non-supervisées (évidemment). Les méthodes supervisées consistent essentiellement à faire tourner les machines sur des données annotées, annotées par des êtres humains, avec l’espoir que de ces annotations va naître un modèle auto-émergeant des documents en question. La seconde méthode dont les résultats sont à des années lumières de la première méthode consiste à explorer les documents sans la moindre aide d’aucune sorte. Les documents sont pris bruts de décoffrage et on tente de repérer des sections redondantes et récurrentes. Dans le cas de la traduction automatique, pour donner un exemple, un gros travail a été fait ces dernières années pour « aligner » des documents d’une langue A avec une langue B. Le couple de langue pour lequel le travail le plus intéressant a été fait est l’anglais et le français, du fait de l’existence du Hansard, qui contient l’ensemble des procès-verbaux des débats au parlement canadien et qui sont traduits systématiquement dans les deux langues. Les résultats sont malgré ce qu’en disent leurs défenseurs pas très concluants. En effet, la particularité de ces méthodes est de repérer de manière statistique la redondance dans les langues, et les langues se singularisent souvent par leur richesse insupportable à nos yeux d’ « expert » sur laquelle se brise les tentatives statistiques de repérer si « le beurre et l’argent du beurre » se traduit bel et bien par « have and eat your cake ». Je ne crois pas que le WEB fournira cette masse tant espérée de documents traduits d’une langue à l’autre, dont la richesse serait telle que toutes les expressions et toutes les exceptions trouveraient enfin leur juste traduction.

Répondre
Malaiac dit :

7 septembre 2006 à 16h04

J’avais traduit il y a quelques mois un article de Georges Dyson, écrit au retour d’une visite au GooglePlex. Un Googler lui avait dit : “Nous ne scannons pas ces livres pour être lu par des gens, nous les scannons pour être lus par une AI”.
Georges Dyson imagine que Google peut essayer de construire une intelligence artificielle, à partir d’une puissance de calcul phénoménale et d’un corpus textuel sans équivalent historique.
Article original :
http://www.edge.org/3rd_culture/dyson05/dyson05_index.html
Mon billet :
http://www.malaiac.net/moteurs/72-google-la-cathedrale-de-turing.html

Répondre
Jean-Marie Le Ray dit :

8 septembre 2006 à 17h28

Olivier,
Content que tu aies relevé l’importance du problème.
Concernant l’opinion de Claude, je suis loin d’être un expert comme lui, cependant certains éléments me font douter fortement de sa conclusion : « Je ne crois pas que le WEB fournira cette masse tant espérée de documents traduits d’une langue à l’autre, dont la richesse serait telle que toutes les expressions et toutes les exceptions trouveraient enfin leur juste traduction. »
Tout d’abord, depuis l’aube de l’humanité, jamais aucune entité (je ne sais plus trop comment définir Google) n’a eu de capacités de collecte, d’analyse, de recoupement, de traitement, etc., de l’information dans des proportions aussi gigantesques, et qui plus est convergeant de canaux multiples : ordinateurs, mais aussi mobiles, télévision, etc. etc.
Premier point. Deuxièmement, lorsque je vois l’expertise atteinte par Google en moins de dix ans ( http://adscriptum.blogspot.com/2006/04/google-et-la-traduction-automatique.html ), allant jusqu’à faire mieux que les pionniers dans ce domaine (y compris IBM et Systran), et ses résultats sur des langues aussi ardues que le chinois et l’arabe, je ne peux m’empêcher de penser que la traduction automatique deviendra très vite réalité, à des niveaux de précision beaucoup plus élevés que ceux que l’on connaît actuellement avec Systran.
Un autre volet concerne la traduction texte vers voix et réciproquement, avec une exploitation intensive sur les mobiles en point d’orgue, et là encore, je rejoins l’avis de Malaiac puisque j’ai moi-même cité Dyson dans un long développement consacré à ce sujet (entre autres) : http://adscriptum.blogspot.com/2006/07/google-rs2-traducteur-automatique-de.html
En conclusion, je suis sûr que Google nous réserve de grosses surprises dans la traduction automatique, de préférence dans un avenir pas trop lointain. Merci d’avoir abordé le sujet. 🙂
Jean-Marie

Répondre
Pablo dit :

22 septembre 2006 à 19h03

Salut Olivier,
Content de t’avoir entendu en « live » à Fribourg pour la première fois (grace à @archiveSIC j’avais lu ton papier avant alors j’ai pu profiter plainement des ces courts 20 minutes « new-age » 😉 dommage qu’il n’y a pas plus de monde, je suis deçu de mes collègues suisses, ils étaient où les bibliothécaires!!!!
Pour cette histoire de numérisation, je n’avais pas imaginé une minute les motivations linguistiques cachées de Google, ça donne une autre perspective de l’enjeu, mais il faudra qu’ils s’appliquent un peu plus au scanner car sinon ils vont avoir de la peine à avoir des phrases entières…même les bénédictins sont revoltés (http://e-benedictins.blogspot.com/2006/09/digitalized-by-google.html)
Pablo

Répondre
olivier dit :

22 septembre 2006 à 20h28

Claude & Jean-Marie> merci de ces points de vue.
Pablo> Salut pablo et bravo à toi pour ton intervention à Fribourg, très claire et très pédagogique. La BIUM et le CSDP (et leurs usagers) ont bien de la chance d’avoir un champion du RSS dans leurs rangs. Merci pour le lien vers ce billet d’E-benedictin effectivement assez savoureux.

Répondre