Google numérise gratis, certes, mais mal

Rédigé par Jean-Claude Streicher le Mercredi 23 décembre 2009

La numérisation de fonds patrimoniaux proposée gratuitement par Google n’est pas exempte de défauts. Huit acteurs français du secteur se sont donc regroupés dans le consortium Polinum pour finaliser une offre technologique plus crédible.

Google a déjà obtenu de pouvoir numériser les fonds anciens de plusieurs bibliothèques universitaires et publiques aux Etats-Unis et en Europe. Mais comme il le fait gratuitement, ce ne peut être qu’un service à bas coût. On peut ainsi tomber sur des pages floues et illisibles, scannées trop hâtivement, avec la main gantée de l’opérateur. "Pour ternir ses objectifs de productivité, Google ne rescanne effectivement jamais les pages ratées, indique Alain Pirrot, directeur commercial de la division Digibook (scanners de livres) d’I2S à Pessac (Gironde). On observe également des indexations incorrectes, donnant lieu à des résultats de recherche sans rapport avec les requêtes." De plus, Google ne numérise jamais les pages qui se déplient. Certaines universités américaines préfèrent donc confier la numérisation de certains de leurs fonds à d’autres opérateurs.

Mais il y a plus grave. Les centres de numérisation de Google ne se visitent pas. Et pour cause ! "Ils n’utilisent pas les meilleurs matériels du marché, poursuit Alain Pirrot, mais des installations bricolées. Des articles de presse, photos à l’appui, font même croire qu’ils emploient nos machines. Ce qui n’est évidemment pas le cas."

Google a cependant un mérite : il a donné un puissant coup d’accélérateur à la numérisation de l’écrit papier, ancien ou moderne, et à sa publication, gratuite ou payante, sur l’internet, qui sont donc désormais reconnus comme inéluctables et nécessaires à la diffusion des savoirs. A l’occasion du grand emprunt national, la France va y consacrer des moyens supplémentaires. Reste à savoir comment on s’y prendra. Avec les solutions existantes ou des technologies plus évoluées ?

"Nos matériels sont bons, mais perfectibles, reconnaît Jean-Pierre Gérault, président du directeur d’I2S. En regard des nouveaux enjeux, nous devons améliorer la qualité des images et la reconnaissance des caractères, notamment anciens, pour obtenir des extractions plus pertinentes. Nous devons aussi améliorer les méta-données et les indexations et aller vers la gestion de contenus full-média, combinant l’écrit, le son et l’image."

Après une réflexion de deux ans, I2S a donc constitué le consortium Polinum (Plateforme opérationnelle pour le livre numérique) avec sept autres partenaires : Arkhénum, spécialiste de la numérisation patrimoniale, Exalead, l’éditeur de moteurs de recherche avancée et spécialiste de l’indexation de contenus, Isako, éditeur d’outils d’OCR, de contrôle qualité et de workflow, Amanager, éditeur d’outils de publication et de visualisation sur Internet, CEA List, unité de recherche dédiée à la sémantique image et texte, Labri, laboratoire spécialsié dans le traitement et l’indexation d’images, et Adera, cellule agréée de gestion administrative et financière. Tous les huit sont bordelais, à l’exception d’Exalead.

Ils se sont donnés trois ans pour faire évoluer leurs produits et services en fonction des nouvelles attentes. Pour cette R&D, ils disposent d’un budget de 4 millions d’euros, alimenté pour un tiers par le conseil régional d’Aquitaine et le fonds européen Feder. A la fois conseil, développeur et intégrateur, le consortium est à l’écoute des propriétaires de fonds patrimoniaux publics, des propriétaires de contenus industriels comme des sociétés de presse et d’édition.


Nous sommes désolés, les commentaires pour cet article sont fermés.

 

demateriel.com

La dématérialisation de documents s'accélère (factures, courriers, contrats, télé-procédures). Leur mise en oeuvre est à la convergence de trois savoir-faire : la GED, l'archivage et la gestion des flux. C'est un monde à découvrir.


Alain Laidet, fondateur, E-Business Info.