Moteurs de recherche : Capgemini fait le tri
| Rédigé par Jean-Claude Streicher le Jeudi 22 janvier 2009 |
Comment retrouver efficacement des données, informations et documents internes, dont le volume double tous les 18 mois ? Denis Lafont, responsable du pôle de compétences moteurs de recherche de Capgemini, nous livre son expérience.
S’il ne s’agit que de trouver des informations sur le web, explique Denis Lafont, les moteurs de recherche classiques suffiront. Mais les organisations doivent pouvoir exploiter également toutes les données et informations se trouvant dans leur messagerie, leur PGI, leurs bases de données clients, les factures, leurs applications métiers, leur intranet, quel que soit leur format et leur modèle de sécurité. Il leur faut donc un bon moteur de recherche.
Mais qu’est-ce qu’un bon moteur ? Il doit combiner une analyse statistique et sémantique. La première apprécie l’importance des mots selon leur occurrence et leur emplacement dans les textes. L’autre reconnaît leur sens et sait donc associer par exemple les mots déplacement, avion et voiture. Tous les éditeurs (une 30e de par le monde) sont bons sur l’analyse statistique. Mais c’est Google qui a trouvé la formule magique, le bon équilibre entre ces deux analyses. Il domine donc le marché, avec Fast (ex-Alltheweb) de Microsoft.
Mais un moteur de recherche s’apprécie également sur sa capacité à traiter des volumes. Sauf à les purger régulièrement, les bases dépassant les 3 To sont en effet de plus en plus courantes. Enfin, dernier critère : la sécurité. Un moteur, en effet, ne doit pas afficher des résultats, que l’utilisateur n’est pas habilité à connaître. Deux approches sont alors possibles : le late binding, d’une part, où la sélection est opérée automatiquement après consultation d’un gestionnaire des droits. La recherche sera alors tributaire de l’efficacité de ce gestionnaire ; l’early binding, enfin, qui repose sur une indexation préalable. Pour toutes ces raisons, il convient donc de tester préalablement son moteur sur des données représentatives, dans un volume représentatif et une sécurité représentative.
Capgemini a fait ces évaluations. Dans la nouvelle génération de moteur, Exalead et Vivisimo sortent clairement du lot. Ils sont bien équilibrés fonctionnellement, très agiles et performants. Exalead, en particulier, n’a pas besoin de beaucoup de serveurs pour traiter de gros volumes. Vivisimo se distingue par sa fonctionnalité de catégorisation automatique très appréciée des utilisateurs. Google propose un autre modèle, avec la livraison d’une appliance, intéressante en termes de performance et de simplicité de mise en œuvre dans des contextes simples.
Pour ce qui est des acteurs historiques, Fast (Microsoft) et Autonomy sont au dessus de la mêlée. Fast offre en effet une couverture fonctionnelle très large, notamment pour des sites e-commerce, comme chez PriceMinister. Le moteur IDOL d’Autonomy est clairement le plus riche, avec des fonctionnalités avancées comme le speech-to-text multilingue ou la reconnaissance de séquences vidéos. Il est également très fort dans l’analyse sémantique.
Dans les challengers, nous classons Sinequa, solution émergente mais bien équilibrée. OmniFind d’IBM et Oracle Search ont encore peu de références, mais progressent bien.
Pour son intranet, Capgemini a adopté Google Search Appliance. Ceux qui veulent dépenser le moins possible commencent généralement avec le moteur open source Lucene d’Apache, éventuellement complété par des extensions comme Carrot2. Il peut s’embarquer dans une application métier, mais ne gère pas la sécurité. La difficulté du sujet a toujours été sous-estimée jusqu’à présent, car les moteurs de recherche internes doivent être intégrés aux sources de données, à leurs modes d’accès ainsi qu’aux systèmes d’archivage. Pour les utilisateurs finaux, ils doivent être aussi rapides que Google, mais c’est de moins en moins le cas avec l’explosion des contenus. Tous les grands comptes sont donc en train de repenser leur intranet et de réexaminer les fonctionnalités dont ils ont vraiment besoin. Notre pôle de compétences moteurs de recherche réunit une trentaine d’experts, répartis entre Toulouse, Paris et l’Angleterre.
Nous sommes désolés, les commentaires pour cet article sont fermés.