Accéder au contenu principal

IllicoPresto : moteur belge sous Nutch

Illico Presto (www.illicopresto.be) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel, CETIC.

Le moteur permet de retrouver les documents web (HTML et PDF) d'une dizaine de sites :

Il présente les caractéristiques suivantes :
  • un index d'environ 6000 urls (de 10 serveurs web)
  • un outil de correction automatique (voir plus loin)
  • un outil de statistiques
  • un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage")
  • l'indexation des pdf, msword, ps

Outil de correction automatique
L'outil de correction automatique permet d'élargir les recherches en adaptant les mots de recherche à la plupart des erreurs de frappe. Cet outil de correction gère entre autre le pluriel des mots entrés au singulier et inversément, ainsi que les caractères accentués (é, è , ê).

Cet outil de correction se base sur une modification du plugin query-basic , incluant les LuceneFuzzyQuery. Ce plugin n'est pas recommandé aux index de grande taille car il ralentit considérablement les performances (au lieu de rechercher un seul mot dans l'index, les fuzzyquery évaluent à quelle distance se situent tous les mots de meme préfixe que le mot d'origine). Enfin, cet outil est uniquement utilisé au niveau du module de recherche (et non pas à l'indexation).

Pour de plus grands index, on utilisera plutot un outil de lemmatisation. Et à plus grand échelle encore, on se contentera d'un outil de correction orthographique, basé sur des dictionnaires.

Ce moteur réalisé avec Nutch a été testé quant à ses performances d'indexation. Est-il plus complet que Google ? Ne l'est-il pas ?
Le crawl total des pages s'effectue en 3 heures avec les paramètres les plus optimaux (on est sur de crawler chaque page).

Tests de comparaison
Illico Presto a été testé par rapport à l'API du moteur de recherche Google. La comparaison a lieu uniquement sur les sites webs référencés par illicopresto !

IllicoPresto présente plus de résultats pour les mots de recherche suivants (pris au hazard) :
Brasage (illico:6 - google:2)
laser électroérosion (illico:4 - google:0)
catalyse divisés (illico:2 - google:0)
nanotechnologie produit (illico:24 - google: 9)
activité enzymatique (illigo:3 - google :0)

Si l'on emploie Google directement (plutot que l'API), Google présente alors de nombreux résultats. Après vérification, il s'agit d'un leur : les résultats supplémentaires sont tous des erreurs 404 (j'en conclut hâtivement donc que l'API est rafraichit plus régulièrement)

Google présente parfois plus de page de résultats car celles-ci ne sont pas accessibles à partir des pages d'accueil (joignables par quelques clics, de liens en liens). Le site du CETIC, par exemple, ne permet pas d'accéder à la page http://www.cetic.be/article331.html tandis qu'elle est indexée par Google. Il s'agit certainement d'une page pointée sur www.coregrid.net , et ce dernier n'est pas lui même parcouru par Illico Presto.

Des serveurs web aussi lent (lors des tests) que www.crif.be (la lenteur est visible avec votre navigateur) sont presque ignorés par Google, pas par IllicoPresto (exemple : "laser électroérosion" ne donne aucun résultats sur google). En effet, Illico Presto représente peu de pages internets, les paramètres utilisés avec Nutch ont donc été plus "prudents" (voir plus loin la section paramètres)

Certaines pages qui n'ont rien à voir avec Multitel, ne sont pas référencées sur IlloPresto mais bien par Google.
Pour exemple, cette page humoristique d'une équipe de multitel, et qui n'est pas accessible à partir de la page d'accueil de multitel.
http://www.multitel.be/~ruelle/comega/equipe35.htm (/Le site non-officiel du jeu des Messagers Galactiques).
Cette remarque est juste anecdotique, mais représente un avantage au manque précédemment cité vis-à-vis des pages non référencées.

Conclusion générale des tests : pour l'objectif du moteur IllicoPresto, Nutch amène notre moteur à de relativement meilleurs résultats que Google ou son API.

Commentaires

Posts les plus consultés de ce blog

Installation de Nutch 0.8.1 sous Ubuntu 6.10

Merci à Arnaud Goupil alias Arnonymous pour son très bon tutoriel en français sur l' Installation de Nutch sous Ubuntu . Pour les anglophones, je vous conseille également de lire ce très intéressant billet de Sami Siren (contributeur très actif à Nutch) où il est question, grâce à la compression de données, de gagner en espace de stockage, MAIS également en temps de traitement CPU...

Rencontre entre Nutchies

Avis aux Francopho Nutchies, le Jeudi 18 Mai prochain aura lieu vers 19:00 une rencontre entre les utilisateurs de Nutch . Vous êtes donc tous conviés à venir participer à cette rencontre qui se déroulera Cafe Du Soleil , 200 Fillmore Street, San Francisco, CA (voir la carte ). Oui, je sais, San Francisco ce n'est pas la porte à côté, mais au moins, les problèmes de visa pour les Etats-Unis semblent être de l'histoire ancienne, c'est déjà ça! C'est une bonne occasion pour rencontrer Doug Cutting ou Stefan Groschupf . Alors, si vous êtes intéressé, l' invitation officielle est ici .

Nutch-0.7.2

La version 0.7.2 de Nutch est disponible. Cette version contient uniquement des corrections de bugs. Voici la liste des modifications: NUTCH-107 - Correction d'erreurs de syntaxe dans les fichiers plugin.xml des plugins urlfilter-* (Stephen Cross). NUTCH-141 - Tag title non valide dans les pages jsp (Marko Bauhardt). Correction de problèmes de compilation dus à des répertoires vides dans des plugins. NUTCH-142 - NutchConf utilise maintenant le classloader de son thread. (Mike Cannon-Brookes). NUTCH-45 - SegmentMergeTool loggue maintenant les segments corrompus. (Otis Gospodnetic). Correction des test unitaires de TestFetcher qui échouaient à cause de changements sur le site web www.nutch.org /li> NUTCH-91 - Exceptions dues à un encodage vide. (Michael Nebel). Mise à jour de la librairie Lucene à la version 1.9.1. Librairie Commons HTTPClient mise à jour à la version 3.0. Ignore les liens "post" et "nofollow"