Illico Presto (www.illicopresto.be) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel, CETIC.
Le moteur permet de retrouver les documents web (HTML et PDF) d'une dizaine de sites :
Il présente les caractéristiques suivantes :
- un index d'environ 6000 urls (de 10 serveurs web)
- un outil de correction automatique (voir plus loin)
- un outil de statistiques
- un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage")
- l'indexation des pdf, msword, ps
Outil de correction automatique
L'outil de correction automatique permet d'élargir les recherches en adaptant les mots de recherche à la plupart des erreurs de frappe. Cet outil de correction gère entre autre le pluriel des mots entrés au singulier et inversément, ainsi que les caractères accentués (é, è , ê).
Cet outil de correction se base sur une modification du plugin query-basic , incluant les LuceneFuzzyQuery. Ce plugin n'est pas recommandé aux index de grande taille car il ralentit considérablement les performances (au lieu de rechercher un seul mot dans l'index, les fuzzyquery évaluent à quelle distance se situent tous les mots de meme préfixe que le mot d'origine). Enfin, cet outil est uniquement utilisé au niveau du module de recherche (et non pas à l'indexation).
Pour de plus grands index, on utilisera plutot un outil de lemmatisation. Et à plus grand échelle encore, on se contentera d'un outil de correction orthographique, basé sur des dictionnaires.
Ce moteur réalisé avec Nutch a été testé quant à ses performances d'indexation. Est-il plus complet que Google ? Ne l'est-il pas ?
Le crawl total des pages s'effectue en 3 heures avec les paramètres les plus optimaux (on est sur de crawler chaque page).
Tests de comparaison
Illico Presto a été testé par rapport à l'API du moteur de recherche Google. La comparaison a lieu uniquement sur les sites webs référencés par illicopresto !
IllicoPresto présente plus de résultats pour les mots de recherche suivants (pris au hazard) :
Brasage (illico:6 - google:2)
laser électroérosion (illico:4 - google:0)
catalyse divisés (illico:2 - google:0)
nanotechnologie produit (illico:24 - google: 9)
activité enzymatique (illigo:3 - google :0)
Si l'on emploie Google directement (plutot que l'API), Google présente alors de nombreux résultats. Après vérification, il s'agit d'un leur : les résultats supplémentaires sont tous des erreurs 404 (j'en conclut hâtivement donc que l'API est rafraichit plus régulièrement)
Google présente parfois plus de page de résultats car celles-ci ne sont pas accessibles à partir des pages d'accueil (joignables par quelques clics, de liens en liens). Le site du CETIC, par exemple, ne permet pas d'accéder à la page http://www.cetic.be/article331.html tandis qu'elle est indexée par Google. Il s'agit certainement d'une page pointée sur www.coregrid.net , et ce dernier n'est pas lui même parcouru par Illico Presto.
Des serveurs web aussi lent (lors des tests) que www.crif.be (la lenteur est visible avec votre navigateur) sont presque ignorés par Google, pas par IllicoPresto (exemple : "laser électroérosion" ne donne aucun résultats sur google). En effet, Illico Presto représente peu de pages internets, les paramètres utilisés avec Nutch ont donc été plus "prudents" (voir plus loin la section paramètres)
Certaines pages qui n'ont rien à voir avec Multitel, ne sont pas référencées sur IlloPresto mais bien par Google.
Pour exemple, cette page humoristique d'une équipe de multitel, et qui n'est pas accessible à partir de la page d'accueil de multitel.
http://www.multitel.be/~ruelle/comega/equipe35.htm (/Le site non-officiel du jeu des Messagers Galactiques).
Cette remarque est juste anecdotique, mais représente un avantage au manque précédemment cité vis-à-vis des pages non référencées.
Conclusion générale des tests : pour l'objectif du moteur IllicoPresto, Nutch amène notre moteur à de relativement meilleurs résultats que Google ou son API.
Commentaires