<!-- --><style type="text/css">@import url(https://www.blogger.com/static/v1/v-css/navbar/3334278262-classic.css); div.b-mobile {display:none;} </style> </head> <body><script type="text/javascript"> function setAttributeOnload(object, attribute, val) { if(window.addEventListener) { window.addEventListener('load', function(){ object[attribute] = val; }, false); } else { window.attachEvent('onload', function(){ object[attribute] = val; }); } } </script> <div id="navbar-iframe-container"></div> <script type="text/javascript" src="https://apis.google.com/js/plusone.js"></script> <script type="text/javascript"> gapi.load("gapi.iframes:gapi.iframes.style.bubble", function() { if (gapi.iframes && gapi.iframes.getContext) { gapi.iframes.getContext().openChild({ url: 'https://www.blogger.com/navbar.g?targetBlogID\x3d13163196\x26blogName\x3dFrutch+%5Bblog%5D\x26publishMode\x3dPUBLISH_MODE_BLOGSPOT\x26navbarType\x3dSILVER\x26layoutType\x3dCLASSIC\x26searchRoot\x3dhttp://frutch.blogspot.com/search\x26blogLocale\x3dfr_FR\x26v\x3d2\x26homepageUrl\x3dhttp://frutch.blogspot.com/\x26vt\x3d1196297818471382770', where: document.getElementById("navbar-iframe-container"), id: "navbar-iframe" }); } }); </script>

Frutch [blog]

28 octobre 2005

IllicoPresto : moteur belge sous Nutch

Illico Presto (www.illicopresto.be) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel, CETIC.

Le moteur permet de retrouver les documents web (HTML et PDF) d'une dizaine de sites :

Il présente les caractéristiques suivantes :
  • un index d'environ 6000 urls (de 10 serveurs web)
  • un outil de correction automatique (voir plus loin)
  • un outil de statistiques
  • un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage")
  • l'indexation des pdf, msword, ps

Outil de correction automatique
L'outil de correction automatique permet d'élargir les recherches en adaptant les mots de recherche à la plupart des erreurs de frappe. Cet outil de correction gère entre autre le pluriel des mots entrés au singulier et inversément, ainsi que les caractères accentués (é, è , ê).

Cet outil de correction se base sur une modification du plugin query-basic , incluant les LuceneFuzzyQuery. Ce plugin n'est pas recommandé aux index de grande taille car il ralentit considérablement les performances (au lieu de rechercher un seul mot dans l'index, les fuzzyquery évaluent à quelle distance se situent tous les mots de meme préfixe que le mot d'origine). Enfin, cet outil est uniquement utilisé au niveau du module de recherche (et non pas à l'indexation).

Pour de plus grands index, on utilisera plutot un outil de lemmatisation. Et à plus grand échelle encore, on se contentera d'un outil de correction orthographique, basé sur des dictionnaires.

Ce moteur réalisé avec Nutch a été testé quant à ses performances d'indexation. Est-il plus complet que Google ? Ne l'est-il pas ?
Le crawl total des pages s'effectue en 3 heures avec les paramètres les plus optimaux (on est sur de crawler chaque page).

Tests de comparaison
Illico Presto a été testé par rapport à l'API du moteur de recherche Google. La comparaison a lieu uniquement sur les sites webs référencés par illicopresto !

IllicoPresto présente plus de résultats pour les mots de recherche suivants (pris au hazard) :
Brasage (illico:6 - google:2)
laser électroérosion (illico:4 - google:0)
catalyse divisés (illico:2 - google:0)
nanotechnologie produit (illico:24 - google: 9)
activité enzymatique (illigo:3 - google :0)

Si l'on emploie Google directement (plutot que l'API), Google présente alors de nombreux résultats. Après vérification, il s'agit d'un leur : les résultats supplémentaires sont tous des erreurs 404 (j'en conclut hâtivement donc que l'API est rafraichit plus régulièrement)

Google présente parfois plus de page de résultats car celles-ci ne sont pas accessibles à partir des pages d'accueil (joignables par quelques clics, de liens en liens). Le site du CETIC, par exemple, ne permet pas d'accéder à la page http://www.cetic.be/article331.html tandis qu'elle est indexée par Google. Il s'agit certainement d'une page pointée sur www.coregrid.net , et ce dernier n'est pas lui même parcouru par Illico Presto.

Des serveurs web aussi lent (lors des tests) que www.crif.be (la lenteur est visible avec votre navigateur) sont presque ignorés par Google, pas par IllicoPresto (exemple : "laser électroérosion" ne donne aucun résultats sur google). En effet, Illico Presto représente peu de pages internets, les paramètres utilisés avec Nutch ont donc été plus "prudents" (voir plus loin la section paramètres)

Certaines pages qui n'ont rien à voir avec Multitel, ne sont pas référencées sur IlloPresto mais bien par Google.
Pour exemple, cette page humoristique d'une équipe de multitel, et qui n'est pas accessible à partir de la page d'accueil de multitel.
http://www.multitel.be/~ruelle/comega/equipe35.htm (/Le site non-officiel du jeu des Messagers Galactiques).
Cette remarque est juste anecdotique, mais représente un avantage au manque précédemment cité vis-à-vis des pages non référencées.

Conclusion générale des tests : pour l'objectif du moteur IllicoPresto, Nutch amène notre moteur à de relativement meilleurs résultats que Google ou son API.

20 octobre 2005

OSWIR 2005

OSWIR 2005 (2005 workshop on Open Source Web Information Retrieval) organisé par Ecole Nationale Superieure des Mines de Saint-Etienne et l'Illinois Institute of Technology s'est tenu le 19 Septembre dernier à Compiègne. Les papiers, dont un de Doug Cutting (Nutch: an Open-Source Platform for Web Search [en/pdf]) sont diponibles en ligne.

01 octobre 2005

Nutch-0.7.1

La version 0.7.1 de est disponible. Cette version contient uniquement des corrections de bugs.
Voici la liste des modifications:
  • Le champ de recherche dispose maintenant du focus.
  • Correction d'un nom de cible erronné dans plugin/build.xml.
  • NUTCH-10, les points d'extension ne sont définis qu'une fois.
  • Ajout d'un utilitaire d'extraction d'URLs dans du contenu textuel.
  • Quelques mises à jours mineurs dans le module d'.
  • NUTCH-37, correction des multiples warnings lors de la construction de la .
  • La propriété indexer.maxMergeDocs vaut maintenant par défaut 2147483647. Cette valeur par défaut avait été positionnée à 50 par erreur, ce qui a pour conséquence de ralentir énormément l'indexation.
  • Modifications du plugin de .
  • Les composants ont été mis à jour (dernières versions stables): Amélioration des tokenizers (performances) et de la gestion de stop-words. Ajout du support du Danois, du Finlandais, du Norvégien et du Suédois.
  • mis à jour à la version 0.7.2. (corrige NUTCH-85).
  • NUTCH-89, null pointer exception dans parse-rss.
Nutch-0.7.1 [tar.gz, 45Mo] est disponible ici.