Accéder au contenu principal

Articles

Affichage des articles du octobre, 2005

IllicoPresto : moteur belge sous Nutch

Illico Presto ( www.illicopresto.be ) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel , CETIC . Le moteur permet de retrouver les documents web (HTML et PDF) d' une dizaine de sites : http://www.bil-ibs.be/fr/ , http://www.cenaero.be/ , http://www.centexbel.be/ , http://www.cepesi.be/ , http://www.certech.be/ , http://www.cetic.be/ , http://www.cewac.be/ , http://www.cori-coatings.be/ , http://www.crif.be/ , http://www.crm-eur.com/ , http://www.materia-nova.com/ , http://www.multitel.be/ . Il présente les caractéristiques suivantes : un index d'environ 6000 urls (de 10 serveurs web) un outil de correction automatique (voir plus loin) un outil de statistiques un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage" ) l'indexation des pdf, msword, ps Outil de correction automatique L'outil de correction automatique perme

OSWIR 2005

OSWIR 2005 ( 2005 workshop on Open Source Web Information Retrieval ) organisé par Ecole Nationale Superieure des Mines de Saint-Etienne et l'Illinois Institute of Technology s'est tenu le 19 Septembre dernier à Compiègne. Les papiers, dont un de Doug Cutting ( Nutch: an Open-Source Platform for Web Search [en/pdf] ) sont diponibles en ligne .

Nutch-0.7.1

La version 0.7.1 de Nutch est disponible. Cette version contient uniquement des corrections de bugs. Voici la liste des modifications: Le champ de recherche dispose maintenant du focus. Correction d'un nom de cible erronné dans plugin/build.xml . NUTCH-10 , les points d'extension ne sont définis qu'une fois. Ajout d'un utilitaire d'extraction d'URLs dans du contenu textuel. Quelques mises à jours mineurs dans le module d' indentification de la langue . NUTCH-37 , correction des multiples warnings lors de la construction de la javadoc . La propriété indexer.maxMergeDocs vaut maintenant par défaut 2147483647 . Cette valeur par défaut avait été positionnée à 50 par erreur, ce qui a pour conséquence de ralentir énormément l'indexation. Modifications du plugin de clustering . Les composants Carrot2 ont été mis à jour (dernières versions stables): Amélioration des tokenizers (performances) et de la gestion de stop-words. A