Accéder au contenu principal

OSWIR 2005

OSWIR 2005 (2005 workshop on Open Source Web Information Retrieval) organisé par Ecole Nationale Superieure des Mines de Saint-Etienne et l'Illinois Institute of Technology s'est tenu le 19 Septembre dernier à Compiègne. Les papiers, dont un de Doug Cutting (Nutch: an Open-Source Platform for Web Search [en/pdf]) sont diponibles en ligne.

Commentaires

Posts les plus consultés de ce blog

Installation de Nutch 0.8.1 sous Ubuntu 6.10

Merci à Arnaud Goupil alias Arnonymous pour son très bon tutoriel en français sur l' Installation de Nutch sous Ubuntu . Pour les anglophones, je vous conseille également de lire ce très intéressant billet de Sami Siren (contributeur très actif à Nutch) où il est question, grâce à la compression de données, de gagner en espace de stockage, MAIS également en temps de traitement CPU...

Nutch-0.7.2

La version 0.7.2 de Nutch est disponible. Cette version contient uniquement des corrections de bugs. Voici la liste des modifications: NUTCH-107 - Correction d'erreurs de syntaxe dans les fichiers plugin.xml des plugins urlfilter-* (Stephen Cross). NUTCH-141 - Tag title non valide dans les pages jsp (Marko Bauhardt). Correction de problèmes de compilation dus à des répertoires vides dans des plugins. NUTCH-142 - NutchConf utilise maintenant le classloader de son thread. (Mike Cannon-Brookes). NUTCH-45 - SegmentMergeTool loggue maintenant les segments corrompus. (Otis Gospodnetic). Correction des test unitaires de TestFetcher qui échouaient à cause de changements sur le site web www.nutch.org /li> NUTCH-91 - Exceptions dues à un encodage vide. (Michael Nebel). Mise à jour de la librairie Lucene à la version 1.9.1. Librairie Commons HTTPClient mise à jour à la version 3.0. Ignore les liens "post" et "nofollow...

IllicoPresto : moteur belge sous Nutch

Illico Presto ( www.illicopresto.be ) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel , CETIC . Le moteur permet de retrouver les documents web (HTML et PDF) d' une dizaine de sites : http://www.bil-ibs.be/fr/ , http://www.cenaero.be/ , http://www.centexbel.be/ , http://www.cepesi.be/ , http://www.certech.be/ , http://www.cetic.be/ , http://www.cewac.be/ , http://www.cori-coatings.be/ , http://www.crif.be/ , http://www.crm-eur.com/ , http://www.materia-nova.com/ , http://www.multitel.be/ . Il présente les caractéristiques suivantes : un index d'environ 6000 urls (de 10 serveurs web) un outil de correction automatique (voir plus loin) un outil de statistiques un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage" ) l'indexation des pdf, msword, ps Outil de correction automatique L'outil de correction automatique perme...