Accéder au contenu principal

Articles

Installation de Nutch 0.8.1 sous Ubuntu 6.10

Merci à Arnaud Goupil alias Arnonymous pour son très bon tutoriel en français sur l' Installation de Nutch sous Ubuntu . Pour les anglophones, je vous conseille également de lire ce très intéressant billet de Sami Siren (contributeur très actif à Nutch) où il est question, grâce à la compression de données, de gagner en espace de stockage, MAIS également en temps de traitement CPU...
Articles récents

Rencontre entre Nutchies

Avis aux Francopho Nutchies, le Jeudi 18 Mai prochain aura lieu vers 19:00 une rencontre entre les utilisateurs de Nutch . Vous êtes donc tous conviés à venir participer à cette rencontre qui se déroulera Cafe Du Soleil , 200 Fillmore Street, San Francisco, CA (voir la carte ). Oui, je sais, San Francisco ce n'est pas la porte à côté, mais au moins, les problèmes de visa pour les Etats-Unis semblent être de l'histoire ancienne, c'est déjà ça! C'est une bonne occasion pour rencontrer Doug Cutting ou Stefan Groschupf . Alors, si vous êtes intéressé, l' invitation officielle est ici .

Nutch-0.7.2

La version 0.7.2 de Nutch est disponible. Cette version contient uniquement des corrections de bugs. Voici la liste des modifications: NUTCH-107 - Correction d'erreurs de syntaxe dans les fichiers plugin.xml des plugins urlfilter-* (Stephen Cross). NUTCH-141 - Tag title non valide dans les pages jsp (Marko Bauhardt). Correction de problèmes de compilation dus à des répertoires vides dans des plugins. NUTCH-142 - NutchConf utilise maintenant le classloader de son thread. (Mike Cannon-Brookes). NUTCH-45 - SegmentMergeTool loggue maintenant les segments corrompus. (Otis Gospodnetic). Correction des test unitaires de TestFetcher qui échouaient à cause de changements sur le site web www.nutch.org /li> NUTCH-91 - Exceptions dues à un encodage vide. (Michael Nebel). Mise à jour de la librairie Lucene à la version 1.9.1. Librairie Commons HTTPClient mise à jour à la version 3.0. Ignore les liens "post" et "nofollow"

Misterbot passe à Nutch

A la fin du mois de Janvier, Sylvain Milon, créateur de Misterbot m'avait contacté pour m'expliquer les problèmes de montée en charge qu'il rencontrait avec ASPseek et voulait savoir si Nutch pouvait répondre à ses besoins. Ma réponse fut bien entendu positive! ;-) Hier, Mercredi 8 Mars, soit à peine plus de deux mois plus tard, le communiqué de presse tombait, "Misterbot adopte Nutch" . Cela démontre encore une fois clairement que le courbe d'apprentissage de Nutch est très courte. J'espère qu'il sera possible, sans trahir de secrets commerciaux ou stratégiques, que Sylvain nous fasse un petit retour d'expérience de sa migration vers Nutch et de son utilisation au quotidien.

Nutch sur java.net

A signaler, un article d'introduction à Nutch sur java.net . Cet article de Tom White se décompose en deux parties. La première s'intéresse au processus de crawling/indexation et la seconde à celui de la recherche: Introduction to Nutch, Part 1: Crawling Introduction to Nutch, Part 2: Searching Ces articles se basent bien entendu sur la denière version stable, la 0.7.1 . et n'intègrent pas toutes les récentes modifications. Bonne lecture!

IllicoPresto : moteur belge sous Nutch

Illico Presto ( www.illicopresto.be ) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel , CETIC . Le moteur permet de retrouver les documents web (HTML et PDF) d' une dizaine de sites : http://www.bil-ibs.be/fr/ , http://www.cenaero.be/ , http://www.centexbel.be/ , http://www.cepesi.be/ , http://www.certech.be/ , http://www.cetic.be/ , http://www.cewac.be/ , http://www.cori-coatings.be/ , http://www.crif.be/ , http://www.crm-eur.com/ , http://www.materia-nova.com/ , http://www.multitel.be/ . Il présente les caractéristiques suivantes : un index d'environ 6000 urls (de 10 serveurs web) un outil de correction automatique (voir plus loin) un outil de statistiques un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage" ) l'indexation des pdf, msword, ps Outil de correction automatique L'outil de correction automatique perme

OSWIR 2005

OSWIR 2005 ( 2005 workshop on Open Source Web Information Retrieval ) organisé par Ecole Nationale Superieure des Mines de Saint-Etienne et l'Illinois Institute of Technology s'est tenu le 19 Septembre dernier à Compiègne. Les papiers, dont un de Doug Cutting ( Nutch: an Open-Source Platform for Web Search [en/pdf] ) sont diponibles en ligne .