Accéder au contenu principal

Articles

Affichage des articles du 2005

IllicoPresto : moteur belge sous Nutch

Illico Presto ( www.illicopresto.be ) est un moteur de recherche réalisé avec Nutch (version 0.6) par Christophe Noel , CETIC . Le moteur permet de retrouver les documents web (HTML et PDF) d' une dizaine de sites : http://www.bil-ibs.be/fr/ , http://www.cenaero.be/ , http://www.centexbel.be/ , http://www.cepesi.be/ , http://www.certech.be/ , http://www.cetic.be/ , http://www.cewac.be/ , http://www.cori-coatings.be/ , http://www.crif.be/ , http://www.crm-eur.com/ , http://www.materia-nova.com/ , http://www.multitel.be/ . Il présente les caractéristiques suivantes : un index d'environ 6000 urls (de 10 serveurs web) un outil de correction automatique (voir plus loin) un outil de statistiques un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez "brasage" ) l'indexation des pdf, msword, ps Outil de correction automatique L'outil de correction automatique perme

OSWIR 2005

OSWIR 2005 ( 2005 workshop on Open Source Web Information Retrieval ) organisé par Ecole Nationale Superieure des Mines de Saint-Etienne et l'Illinois Institute of Technology s'est tenu le 19 Septembre dernier à Compiègne. Les papiers, dont un de Doug Cutting ( Nutch: an Open-Source Platform for Web Search [en/pdf] ) sont diponibles en ligne .

Nutch-0.7.1

La version 0.7.1 de Nutch est disponible. Cette version contient uniquement des corrections de bugs. Voici la liste des modifications: Le champ de recherche dispose maintenant du focus. Correction d'un nom de cible erronné dans plugin/build.xml . NUTCH-10 , les points d'extension ne sont définis qu'une fois. Ajout d'un utilitaire d'extraction d'URLs dans du contenu textuel. Quelques mises à jours mineurs dans le module d' indentification de la langue . NUTCH-37 , correction des multiples warnings lors de la construction de la javadoc . La propriété indexer.maxMergeDocs vaut maintenant par défaut 2147483647 . Cette valeur par défaut avait été positionnée à 50 par erreur, ce qui a pour conséquence de ralentir énormément l'indexation. Modifications du plugin de clustering . Les composants Carrot2 ont été mis à jour (dernières versions stables): Amélioration des tokenizers (performances) et de la gestion de stop-words. A

Frutch? C'est quoi ce truc?

Dans des temps déjà anciens (Mai 2005), je parlais sur motrech d'une interview que j'avais donné à Olivier Andrieu concernant Frutch . Olivier Andrieu m'a aujourd'hui autorisé, et je l'en remercie encore, à maintenant publier ici l'intégralité de l'interview. Cela permettra, je pense, de clarifier certains points sur ce qu'est Frutch et ce qu'il n'est pas. Jérôme Charron, à l'origine de nombreuses initiatives dans le domaine de la recherche d'information sur le Web francophone depuis de nombreuses années, a lancé un projet baptisé "Frutch" , basé sur la mise en place d'un moteur de recherche "Open Source" pour le monde de la francophonie. Il nous en dit plus, dans cet interview, sur ce projet... Déjà initiateur de la liste de discussion Motrech en 1998, puis d'un blog et d'un Wiki sur le sujet, auteur d'une thèse ayant pour sujet "Méthodes et outils d'exploration multilingue sur internet

Nutch-0.7

La version 0.7 de Nutch est sortie le 17 Août dernier. Elle est téléchargeable ici [tar.gz], et la liste des changements est disponible ici [txt]. Il est à noter que c'est la première version de Nutch en tant que sous-projet de Lucene . Quelques bugs légers ont été remontés, et sont déjà corrigés. Une version 0.7.1 contenant ces quelques corrections, ainsi que quelques nouvelles fonctionnalités est prévue pour le 15 Septembre.

Un Apache nommé Jeronimo

Il ne serait pas honnête de ma part de vous cacher que je suis très fier de vous annoncer que je suis depuis quelques jours devenu committer Nutch . Les novices se demanderont certainement ce que cela signifie. Tout simplement que mes travaux sur Nutch ont été reconnus et que la communauté Nutch me fait confiance pour me donner le droit de mettre à jour le code de Nutch dans la base de code (c'est ça être committer). Plusieurs points positifs à celà: Mon égo se sent très bien ;-) Je vais pouvoir travailler plus efficacement sur Nutch La communauté francophone de Nutchies ( Frutch ) va pouvoir imposer plus facilement ses idées et son travail (je pense en particulier à l'aspect multilingue / francophone sur lequel nous travaillons en parallèle avec Christophe Noel). Vous pouvez donc maintenant m'écrire à l'adresse jerome[at]apache.org (la classe!!!) et aller faire un petit crochet culturel vers le véritable Apache nommé Geronimo ...

[Com]me un [Org]ue

Ce premier billet sur le blog de Frutch signe l'activation des noms http://www.frutch.org/ et http://www.frutch.com/ , tous deux pointant pour le moment sur l'ancien http://frutch.free.fr/ . Les choses avances, c'est bien. Où celà nous mènera-t'il, loin je l'espère. Ces deux noms de domaine devraient prendre au fil du temps deux direction différentes: L'une vers de la documentation, des réflexions, etc... et l'autre vers une démonstration de Nutch . Merci à Graeme pour la fourniture de ces deux noms de domaine. J'en profite pour signaler à tous les membres de Frutch (ceux d'entre vous qui sont inscrit à la liste de discussion, ou bien ceux d'entre vous qui participent au Wiki ) que je vous invite à participer à ce blog en vous créant un compte Blogger et en me demandant les droits d'écriture.