Accéder au contenu principal

Frutch? C'est quoi ce truc?

Dans des temps déjà anciens (Mai 2005), je parlais sur d'une interview que j'avais donné à concernant . Olivier Andrieu m'a aujourd'hui autorisé, et je l'en remercie encore, à maintenant publier ici l'intégralité de l'interview. Cela permettra, je pense, de clarifier certains points sur ce qu'est Frutch et ce qu'il n'est pas.

Jérôme Charron, à l'origine de nombreuses initiatives dans le domaine de la recherche d'information sur le Web francophone depuis de nombreuses années, a lancé un projet baptisé "Frutch", basé sur la mise en place d'un moteur de recherche pour le monde de la francophonie. Il nous en dit plus, dans cet interview, sur ce projet...

Déjà initiateur de la liste de discussion en 1998, puis d'un et d'un sur le sujet, auteur d'une thèse ayant pour sujet "Méthodes et outils d'exploration multilingue sur internet en vue d'une veille technologique sur un domaine restreint", Jérôme Charron, a lancé le projet qui a pour ambition de constituer une alternative transparente aux moteurs de recherche commerciaux actuels (Google, Yahoo, MSN...). Jérôme a bien voulu répondre à nos questions à propos de ce projet ambitieux. Merci à lui...

- Jérôme Charron, bonjour. Pouvez-vous vous présenter en quelques mots à nos lecteurs ?

En fait, je suis tombé très tôt dans l'informatique, puis durant mes études, j'ai rapidement croisé le chemin de la recherche documentaire. Et par la suite, Internet est venu se mêler de tout ça. C'est donc tout naturellement que je me suis passionné pour les moteurs de recherche. Pendant ma thèse, concernant la recherche sur Internet, j'ai créé la .
Après une période de presque 5 ans où je souhaitais m'éloigner de ce domaine, j'ai replongé de plus belle dans les méandres des moteurs à travers la liste motrech, le blog motrech, et Frutch.

- En quoi consiste le projet Frutch ?

Il y a souvent un malentendu à ce sujet, et je souhaite donc le dissiper tout de suite : Frutch n'est pas pour le moment une initiative visant à mettre en place un en ligne (même si cela est notre but ultime, nous n'en avons pour le moment pas la capacité).
Ainsi, à la base, le projet Frutch consiste à tisser un lien entre les francophones s'intéressant au moteur open source . C'est une approche très pragmatique : il est souvent beaucoup plus facile de débuter sur un sujet ou d'échanger des propos complexes dans sa langue maternelle.
Frutch pourrait à terme devenir une sorte de représentant francophone de Nutch.
Mais comme je le disais précédemment, en fonction des opportunités de partenariat ou de financement qui se présenteraient, Frutch pourrait très bien se décliner en deux instances, comme c'est de plus en plus le cas dans le monde de l'open source : une instance communautaire (.org),
ainsi qu'une instance commerciale (.com).

- Quel est le but de Frutch ? Proposer un moteur de recherche alternatif aux Google, Yahoo! et MSN ou proposer une technologie "disponible" pour des moteurs qui voudraient se monter ?

Le but premier de Frutch est donc de regrouper les compétences francophones en matière de recherche d'information afin de tenter de bousculer un peu l'ordre établi aujourd'hui sur le marché des moteurs de recherche.
En fait, les deux approches que vous mentionnez cohabitent. Frutch est une initiative très jeune, et il est donc à la fois intéressant et inévitable me semble-t-il de contribuer activement au développement de Nutch sous forme de code et de documentation.
Cela nous permet de rentrer au coeur de Nutch, de le tester, et de bien comprendre son fonctionnement, son déployement et son administration, ainsi que d'orienter son évolution.

Dans un second temps, si des opportunités de financement ou de partenariat se présentent nous mettrons certainement en place un moteur de recherche alternatif (vous remarquerez certainement que le nom de domaine frutch.com a déjà été réservé).

- Qui participe à ce projet actuellement ?

Nous ne sommes aujourd'hui qu'une petite dizaine d'inscrits sur la liste Frutch et les contributeurs au wiki Frutch se comptent sur les doigts d'une main. Mais notre groupe de travail est encore très jeune (créé en Février) et encore peu connu.
Nous sommes composé de développeurs ayant une expérience significative dans le domaine des moteurs de recherche, de curieux ayant fait quelques tests de Nutch, mais aussi de professionnels ayant travaillé ou travaillant encore dans des moteurs commerciaux.

- Pouvez-vous nous en dire plus sur Nutch ?

est une initiative de (créateur de la librairie d'indexation/recherche ).
Il partage l'approche, que j'essaye (trop) souvent de soutenir, consistant à dire que le moment est venu de proposer une solution alternative, transparente, libre et gratuite aux outils commerciaux. Frutch (et donc Nutch) est à Google ce que Linux est à Windows : une alternative gratuite et
ouverte aux solutions commerciales.

- Où en êtes-vous actuellement sur le projet Frutch ?

Nous n'intervenons aujourd'hui que dans la phase développement open source, c'est à dire en contribuant à Nutch: participation sur les listes de discussion de Nutch, don de code à Nutch (j'ai par exemple récemment donné un module de détection de type de document, et je travaille
actuellement sur le plugin de détection de langue), devéloppement de notre base de connaissance francophone sur le wiki de Frutch.

- De quoi avez-vous besoin aujourd'hui pour faire avancer au mieux le projet ?

De passionnés prêts à consacrer du temps au développement, à la documentation, aux tests de
Nutch. Si nous voulons pouvoir lancer la deuxième grande phase de Frutch, et pouvoir proposer un
moteur en ligne, nous avons essentiellement besoin de financements et/ou de matériels.

- Un moteur "open source" a-t-il sa chance aujourd'hui face aux "mastodontes" américains ?

Il me semble que oui ! Le moteur en lui même (au sens du service) est nécessairement plus ou moins commercial puisqu'il faut financer les machines, la bande passante, l'électricité, la maintenance. Ce n'est cependant pas le côté commercial ou financier qu'il faut retenir, mais la finalité : contrairement à Google, Yahoo! ou MSN dont la finalité est le bénéfice, la finalité de ce moteur serait d'apporter un service (le seul objectif commercial est donc de s'autofinancer, et non pas de dégager des bénéfices).
Ce moteur a donc tout intérêt à utiliser des technologies open source, afin de réduire ses coûts, d'augmenter la visibilité et la transparence de ses technologies, et de bénéficier de la forte dynamique des comunautés open source pour faire évoluer ses technologies.

- Quelles sont les prochaine étape prévues ? Quelles sont les grandes échéances attendues dans un futur proche ?

Premièrement l'angle open source qui consiste à travers une communauté francophone à participer à l'effort collaboratif de Nutch. Sous cet angle, les étapes sont simples : parvenir à franciser au plus vite l'intégralité de la documentation de Nutch, et continuer à contribuer au code de Nutch.
Deuxièmement, l'angle commercial qui sera très dépendant de l'intérêt que peuvent porter de potentiels investisseurs au projet. Cependant, l'échéance principale de ce point de vue consiste à mettre au point un , concurrent direct du . D'après nos premières estimations, nous pouvons fournir un tel système de type "plug and search" à un prix 4 à 5 fois moins élevé que celui de Google-Mini pour des fonctionnalités équivalentes.

Merci Jérôme et bonne chance pour ce projet !

© Abondance.com - Lettre "Recherche & Référencement", Mai 2005

Commentaires

Posts les plus consultés de ce blog

Installation de Nutch 0.8.1 sous Ubuntu 6.10

Merci à Arnaud Goupil alias Arnonymous pour son très bon tutoriel en français sur l' Installation de Nutch sous Ubuntu . Pour les anglophones, je vous conseille également de lire ce très intéressant billet de Sami Siren (contributeur très actif à Nutch) où il est question, grâce à la compression de données, de gagner en espace de stockage, MAIS également en temps de traitement CPU...

Rencontre entre Nutchies

Avis aux Francopho Nutchies, le Jeudi 18 Mai prochain aura lieu vers 19:00 une rencontre entre les utilisateurs de Nutch . Vous êtes donc tous conviés à venir participer à cette rencontre qui se déroulera Cafe Du Soleil , 200 Fillmore Street, San Francisco, CA (voir la carte ). Oui, je sais, San Francisco ce n'est pas la porte à côté, mais au moins, les problèmes de visa pour les Etats-Unis semblent être de l'histoire ancienne, c'est déjà ça! C'est une bonne occasion pour rencontrer Doug Cutting ou Stefan Groschupf . Alors, si vous êtes intéressé, l' invitation officielle est ici .

Nutch-0.7.2

La version 0.7.2 de Nutch est disponible. Cette version contient uniquement des corrections de bugs. Voici la liste des modifications: NUTCH-107 - Correction d'erreurs de syntaxe dans les fichiers plugin.xml des plugins urlfilter-* (Stephen Cross). NUTCH-141 - Tag title non valide dans les pages jsp (Marko Bauhardt). Correction de problèmes de compilation dus à des répertoires vides dans des plugins. NUTCH-142 - NutchConf utilise maintenant le classloader de son thread. (Mike Cannon-Brookes). NUTCH-45 - SegmentMergeTool loggue maintenant les segments corrompus. (Otis Gospodnetic). Correction des test unitaires de TestFetcher qui échouaient à cause de changements sur le site web www.nutch.org /li> NUTCH-91 - Exceptions dues à un encodage vide. (Michael Nebel). Mise à jour de la librairie Lucene à la version 1.9.1. Librairie Commons HTTPClient mise à jour à la version 3.0. Ignore les liens "post" et "nofollow"