<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-13163196</id><updated>2011-11-13T13:25:50.538+01:00</updated><title type='text'>Frutch [blog]</title><subtitle type='html'>Fructh (&lt;b&gt;Fr&lt;/b&gt;ancopho N&lt;b&gt;utch&lt;/b&gt;) est un groupe de travail francophone sur le moteur de recherche &lt;a href="http://fr.wikipedia.org/wiki/Open_Source"&gt;Open Source&lt;/a&gt; &lt;a href="http://www.nutch.org/"&gt;Nutch&lt;/a&gt;.</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>12</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-13163196.post-116669176604350821</id><published>2006-12-21T09:00:00.000+01:00</published><updated>2006-12-21T10:27:48.700+01:00</updated><title type='text'>Installation de Nutch 0.8.1 sous Ubuntu 6.10</title><content type='html'>&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://frutch.free.fr/images/blog/ubuntu_nutch_small.png"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://frutch.free.fr/images/blog/ubuntu_nutch_small.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Merci à &lt;span class="sg"&gt;&lt;a style="font-weight: bold;" href="http://goupil.arnaud.free.fr/"&gt;Arnaud Goupil&lt;/a&gt; alias &lt;span style="font-style: italic;"&gt;Arnonymous&lt;/span&gt;&lt;/span&gt; pour son très bon tutoriel en français sur l'&lt;a href="http://goupil.arnaud.free.fr/nutch.html"&gt;Installation de Nutch sous Ubuntu&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Pour les anglophones, je vous conseille également de lire ce très &lt;a href="http://blog.foofactory.fi/2006/12/my-fellow-nutch-developer-andrzej.html"&gt;intéressant billet&lt;/a&gt; de &lt;a href="http://blog.foofactory.fi/"&gt;Sami Siren &lt;/a&gt;(contributeur très actif à Nutch) où il est question, grâce à la compression de données, de gagner en espace de stockage, MAIS également en temps de traitement CPU...&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-116669176604350821?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/116669176604350821/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=116669176604350821&amp;isPopup=true' title='4 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/116669176604350821'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/116669176604350821'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2006/12/installation-de-nutch-081-sous-ubuntu.html' title='Installation de Nutch 0.8.1 sous Ubuntu 6.10'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>4</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-114677216936490412</id><published>2006-05-04T21:38:00.000+02:00</published><updated>2006-05-04T22:25:32.910+02:00</updated><title type='text'>Rencontre entre Nutchies</title><content type='html'>&lt;div style="text-align: justify;"&gt;Avis aux Francopho Nutchies, le &lt;span style="font-weight: bold;"&gt;Jeudi 18 Mai &lt;/span&gt;prochain aura lieu vers 19:00 une &lt;span style="font-weight: bold;"&gt;rencontre entre les utilisateurs de &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://lucene.apache.org/nutch/"&gt;Nutch&lt;/a&gt;. Vous êtes donc tous conviés à venir participer à cette rencontre qui se déroulera &lt;a style="font-style: italic;" href="http://sanfrancisco.citysearch.com/profile/41734267"&gt;Cafe Du Soleil&lt;/a&gt;&lt;span style="font-style: italic;"&gt;, 200 Fillmore Street, San Francisco, CA&lt;/span&gt; (voir la &lt;a href="http://www.google.com/maps?q=Cafe+Du+Soleil%0A200+Fillmore+Street%2C+San+Francisco%2C+CA"&gt;carte&lt;/a&gt;). Oui, je sais, San Francisco ce n'est pas la porte à côté, mais au moins, les &lt;a href="http://motrech.blogspot.com/2006/01/visa-visa-pas.html"&gt;problèmes de visa pour les Etats-Unis&lt;/a&gt; semblent être de l'histoire ancienne, c'est déjà ça!&lt;br /&gt;&lt;br /&gt;C'est une bonne occasion pour rencontrer &lt;a href="http://nutch.sourceforge.net/blog/"&gt;Doug Cutting&lt;/a&gt; ou &lt;a href="http://www.find23.net/"&gt;Stefan Groschupf&lt;/a&gt;. Alors, si vous êtes intéressé, l'&lt;a href="http://www.evite.com/app/publicUrl/evite@lucene.com/nutch-1"&gt;invitation officielle est ici&lt;/a&gt;.&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-114677216936490412?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/114677216936490412/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=114677216936490412&amp;isPopup=true' title='1 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114677216936490412'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114677216936490412'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2006/05/rencontre-entre-nutchies.html' title='Rencontre entre Nutchies'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-114392262934244424</id><published>2006-04-01T21:53:00.000+02:00</published><updated>2006-04-01T22:22:52.653+02:00</updated><title type='text'>Nutch-0.7.2</title><content type='html'>&lt;div style="text-align: justify;"&gt;La version &lt;span style="font-weight: bold;"&gt;0.7.2&lt;/span&gt; de &lt;a href="http://www.nutch.org/" rel="tag"&gt;Nutch&lt;/a&gt; est disponible. Cette version contient uniquement des corrections de bugs.&lt;br /&gt;Voici la liste des modifications:&lt;br /&gt;&lt;br /&gt;&lt;/div&gt; &lt;ul style="text-align: justify;"&gt;    &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-107"&gt; NUTCH-107&lt;/a&gt; - Correction d'erreurs de syntaxe dans les fichiers &lt;code&gt;plugin.xml&lt;/code&gt; des plugins &lt;code&gt;urlfilter-*&lt;/code&gt; (Stephen Cross).  &lt;/li&gt;   &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-141"&gt;NUTCH-141&lt;/a&gt; - Tag &lt;code&gt;title&lt;/code&gt; non valide dans les pages jsp (Marko Bauhardt).&lt;/li&gt;   &lt;li&gt; Correction de problèmes de compilation dus à des répertoires vides dans des plugins.&lt;/li&gt;   &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-142"&gt;NUTCH-142&lt;/a&gt; - &lt;code&gt;NutchConf&lt;/code&gt; utilise maintenant le classloader de son thread. (Mike Cannon-Brookes). &lt;/li&gt;   &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-45"&gt; NUTCH-45&lt;/a&gt; - &lt;code&gt;SegmentMergeTool&lt;/code&gt; loggue maintenant les segments corrompus. (Otis Gospodnetic).&lt;/li&gt;   &lt;li&gt;Correction des test unitaires de &lt;code&gt;TestFetcher&lt;/code&gt; qui échouaient à cause de changements sur le site web &lt;code&gt;www.nutch.org&lt;code&gt;/li&gt;   &lt;/code&gt;&lt;/code&gt;&lt;/li&gt;&lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-91"&gt;NUTCH-91&lt;/a&gt; - Exceptions dues à un encodage vide. (Michael Nebel).&lt;/li&gt;   &lt;li&gt; Mise à jour de la librairie &lt;a href="http://lucene.apache.org/"&gt;Lucene&lt;/a&gt; à la version 1.9.1.&lt;/li&gt;   &lt;li&gt; Librairie &lt;a href="http://jakarta.apache.org/commons/httpclient/"&gt;Commons HTTPClient&lt;/a&gt; mise à jour à la version 3.0.&lt;/li&gt;   &lt;li&gt;Ignore les liens &lt;i&gt;"post"&lt;/i&gt; et &lt;i&gt;"nofollow"&lt;/i&gt;.&lt;/li&gt;   &lt;li&gt;&lt;code&gt;httpclient&lt;/code&gt; utilise maintenant &lt;code&gt;javax.net.ssl&lt;/code&gt; au lieu de &lt;code&gt;com.sun.net.ssl&lt;/code&gt;. (Jake Vanderdray).&lt;/li&gt;   &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-117"&gt;NUTCH-117&lt;/a&gt; - Echecs des crawls : &lt;code&gt;java.io.IOException: already exists: ...&lt;/code&gt;&lt;/li&gt;  &lt;/ul&gt; &lt;div style="text-align: justify;"&gt;     &lt;a style="font-weight: bold;" href="http://lucene.apache.org/nutch/release/nutch-0.7.2.tar.gz"&gt;Nutch-0.7.2&lt;/a&gt;&lt;span style="font-weight: bold;"&gt; [tar.gz, 45Mo] &lt;/span&gt;est disponible &lt;a href="http://lucene.apache.org/nutch/release/"&gt;ici&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-114392262934244424?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/114392262934244424/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=114392262934244424&amp;isPopup=true' title='2 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114392262934244424'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114392262934244424'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2006/04/nutch-072.html' title='Nutch-0.7.2'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-114191113718482604</id><published>2006-03-09T14:12:00.000+01:00</published><updated>2006-03-09T16:33:12.283+01:00</updated><title type='text'>Misterbot passe à Nutch</title><content type='html'>&lt;div style="text-align: justify;"&gt;A la fin du mois de Janvier, Sylvain Milon, créateur de &lt;a href="http://www.misterbot.fr/"&gt;Misterbot&lt;/a&gt; m'avait contacté pour m'expliquer les problèmes de montée en charge qu'il rencontrait avec &lt;a href="http://www.aspseek.org/"&gt;ASPseek&lt;/a&gt; et voulait savoir si &lt;a href="http://www.nutch.org/"&gt;Nutch&lt;/a&gt; pouvait répondre à ses besoins. Ma réponse fut bien entendu positive!   ;-)&lt;br /&gt;Hier, Mercredi 8 Mars, soit à peine plus de deux mois plus tard, le communiqué de presse tombait, &lt;a href="http://www.misterbot.fr/presse/comm-08-03-06.html"&gt;&lt;span style="font-style: italic;"&gt;"Misterbot adopte Nutch"&lt;/span&gt;&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Cela démontre &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://frutch.blogspot.com/2005/10/illicopresto-moteur-belge-sous-nutch.html"&gt;encore une fois&lt;/a&gt;&lt;span style="font-weight: bold;"&gt; clairement que le courbe d'apprentissage de Nutch est très courte.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;J'espère qu'il sera possible, sans trahir de secrets commerciaux ou stratégiques, que Sylvain nous fasse un petit retour d'expérience de sa migration vers Nutch et de son utilisation au quotidien.&lt;br /&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-114191113718482604?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/114191113718482604/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=114191113718482604&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114191113718482604'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114191113718482604'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2006/03/misterbot-passe-nutch.html' title='Misterbot passe à Nutch'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-114113101104901617</id><published>2006-02-28T13:33:00.000+01:00</published><updated>2006-02-28T13:50:11.080+01:00</updated><title type='text'>Nutch sur java.net</title><content type='html'>A signaler, un article d'introduction à Nutch sur &lt;a href="http://www.java.net/"&gt;java.net&lt;/a&gt;. Cet article de &lt;a href="http://weblogs.java.net/blog/tomwhite/"&gt;Tom White&lt;/a&gt; se décompose en deux parties. La première s'intéresse au processus de crawling/indexation et la seconde à celui de la recherche:&lt;br /&gt;&lt;ul&gt;   &lt;li&gt;&lt;a href="http://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html"&gt;Introduction to Nutch, Part 1: Crawling&lt;/a&gt;&lt;/li&gt;   &lt;li&gt;&lt;a href="http://today.java.net/pub/a/today/2006/02/16/introduction-to-nutch-2.html"&gt;Introduction to Nutch, Part 2: Searching&lt;/a&gt;&lt;/li&gt; &lt;/ul&gt; Ces articles se basent bien entendu sur la denière version stable, la &lt;a href="http://frutch.blogspot.com/2005/10/nutch-071.html"&gt;0.7.1&lt;/a&gt;. et n'intègrent pas toutes les récentes modifications.&lt;br /&gt;Bonne lecture!&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-114113101104901617?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/114113101104901617/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=114113101104901617&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114113101104901617'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/114113101104901617'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2006/02/nutch-sur-javanet.html' title='Nutch sur java.net'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-113049131957998829</id><published>2005-10-28T11:20:00.000+02:00</published><updated>2006-01-18T20:51:57.296+01:00</updated><title type='text'>IllicoPresto : moteur belge sous Nutch</title><content type='html'>&lt;div style="text-align: justify;"&gt; &lt;blockquote&gt;&lt;span style="font-weight: bold;"&gt;Illico Presto&lt;/span&gt;  (&lt;a class="moz-txt-link-abbreviated" href="http://www.illicopresto.be/"&gt;www.illicopresto.be&lt;/a&gt;) est un moteur de recherche réalisé avec &lt;a href="http://www.nutch.org/"&gt;Nutch&lt;/a&gt; (version 0.6) par &lt;a href="http://christophenoel.blogspot.com"&gt;Christophe Noel&lt;/a&gt;, &lt;a href="http://www.cetic.be"&gt;CETIC&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Le moteur &lt;span class="bodytext"&gt;permet de retrouver les documents web (HTML et PDF) d'&lt;span style="font-weight: bold;"&gt;une dizaine de sites&lt;/span&gt;  :&lt;br /&gt;&lt;/span&gt;   &lt;ul&gt;     &lt;li&gt;&lt;a href="http://www.bil-ibs.be/fr/"&gt;http://www.bil-ibs.be/fr/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.cenaero.be/"&gt;http://www.cenaero.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.centexbel.be/"&gt;http://www.centexbel.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.cepesi.be/"&gt;http://www.cepesi.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.certech.be/"&gt;http://www.certech.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.cetic.be/"&gt;http://www.cetic.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.cewac.be/"&gt;http://www.cewac.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.cori-coatings.be/"&gt;http://www.cori-coatings.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.crif.be/"&gt;http://www.crif.be/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.crm-eur.com/"&gt;http://www.crm-eur.com/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.materia-nova.com/"&gt;http://www.materia-nova.com/&lt;/a&gt;,&lt;/li&gt;     &lt;li&gt;&lt;a href="http://www.multitel.be/"&gt;http://www.multitel.be/&lt;/a&gt;&lt;span class="bodytext"&gt;.&lt;/span&gt;&lt;/li&gt;   &lt;/ul&gt; &lt;/blockquote&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Il présente les &lt;span style="font-weight: bold;"&gt;caractéristiques&lt;/span&gt; suivantes :&lt;/span&gt;&lt;br /&gt;&lt;/div&gt; &lt;ul style="text-align: justify;"&gt;   &lt;li&gt;&lt;span class="bodytext"&gt;un index d'environ 6000 urls (de 10 serveurs web)&lt;/span&gt;&lt;/li&gt;   &lt;li&gt;&lt;span class="bodytext"&gt;un outil de correction automatique (voir plus loin)&lt;/span&gt;&lt;/li&gt;   &lt;li&gt;&lt;span class="bodytext"&gt;un outil de statistiques&lt;br /&gt;&lt;/span&gt;&lt;/li&gt;   &lt;li&gt;&lt;span class="bodytext"&gt;un outil de tips (astuces) déclanchés sur mot clé (exemple : tapez &lt;span style="font-style: italic;"&gt;"brasage"&lt;/span&gt;)&lt;/span&gt;&lt;/li&gt;   &lt;li&gt;&lt;span class="bodytext"&gt;l'indexation des pdf, msword, ps&lt;/span&gt;&lt;/li&gt; &lt;/ul&gt; &lt;div style="text-align: justify;"&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;&lt;span style="font-weight: bold;"&gt;&lt;span style="font-size:130%;"&gt;Outil de correction automatique&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;L'outil de correction automatique permet d'élargir les recherches en adaptant les mots de recherche à la plupart des erreurs de frappe. Cet outil de correction gère entre autre le pluriel des mots entrés au singulier et inversément, ainsi que les caractères accentués (é, è , ê).&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Cet outil de correction se base sur une modification du plugin query-basic , incluant les LuceneFuzzyQuery. Ce plugin n'est pas recommandé aux index de grande taille car il ralentit considérablement les performances (au lieu de rechercher un seul mot dans l'index, les fuzzyquery évaluent à quelle distance se situent tous les mots de meme préfixe que le mot d'origine). Enfin, cet outil est uniquement utilisé au niveau du module de recherche (et non pas à l'indexation).&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Pour de plus grands index, on utilisera plutot un outil de lemmatisation. Et à plus grand échelle encore, on se contentera d'un outil de correction orthographique, basé sur des dictionnaires.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Ce moteur réalisé avec Nutch a été testé quant à ses performances d'indexation. Est-il plus complet que Google ? Ne l'est-il pas ?&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Le crawl total des pages s'effectue en 3 heures avec les paramètres les  plus optimaux (on est sur de crawler chaque page).&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;&lt;span style="font-weight: bold;"&gt;&lt;span style="font-size:130%;"&gt;Tests de comparaison&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Illico Presto a été testé par rapport à l'API du moteur de recherche Google. La comparaison a lieu &lt;span style="font-weight: bold;"&gt;uniquement&lt;/span&gt; sur les sites webs référencés par illicopresto !&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;IllicoPresto présente plus de résultats pour les mots de recherche suivants (pris au hazard) :&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Brasage (illico:6 - google:2)&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;laser électroérosion (illico:4 - google:0)&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;catalyse divisés (illico:2 - google:0)&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;nanotechnologie produit (illico:24 - google: 9)&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;activité enzymatique (illigo:3 - google :0)&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Si l'on emploie Google directement (plutot que l'API), Google présente alors de nombreux résultats. Après vérification, il s'agit d'un leur : les résultats supplémentaires sont tous des erreurs 404 (j'en conclut hâtivement donc que l'API est rafraichit plus régulièrement)&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Google présente parfois plus de page de résultats car celles-ci ne sont &lt;span style="font-weight: bold;"&gt;pas accessibles&lt;/span&gt; à partir des pages d'accueil (joignables par quelques clics, de liens en liens). Le site du CETIC, par exemple, ne permet pas d'accéder à la page &lt;a class="moz-txt-link-freetext" href="http://www.cetic.be/article331.html"&gt;http://www.cetic.be/article331.html&lt;/a&gt; tandis qu'elle est indexée par Google. Il s'agit certainement d'une page pointée sur www.coregrid.net , et ce dernier n'est pas lui même parcouru par Illico Presto.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Des serveurs web aussi lent (lors des tests) que &lt;a class="moz-txt-link-abbreviated" href="http://www.crif.be/"&gt;www.crif.be&lt;/a&gt; (la lenteur est visible avec votre navigateur) sont presque ignorés par Google, pas par IllicoPresto (exemple : "laser électroérosion" ne donne aucun résultats sur google). En effet, Illico Presto représente peu de pages internets, les paramètres utilisés avec Nutch ont donc été plus "prudents" (voir plus loin la section paramètres)&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Certaines pages qui n'ont rien à voir avec Multitel, ne sont pas  référencées sur IlloPresto mais bien par Google.&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Pour exemple, cette page humoristique d'une équipe de multitel, et qui n'est pas accessible à partir de la page d'accueil de multitel.&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;&lt;a class="moz-txt-link-freetext" href="http://www.multitel.be/%7Eruelle/comega/equipe35.htm"&gt;http://www.multitel.be/~ruelle/comega/equipe35.htm&lt;/a&gt; (/Le site  non-officiel du jeu des Messagers Galactiques).&lt;/span&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Cette remarque est juste anecdotique, mais représente un avantage au manque précédemment cité vis-à-vis des pages non référencées.&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;span class="bodytext"&gt;Conclusion générale des tests : pour l'objectif du moteur IllicoPresto, Nutch amène notre moteur à de relativement meilleurs résultats que Google ou son API.&lt;/span&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-113049131957998829?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='related' href='http://www.illicopresto.be/' title='IllicoPresto : moteur belge sous Nutch'/><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/113049131957998829/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=113049131957998829&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/113049131957998829'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/113049131957998829'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/10/illicopresto-moteur-belge-sous-nutch.html' title='IllicoPresto : moteur belge sous Nutch'/><author><name>insanecricri</name><uri>http://www.blogger.com/profile/04376596425924704513</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='16' height='16' src='http://img2.blogblog.com/img/b16-rounded.gif'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-112984244193648599</id><published>2005-10-20T22:58:00.000+02:00</published><updated>2005-11-09T10:15:59.476+01:00</updated><title type='text'>OSWIR 2005</title><content type='html'>&lt;div style="text-align: justify;"&gt;&lt;span style="font-weight: bold;"&gt;OSWIR 2005&lt;/span&gt; (&lt;span style="font-style: italic;"&gt;2005 workshop on &lt;span style="font-weight: bold;"&gt;Open Source Web Information Retrieval&lt;/span&gt;&lt;/span&gt;) organisé par Ecole Nationale Superieure des Mines de Saint-Etienne et l'Illinois Institute of Technology s'est tenu le 19 Septembre dernier à Compiègne. Les papiers, dont un de Doug Cutting (&lt;b&gt;&lt;a href="http://www.emse.fr/OSWIR05/2005-oswir-p31-cutting.pdf"&gt;Nutch: an Open-Source Platform for Web Search [en/pdf]&lt;/a&gt;&lt;/b&gt;) sont &lt;a href="http://www.emse.fr/OSWIR05/"&gt;diponibles en ligne&lt;/a&gt;.&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-112984244193648599?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/112984244193648599/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=112984244193648599&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112984244193648599'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112984244193648599'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/10/oswir-2005.html' title='OSWIR 2005'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-112819853401067607</id><published>2005-10-01T22:07:00.000+02:00</published><updated>2005-11-09T10:16:16.886+01:00</updated><title type='text'>Nutch-0.7.1</title><content type='html'>&lt;div style="text-align: justify;"&gt;La version &lt;span style="font-weight: bold;"&gt;0.7.1&lt;/span&gt; de &lt;a href="http://www.nutch.org/" rel="tag"&gt;Nutch&lt;/a&gt; est disponible. Cette version contient uniquement des corrections de bugs.&lt;br /&gt;Voici la liste des modifications:&lt;br /&gt;&lt;/div&gt; &lt;ul style="text-align: justify;"&gt;   &lt;li&gt;Le champ de recherche dispose maintenant du focus.&lt;/li&gt;   &lt;li&gt;Correction d'un nom de cible erronné dans &lt;code&gt;plugin/build.xml&lt;/code&gt;.&lt;/li&gt;   &lt;li&gt; &lt;a href="http://issues.apache.org/jira/browse/NUTCH-10"&gt;NUTCH-10&lt;/a&gt;, les points d'extension ne sont définis qu'une fois.&lt;/li&gt;   &lt;li&gt; Ajout d'un utilitaire d'extraction d'URLs dans du contenu textuel.&lt;/li&gt;   &lt;li&gt; Quelques mises à jours mineurs dans le module d'&lt;a href="http://wiki.apache.org/nutch/LanguageIdentifierPlugin" rel="tag"&gt;indentification de la langue&lt;/a&gt;.&lt;/li&gt;   &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-37"&gt; NUTCH-37&lt;/a&gt;, correction des multiples warnings lors de la construction de la &lt;a href="http://lucene.apache.org/nutch/apidocs/index.html" rel="tag"&gt;javadoc&lt;/a&gt;.&lt;/li&gt;   &lt;li&gt;La propriété &lt;code&gt;indexer.maxMergeDocs&lt;/code&gt; vaut maintenant par défaut &lt;code&gt;2147483647&lt;/code&gt;. Cette valeur par défaut avait été positionnée à &lt;code&gt;50&lt;/code&gt; par erreur, ce qui a pour conséquence de ralentir énormément l'indexation.&lt;/li&gt;   &lt;li&gt; Modifications du plugin de &lt;a href="http://wiki.apache.org/nutch/ClusteringPlugin" rel="tag"&gt;clustering&lt;/a&gt;.&lt;/li&gt;   &lt;li&gt;Les composants &lt;a href="http://www.cs.put.poznan.pl/dweiss/carrot/" rel="tag"&gt;Carrot2&lt;/a&gt; ont été mis à jour (dernières versions stables): Amélioration des tokenizers (performances) et de la gestion de stop-words. Ajout du support du Danois, du Finlandais, du Norvégien et du Suédois.&lt;/li&gt;   &lt;li&gt;&lt;a href="http://www.pdfbox.org/" rel="tag"&gt;PDFBox&lt;/a&gt; mis à jour à la version 0.7.2.  (corrige &lt;a href="http://issues.apache.org/jira/browse/NUTCH-85"&gt;NUTCH-85&lt;/a&gt;).                    &lt;/li&gt;   &lt;li&gt;&lt;a href="http://issues.apache.org/jira/browse/NUTCH-89"&gt;NUTCH-89&lt;/a&gt;, null pointer exception dans parse-rss.&lt;/li&gt; &lt;/ul&gt; &lt;div style="text-align: justify;"&gt;&lt;a style="font-weight: bold;" href="http://lucene.apache.org/nutch/release/nutch-0.7.1.tar.gz"&gt;Nutch-0.7.1&lt;/a&gt;&lt;span style="font-weight: bold;"&gt; [tar.gz, 45Mo] &lt;/span&gt;est disponible &lt;a href="http://lucene.apache.org/nutch/release/"&gt;ici&lt;/a&gt;.&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-112819853401067607?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/112819853401067607/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=112819853401067607&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112819853401067607'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112819853401067607'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/10/nutch-071.html' title='Nutch-0.7.1'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-112630148799419536</id><published>2005-09-09T22:52:00.000+02:00</published><updated>2005-09-09T23:57:24.043+02:00</updated><title type='text'>Frutch? C'est quoi ce truc?</title><content type='html'>&lt;div style="text-align: justify;"&gt;Dans des temps déjà anciens (Mai 2005), je parlais sur &lt;a href="http://motrech.blogspot.com/2005/05/info-la-recherche-de-la-nouvelle-star.html" rel="tag"&gt;motrech&lt;/a&gt; d'une interview que j'avais donné à &lt;a href="http://www.abondance.com/" rel="tag"&gt;Olivier Andrieu&lt;/a&gt; concernant &lt;a href="http://www.frutch.org/" rel="tag"&gt;Frutch&lt;/a&gt;. Olivier Andrieu m'a aujourd'hui autorisé, et je l'en remercie encore, à maintenant publier ici l'intégralité de l'interview. Cela permettra, je pense, de clarifier certains points sur ce qu'est Frutch et ce qu'il n'est pas.&lt;br /&gt;&lt;br /&gt;&lt;blockquote&gt;Jérôme Charron, à l'origine de nombreuses initiatives dans le domaine de la recherche d'information sur le Web francophone depuis de nombreuses années, a lancé un projet baptisé &lt;span style="font-style: italic;"&gt;"Frutch"&lt;/span&gt;, basé sur la mise en place d'un moteur de recherche &lt;a href="http://fr.wikipedia.org/wiki/Open_source" rel="tag"&gt;&lt;span style="font-style: italic;"&gt;"Open Source"&lt;/span&gt;&lt;/a&gt; pour le monde de la francophonie. Il nous en dit plus, dans cet interview, sur ce projet... &lt;/blockquote&gt;&lt;br /&gt;Déjà initiateur de la liste de discussion &lt;a href="http://motrech.free.fr/" rel="tag"&gt;Motrech&lt;/a&gt; en 1998, puis d'un &lt;a href="http://motrech.blogspot.com/" rel="tag"&gt;blog&lt;/a&gt; et d'un &lt;a href="http://www.frutch.org/wikini" rel="tag"&gt;Wiki&lt;/a&gt; sur le sujet, auteur d'une thèse ayant pour &lt;a href="http://jerome.charron.free.fr/these/sujet_these.html"&gt;sujet&lt;/a&gt; &lt;span style="font-style: italic;"&gt;"Méthodes et outils d'exploration multilingue sur internet&lt;/span&gt;&lt;span style="font-style: italic;"&gt; en vue d'une veille technologique sur un domaine restreint"&lt;/span&gt;, Jérôme Charron, a lancé le projet &lt;a href="http://www.frutch.org/" rel="tag"&gt;Frutch&lt;/a&gt; qui a pour ambition de constituer une alternative transparente aux moteurs de recherche commerciaux actuels (Google, Yahoo, MSN...). Jérôme a bien voulu répondre à nos questions à propos de ce projet ambitieux. Merci à lui...&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- Jérôme Charron, bonjour. Pouvez-vous vous présenter en&lt;/span&gt;&lt;span style="font-weight: bold;"&gt; quelques mots à nos lecteurs ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;En fait, je suis tombé très tôt dans l'informatique, puis durant mes études, j'ai rapidement croisé le chemin de la recherche documentaire. Et par la suite, Internet est venu se mêler de tout ça. C'est donc tout naturellement que je me suis passionné pour les moteurs de recherche. Pendant ma thèse, concernant la recherche &lt;a href="http://www.technorati.com/tag/multilingue" rel="tag"&gt;multilingue&lt;/a&gt; sur Internet, j'ai créé la &lt;a href="http://fr.groups.yahoo.com/group/motrech/" rel="tag"&gt;liste motrech&lt;/a&gt;.&lt;br /&gt;Après une période de presque 5 ans où je souhaitais m'éloigner de ce domaine, j'ai replongé de plus belle dans les méandres des moteurs à travers la liste motrech, le blog motrech, et Frutch.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- En quoi consiste le projet Frutch ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Il y a souvent un malentendu à ce sujet, et je souhaite donc le dissiper tout de suite : Frutch n'est pas pour le moment une initiative visant à mettre en place un &lt;a href="http://fr.wikipedia.org/wiki/Moteur_de_Recherche" rel="tag"&gt;moteur de recherche&lt;/a&gt; en ligne (même si cela est notre but ultime, nous n'en avons pour le moment pas la capacité).&lt;br /&gt;Ainsi, à la base, le projet Frutch consiste à tisser un lien entre les francophones s'intéressant au moteur open source &lt;a href="http://www.nutch.org/" rel="tag"&gt;Nutch&lt;/a&gt;. C'est une approche très pragmatique : il est souvent beaucoup plus facile de débuter sur un sujet ou d'échanger des propos complexes dans sa langue maternelle.&lt;br /&gt;Frutch pourrait à terme devenir une sorte de représentant francophone de Nutch.&lt;br /&gt;Mais comme je le disais précédemment, en fonction des opportunités de partenariat ou de financement qui se présenteraient, Frutch pourrait très bien se décliner en deux instances, comme c'est de plus en plus le cas dans le monde de l'open source : une instance communautaire (.org),&lt;br /&gt;ainsi qu'une instance commerciale (.com).&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- Quel est le but de Frutch ? Proposer un moteur de recherche alternatif aux Google,&lt;/span&gt;&lt;span style="font-weight: bold;"&gt; Yahoo! et MSN ou proposer une technologie "disponible" pour des moteurs qui&lt;/span&gt;&lt;span style="font-weight: bold;"&gt; voudraient se monter ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Le but premier de Frutch est donc de regrouper les compétences francophones en matière de recherche d'information afin de tenter de bousculer un peu l'ordre établi aujourd'hui sur le marché des moteurs de recherche.&lt;br /&gt;En fait, les deux approches que vous mentionnez cohabitent. Frutch est une initiative très jeune, et il est donc à la fois intéressant et inévitable me semble-t-il de contribuer activement au développement de Nutch sous forme de code et de documentation.&lt;br /&gt;Cela nous permet de rentrer au coeur de Nutch, de le tester, et de bien comprendre son fonctionnement, son déployement et son administration, ainsi que d'orienter son évolution.&lt;br /&gt;&lt;br /&gt;Dans un second temps, si des opportunités de financement ou de partenariat se présentent nous mettrons certainement en place un moteur de recherche alternatif (vous remarquerez certainement que le nom de domaine &lt;a href="http://www.frutch.com/"&gt;frutch.com&lt;/a&gt; a déjà été réservé).&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- Qui participe à ce projet actuellement ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Nous ne sommes aujourd'hui qu'une petite dizaine d'inscrits sur la &lt;a href="http://groups.yahoo.com/group/frutch/"&gt;liste Frutch&lt;/a&gt; et les contributeurs au &lt;a href="http://www.frutch.org/wikini"&gt;wiki Frutch&lt;/a&gt; se comptent sur les doigts d'une main. Mais notre groupe de travail est encore très jeune (créé en Février) et encore peu connu.&lt;br /&gt;Nous sommes composé de développeurs ayant une expérience significative dans le domaine des moteurs de recherche, de curieux ayant fait quelques tests de Nutch, mais aussi de professionnels ayant travaillé ou travaillant encore dans des moteurs commerciaux.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- Pouvez-vous nous en dire plus sur Nutch ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href="http://lucene.apache.org/nutch/" rel="tag"&gt;Nutch&lt;/a&gt; est une initiative de &lt;a href="http://nutch.sourceforge.net/blog/cutting.html" rel="tag"&gt;Doug Cutting&lt;/a&gt; (créateur de la librairie d'indexation/recherche &lt;a href="http://lucene.apache.org/" rel="tag"&gt;Lucene&lt;/a&gt;).&lt;br /&gt;Il partage l'approche, que j'essaye (trop) souvent de soutenir, consistant à dire que le moment est venu de proposer une solution alternative, transparente, libre et gratuite aux outils commerciaux. Frutch (et donc Nutch) est à Google ce que Linux est à Windows : une alternative gratuite et&lt;br /&gt;ouverte aux solutions commerciales.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- Où en êtes-vous actuellement sur le projet Frutch ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Nous n'intervenons aujourd'hui que dans la phase développement open source, c'est à dire en contribuant à Nutch: participation sur les listes de discussion de Nutch, don de code à Nutch (j'ai par exemple récemment donné un module de détection de type de document, et je travaille&lt;br /&gt;actuellement sur le plugin de détection de langue), devéloppement de notre base de connaissance francophone sur le wiki de Frutch.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- De quoi avez-vous besoin aujourd'hui pour faire avancer au mieux le projet ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;De passionnés prêts à consacrer du temps au développement, à la documentation, aux tests de&lt;br /&gt;Nutch. Si nous voulons pouvoir lancer la deuxième grande phase de Frutch, et pouvoir proposer un&lt;br /&gt;moteur en ligne, nous avons essentiellement besoin de financements et/ou de matériels.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;- Un moteur "open source" a-t-il sa chance aujourd'hui face aux "mastodontes"&lt;/span&gt;&lt;span style="font-weight: bold;"&gt; américains ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Il me semble que oui ! Le moteur en lui même (au sens du service) est nécessairement plus ou moins commercial puisqu'il faut financer les machines, la bande passante, l'électricité, la maintenance. Ce n'est cependant pas le côté commercial ou financier qu'il faut retenir, mais la finalité : contrairement à Google, Yahoo! ou MSN dont la finalité est le bénéfice, la finalité de ce moteur serait d'apporter un service (le seul objectif commercial est donc de s'autofinancer, et non pas de dégager des bénéfices).&lt;br /&gt;Ce moteur a donc tout intérêt à utiliser des technologies open source, afin de réduire ses coûts, d'augmenter la visibilité et la transparence de ses technologies, et de bénéficier de la forte dynamique des comunautés open source pour faire évoluer ses technologies.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;&lt;/span&gt;&lt;span style="font-weight: bold;"&gt;- Quelles sont les prochaine étape prévues ? Quelles sont les grandes échéances&lt;/span&gt;&lt;span style="font-weight: bold;"&gt; attendues dans un futur proche ?&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Premièrement l'angle open source qui consiste à travers une communauté francophone à participer à l'effort collaboratif de Nutch. Sous cet angle, les étapes sont simples : parvenir à franciser au plus vite l'intégralité de la documentation de Nutch, et continuer à contribuer au code de Nutch.&lt;br /&gt;Deuxièmement, l'angle commercial qui sera très dépendant de l'intérêt que peuvent porter de potentiels investisseurs au projet. Cependant, l'échéance principale de ce point de vue consiste à mettre au point un &lt;a href="http://motrech.blogspot.com/2005/09/mini-mais-costaud.html" rel="tag"&gt;Frutch-mini&lt;/a&gt;, concurrent direct du &lt;a href="http://www.google.com/enterprise/mini/" rel="tag"&gt;Google-Mini&lt;/a&gt;. D'après nos premières estimations, nous pouvons fournir un tel système de type &lt;span style="font-style: italic;"&gt;"plug and search"&lt;/span&gt; à un prix 4 à 5 fois moins élevé que celui de Google-Mini pour des fonctionnalités équivalentes.&lt;br /&gt;&lt;br /&gt;Merci Jérôme et bonne chance pour ce projet !&lt;br /&gt;&lt;br /&gt;© &lt;a href="http://www.abondance.com/"&gt;Abondance.com&lt;/a&gt; - Lettre &lt;a href="http://lettres.abondance.com/rechref.html"&gt;"Recherche &amp;amp; Référencement"&lt;/a&gt;, Mai 2005&lt;br /&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-112630148799419536?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/112630148799419536/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=112630148799419536&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112630148799419536'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112630148799419536'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/09/frutch-cest-quoi-ce-truc.html' title='Frutch? C&apos;est quoi ce truc?'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-112539586396963837</id><published>2005-08-30T11:30:00.000+02:00</published><updated>2005-08-30T11:57:43.973+02:00</updated><title type='text'>Nutch-0.7</title><content type='html'>La &lt;span style="font-weight: bold;"&gt;version 0.7&lt;/span&gt; de &lt;a href="http://lucene.apache.org/nutch/"&gt;Nutch&lt;/a&gt; est sortie le 17 Août dernier. Elle est téléchargeable &lt;a href="http://lucene.apache.org/nutch/release/nutch-0.7.tar.gz"&gt;ici&lt;/a&gt; [tar.gz], et la liste des changements est disponible &lt;a href="http://svn.apache.org/viewcvs.cgi/lucene/nutch/trunk/CHANGES.txt?rev=233150"&gt;ici&lt;/a&gt; [txt]. Il est à noter que c'est la première version de Nutch en tant que sous-projet de &lt;a href="http://lucene.apache.org/"&gt;Lucene&lt;/a&gt;. Quelques bugs légers ont été remontés, et sont déjà corrigés. Une &lt;span style="font-weight: bold;"&gt;version 0.7.1&lt;/span&gt; contenant ces quelques corrections, ainsi que quelques nouvelles fonctionnalités est prévue pour le 15 Septembre.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-112539586396963837?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/112539586396963837/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=112539586396963837&amp;isPopup=true' title='0 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112539586396963837'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112539586396963837'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/08/nutch-07.html' title='Nutch-0.7'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-112438383478487188</id><published>2005-08-19T17:18:00.000+02:00</published><updated>2005-08-19T15:40:37.946+02:00</updated><title type='text'>Un Apache nommé Jeronimo</title><content type='html'>&lt;a href="http://lucene.apache.org/nutch/"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer; width: 64px;" src="http://www.frutch.org/images/blog/apache_nutch_small.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Il ne serait pas honnête de ma part de vous cacher que je suis très fier de vous annoncer que je suis depuis quelques jours devenu&lt;span style="font-weight: bold;"&gt; &lt;/span&gt;&lt;a style="font-weight: bold;" href="http://lucene.apache.org/nutch/credits.html#Committers"&gt;committer Nutch&lt;/a&gt;. Les novices se demanderont certainement ce que cela signifie. Tout simplement que mes travaux sur &lt;a href="http://lucene.apache.org/nutch/"&gt;Nutch&lt;/a&gt; ont été reconnus et que la communauté &lt;a href="http://lucene.apache.org/nutch/"&gt;Nutch&lt;/a&gt; me fait confiance pour me donner le droit de mettre à jour le code de &lt;a href="http://lucene.apache.org/nutch/"&gt;Nutch&lt;/a&gt; dans la &lt;a href="http://svn.apache.org/viewcvs.cgi/lucene/nutch/"&gt;base de code&lt;/a&gt; (c'est ça être committer).&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Plusieurs points positifs à celà:&lt;br /&gt;&lt;ul&gt;   &lt;li&gt;Mon égo se sent très bien   &lt;span style="font-family:courier new;"&gt;;-)&lt;/span&gt;&lt;/li&gt;   &lt;li&gt;Je vais pouvoir travailler plus efficacement sur &lt;a href="http://lucene.apache.org/nutch/"&gt;Nutch&lt;/a&gt;&lt;/li&gt;   &lt;li&gt;La communauté francophone de &lt;span style="font-style: italic;"&gt;Nutchies&lt;/span&gt; (&lt;a href="http://www.frutch.org/"&gt;Frutch&lt;/a&gt;) va pouvoir imposer plus facilement ses idées et son travail (je pense en particulier à l'aspect multilingue / francophone sur lequel nous travaillons en parallèle avec Christophe Noel).&lt;/li&gt; &lt;/ul&gt; Vous pouvez donc maintenant m'écrire à l'adresse &lt;span style="font-weight: bold;"&gt;jerome[at]apache.org&lt;/span&gt; (la classe!!!) et aller faire un petit crochet culturel vers le véritable Apache nommé &lt;a href="http://fr.wikipedia.org/wiki/Geronimo"&gt;Geronimo&lt;/a&gt;...&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-112438383478487188?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/112438383478487188/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=112438383478487188&amp;isPopup=true' title='1 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112438383478487188'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112438383478487188'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/08/un-apache-nomm-jeronimo.html' title='Un Apache nommé Jeronimo'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-13163196.post-112021085722087024</id><published>2005-07-01T11:23:00.000+02:00</published><updated>2005-07-01T11:40:57.226+02:00</updated><title type='text'>[Com]me un [Org]ue</title><content type='html'>&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://frutch.free.fr/model/images/work/logo_frutch_robot.png"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer; width: 200px;" src="http://frutch.free.fr/model/images/work/logo_frutch_robot.png" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;Ce premier billet sur le blog de Frutch signe l'activation des noms &lt;a href="http://www.frutch.org/"&gt;http://www.frutch.org/&lt;/a&gt; et &lt;a href="http://www.frutch.com/"&gt;http://www.frutch.com/&lt;/a&gt;, tous deux pointant pour le moment sur l'ancien &lt;a href="http://frutch.free.fr/"&gt;http://frutch.free.fr/&lt;/a&gt;. Les choses avances, c'est bien. Où celà nous mènera-t'il, loin je l'espère.&lt;br /&gt;Ces deux noms de domaine devraient prendre au fil du temps deux direction différentes: L'une vers de la documentation, des réflexions, etc... et l'autre vers une démonstration de &lt;a href="http://www.nutch.org/"&gt;Nutch&lt;/a&gt;.&lt;br /&gt;Merci à &lt;a href="http://villeretconsulting.com/"&gt;Graeme&lt;/a&gt; pour la fourniture de ces deux noms de domaine.&lt;br /&gt;J'en profite pour signaler à tous les membres de Frutch (ceux d'entre vous qui sont inscrit à la &lt;a href="http://fr.groups.yahoo.com/group/frutch/"&gt;liste&lt;/a&gt; de discussion, ou bien ceux d'entre vous qui participent au &lt;a href="http://www.frutch.org/wikini/"&gt;Wiki&lt;/a&gt;) que je vous invite à participer à &lt;a href="http://frutch.blogger.com/"&gt;ce blog&lt;/a&gt; en vous créant un compte Blogger et en me demandant les droits d'écriture.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/13163196-112021085722087024?l=frutch.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://frutch.blogspot.com/feeds/112021085722087024/comments/default' title='Publier les commentaires'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=13163196&amp;postID=112021085722087024&amp;isPopup=true' title='3 commentaires'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112021085722087024'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/13163196/posts/default/112021085722087024'/><link rel='alternate' type='text/html' href='http://frutch.blogspot.com/2005/07/comme-un-orgue.html' title='[Com]me un [Org]ue'/><author><name>Jérôme Charron</name><uri>http://www.blogger.com/profile/08762458169885873199</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='26' height='32' src='http://jerome.charron.free.fr/images/jeronimo.jpg'/></author><thr:total>3</thr:total></entry></feed>
