[CHASSEURS DE MOTEURS] - Numéro 28 ================================================================== c H A S S E U R s . d e . m O T E U R s Bulletin des spécialistes des outils de recherche http://www.chasseurs-de-moteurs.net/ NUMERO VINGT-HUIT LE 12 OCTOBRE 2001 ================================================================== SOMMAIRE o Editorial o Brèves o Les outils de recherche spécialisés . Statitics.com . Annu Cam . Annu Fitness . Libertinus o Les outils de recherche régionaux, Pays-de-Loire . Internantes . Grand west . Vendée.Net o Entretien avec François Bourdoncle, fondateur du moteur Exalead. ================================================================== EDITORIAL ================================================================== Pas de nouvelles du front, Par moment, il est nécessaire de reprendre son souffle face aux problèmatiques posées, concernant les outils de recherche bien entendu. Je pense qu'il n'est pas vraiment nécessaire d'accentuer le malaise en parlant à nouveau des licenciements ou des chutes qui se précisent tout en espérant sincérement que cela ne continuera pas. Pour cela, je laisse à mes confrères le soin de constater les dégâts qu'ils ont bien été incapables de pressentir jusqu'à maintenant. En fait, je ne dirais qu'une seule chose. Deux des plus charismatiques outils français sont à un tel point mal qu'ils cherchent maintenant à embrasser sur la bouche les sociétés de référencement dont ils ont rejeté la main tendu il n'y a pas si longtemps. Embrasser certes, mais en n'oubliant pas de faire payer leur service. Bref, nous en reparlerons prochainement. Afin de vous mettre un peu de baume au coeur, lisez attentivement l'interview de François Bourdoncle, fondateur d'Exalead, que vous pourrez trouver dans cette lettre. L'avenir est devant nous, si on se retourne on l'a dans le dos. ~][~ Thomas BERTRAND ================================================================== BREVES Thomas BERTRAND ================================================================== o 1ere-Position, société de référencement, et Xiti statistiques proposent un baromètre « site centric » concernant les outils de recherche. Source NetEconomie http://www.neteconomie.com/perl/navig.pl/neteconomie/infos/article/20011005152520 o Excite vendu pour 307 millions de dollars US. Une bonne affaire ? Source Branchez-vous http://europe.branchez-vous.com/Europe/actualite/01-10/05-311701.html o Article concernant un chargé de référencement chez CVFM... oups... les salaires sont affichés. Source O1Net http://www.01net.com/rdn?oid=160496&rub=2853 o Tiscali/LibertySurf bientôt rentable. "Et les dirigeants du pôle Médias réfléchissent à un mode de consultation payant des pages personnelles". Le remède serait-il pire que la maladie ? Source VnuNet http://www.vnunet.fr/actu/article.htm?numero=8494&date=2001-09-26 o 30% de réduction d'effectif, la dernière bataille engagée par Altavista s'annonce difficile. Source ZDnet http://news.zdnet.fr/story/0,,t120-s2095524,00.html o Lycos Europe, 202 millions d'euros de perte en 2001 et 300 personnes licenciées. Va chercher ! Source ZDnet http://news.zdnet.fr/story/0,,t118-s2096131,00.html o Inktomi lache aussi du lest. Source Yahoo http://biz.yahoo.com/rf/011001/n01113247_2.html o Carnivore, le logiciel espion du FBI à la voie libre. Source ZDNET http://www.zdnet.com/zdnn/stories/news/0,4586,2602200,00.html .oO ILS ARRIVENT SUR LA TOILE }{ ILS ARRIVENT SUR LA TOILE Oo. o Un annuaire spécialisé d'actualité, Terrorism. Source Chasseurs de moteurs http://www.linkvoyager.com/cgi-bin/serve.fcgi/terrorism/ o PotatoNews, votre outil spécialisé pomme de terre. Et ce n'est pas une plaisanterie. Source Chasseurs de moteurs http://www.potatonews.com/ o Machine Brain, ou comment placer des robots dans un outil spécialisé. Source Chasseurs de moteurs http://www.machinebrain.com/ o La nature sur la toile par l'intermédiaire d'un outil spécialisé, Enature. Source Chasseurs de moteurs http://enature.com/ o L'annuaire thématique des voitures de collection, Autotroc. Source Chasseurs de moteurs http://www.autotroc-collection.com/ o MBC On-Line, the Bowling Search Engine, spare ! Source Chasseurs de moteurs http://www.bowlsearch.com/ o Le nouveau métachercheur venant du québec = Absolumentoo. Interrogation simultanée de AltaVista, Voilà, Google, Excite, HotBot et Lycos. Source Chasseurs de moteurs http://www.absolumentoo.com/ o Yakeo, métachercheur, ou comment interroger une sélection d'outils généralistes dans toute l'Europe et dans le monde entier. Source Chasseurs de moteurs http://yakeo.ovh.org/ o Zerx, un moteur américain en test beta (vous pouvez donner votre avis suite à une recherche). Source Chasseurs de moteurs http://www.zerx.com/ o Chubba (whatuseek), le nouveau métachercheur venant d'amérique. Source Chasseurs de moteurs http://www.chubba.com/ ================================================================== LES OUTILS DE RECHERCHE SPECIALISES Thomas BERTRAND ================================================================== Nom : Statistics.com Thème : Statistiques URL : http://www.statistics.com/ Note d'appréciation générale : 9/10 Rapport du chasseur Voila un outil spécialisé à ne pas manquer car fournissant une visibilité à un grand nombre de sites contenant des études statistiques. Avec 13 catégories principales couvrant tous les domaines, Agriculture, Business, Crime... Sports, vous aurez accès à des informations à valeurs ajoutées ciblées. L'outil comporte une sous-catégorie « Internet » que je vous conseille de visiter en urgence le premier lien proposé étant : 1.6 Billion Served : The Web According to Google. Pour les fous des chiffres ! Add URL : http://www.statistics.com/content/suggest.html Courriel : learning@statistics.com Nombre de sites : Inconnu Type : annuaire Localisation : Amérique Langues : anglais Popularité : Google = 384 AltaVista = 1 014 Lycos = 494 =========== Nom : Annu Cam Thème : Webcam URL : http://www.annucam.com/ Note d'appréciation générale : 7/10 Rapport du chasseur AnnuCam est un annuaire spécialisé webcam. Il vous propose donc d'avoir une vue originale sur une partie du monde que vous ne pourriez atteindre sans ce nouveau mode de communication. Les petits coquins peuvent regarder les fesses de Marie (humour) et les autres avoir un oeil sur l'entrée de la grotte à Lourdes, comme si vous y étiez : http://www.lourdes-france.com/fr/frwcam.htm En attendant l'apparition. Add URL : http://www.annucam.com/cgi-bin/add.cgi Courriel : webmaster@annucam.com Nombre de sites : 738 webcams Type : annuaire Localisation : France Langues : français Popularité : Google = 259 AltaVista = 518 Lycos = 239 =========== Nom : Annu Fitness Thème : Fitness URL : http://www.annufitness.com/ Note d'appréciation générale : 6/10 Rapport du chasseur La position assise devant votre machine prend fin. Il est temps de vous remuer et voila donc l'occasion de passer à l'acte. Des « Clubs » à la « Diététique » en passant par la « Musculation » avec les catégories d'Annu Fitness, vous n'aurez plus les excuses habituelles pour justifier votre embonpoint. Très bonne idée d'avoir mis en ligne un annuaire spécialisé fitness qui essaiera, j'en suis certain, de vous sortir du train train quotidien. Allez, 1, 2, 1, 2... Add URL par courriel : ajouter_un_site@annufitness.com Courriel : contact@annufitness.com Nombre de sites : 393 Type : annuaire Localisation : France Langues : français Popularité : Google = 15 AltaVista = 21 Lycos = 67 =========== Nom : Libertinus Thème : libertinage URL : http://www.libertinus.com/ Note d'appréciation générale : 05/10 Rapport du chasseur Il en faut pour tous les goûts. Je vous promet que la prochaine fois je vous trouve un bon annuaire spécialisé en religion ou expiation, tout dépendra du comportement que vous aurez eu entre temps. Cinq catégories pour naviguer précisément : « Couples échangistes et libertins », « Couples exhibitionnistes », « Couples fétichistes / SM », « Etablissements libertins » et « Ressources libertines ». Vous avez le choix mais ne vous trompez pas de catégorie. Add URL : http://www.libertinus.com/links/index.php3?p=ajout&Category= Courriel : webmaster@libertinus.com Nombre de sites : 224 Type : annuaire Localisation : France Langues : français Popularité : Google = 4 AltaVista = 41 Lycos = 132 =========== ================================================================== LES OUTILS DE RECHERCHE REGIONAUX Chris HEDE ================================================================== o Pays-de-Loire Nom : Internantes Thème : Annuaire Internet de Nantes URL : http://www.internantes.com/ Moyenne des notes : 14/20 Rapport du chasseur Au premier abord, cet outil fait peur. En effet, après avoir saisi l'URL dans mon navigateur préféré, une page temporaire s'affiche en attendant de me rediriger vers l'accueil du site. Je n'aime pas être redirigé ici ou là, même, si c'est comme ici pour la bonne cause, à savoir une mise à jour du site. Cette page d'accueil d'Internantes est vraiment bien. Il n'y a aucun graphisme inutile, c'est-à-dire juste une bannière pour un évènement local et des petits boutons pour les partenaires, que souhaiter de plus au niveau légèreté ? Une petite requête pour tester la qualité de la base ? Je tape donc un mot qui met mal à l'aise tout Nantes ces derniers temps : « football ». Résultat : l'arborescence de l'annuaire est de nouveau affiché (-1) et en dessous, il est possible de trouver tous les liens correspondant à la requête (normal !) ainsi qu'une photo écran à côté de chaque résultat donné (+20) ! Cette photo écran, qui a été prise lors de l'indexation de la page, est surement archivée dans la base d'Internantes. J'aime beaucoup Internantes et sa prévisualisation des sites ! Add URL : http://www.internantes.com/cgi-local/milgpi.pl?P=310&M=1111112&B=0001&1=158 Courriel : internantes@internantes.com Type : annuaire Localisation : France Langue : français =========== Nom : Grand west Thème : La vitrine de l'ouest de la France sur Internet URL : http://www.grandwest.fr/ Moyenne des notes : 10/20 Rapport du chasseur Je n'aime pas les sites avec un nom de domaine utilisant un ou des mots anglais. Il me semble que la langue française est suffisament riche pour ne pas s'encombrer des mots d'autres langues. Le second point handicapant pour ce site, ce sont ses parrains : la mairie de Nantes, le Conseil Général de Loire Atlantique, la mairie de Saint-Nazaire et le Chambre de Commerce et d'Industrie de Nantes / St Nazaire. En effet, avec de tels parrains, il me semble difficile de faire un site innovant et dynamique... ce qui est largement le cas, ici. Grand west est donc un annuaire simple et sans surprise avec une base de sites référencés de qualité. Le maître mot ici est juste qualité des liens. Add URL : http://www.grandwest.fr/refer/index.cfm Courriel : contact@grandwest.fr Type : annuaire Localisation : France Langue : français =========== Nom : Vendée.Net Thème : Toute la Vendée sur Internet URL : http://www.vendee.net/ Moyenne des notes : 10/20 Rapport du chasseur Vendée.Net est un superbe annuaire, aussi bien au niveau graphique qu'au niveau des services proposés. Au premier abord, le seul point négatif de cet outil est le choix technologique de l'ASP pour gérer l'annuaire. Tout le monde sait très bien qu'il n'est pas possible de faire confiance à l'ASP, et Vendée.Net l'utilise ! Mais, peut-être est-ce lié à un manque d'expérience de l'équipe technique de Vendée.Net ! A noter la présence de webcams donnant sur des plages de Vendée. Malheureusement, en ce moment, il ne peut pas y avoir grand monde sur ces plages, il est l'heure de dormir... de plus, les webcams ne s'affiche pas ! Un site avec un énorme potentiel qui après une petite reprise en main devrait satisfaire tous les vendéens du net et même les autres internautes. Add URL : http://www.vendee.net/pages/ajouter.asp Courriel : info@vendee.net Type : annuaire Localisation : France Langue : français =========== Sans oublier -- Angers Online : http://angers.online.fr/annu/ -- Angevin : http://www.angevin.com/ -- Annuaire API : http://www.api-publications.fr/principale_2.cfm -- Cybervendée : http://www.cybervendee.tm.fr/ -- En Anjou : http://www.en-anjou.com/ -- En Sarthe : http://www.en-sarthe.com/ -- Info Nantes : http://franlem.free.fr/annuaire.htm -- Le gros site : http://www.legrossite.com/liens/index.php -- May'web : http://www.mayenne.org/ -- Sharelook Nantes : http://nantes.sharelook.fr/ ================================================================== ENTRETIEN avec François BOURDONCLE ================================================================== Fondateur d'Exalead, http://www.exalead.com/ «Chasseurs de moteurs». -- François Bourdoncle, pouvez-vous vous présenter rapidement à nos lecteurs, merci. François Bourdoncle. -- Après des études d'ingénieur (X-Mines et doctorat en informatique), j'ai commencé ma carrière professionnelle en faisant de la recherche dans les laboratoires de recherche de la société Digital Equipment (qui a par la suite été rachetée par Compaq). Je m'occupais à l'époque de génie logiciel et de conception de nouveaux langages de programmation. C'est à cette époque que j'ai connu et collaboré avec Louis Monier, fondateur d'AltaVista. «Chasseurs de moteurs». -- Comment vous est venu votre passion pour les moteurs de recherche ? François Bourdoncle. -- Quand Louis a lancé AltaVista, il m'a demandé de venir lui donner un coup de main, et déjà, à l'époque, je considérais que les moteurs retournaient trop de résultats. J'ai donc eu l'idée de développer la technologie « Cow9 » qui a été ensuite acquise sous licence par AltaVista pour l'intégrer à son moteur sous le nom de « LiveTopics » (la version bêta) puis de « Refine » (la version définitive). Cette technologie partait du principe qu'il est nécessaire de guider les utilisateurs quand le moteur fournit trop de résultats, et pas seulement en leur fournissant les résultats les plus populaires, mais plutôt en essayant de faire une « table de matières dynamique » des résultats. La technologie Cow9 présentait cette table de matière sous la forme d'une carte conceptuelle de thèmes identifiés automatiquement et en temps réel par le moteur. Depuis cette époque, je consacre l'essentiel de mon activité aux moteurs de recherche, le reste étant toujours consacrés aux langages de programmation, et en particulier le langage ExaScript (mélange de Java, d'XML et de PHP) que nous utilisons pour programmer le middleware des applicatifs Exalead. «Chasseurs de moteurs». -- Selon vous, quel est le moteur de recherche le plus performant pour l'instant et pourquoi ? François Bourdoncle. -- Google a été l'un de mes préférés après AltaVista, mais certaines de ces limitations m'ont vite irrité dès que l'on voulait faire des requêtes un peu sérieuses (absence de disjonction, de lemmatisation, etc.). Je trouve aussi que la qualité des résultats a tendance à se dégrader dans le temps, ce qui est un peu surprenant s'ils classent réellement les résultats comme ils le disent. A part ça, je trouve que les moteurs sont tous à peu près identiques, mis à part le nombre de documents qu'ils référencent. En gros, aucun moteur ne répond vraiment à mes attentes, ce qui ne devrait pas vraiment vous surprendre. C'est d'ailleurs pour cela que depuis plus de deux ans maintenant, je travaille avec mon équipe au développement de la technologie d'Exalead qui permet de guider les utilisateurs dans leur recherche en affichant une « table des matières » dynamique des résultats de leur recherche, cette table des matières leur permettant d'une part d'effectuer une lecture rapide des « vrais » résultats, et d'autre part de préciser leur recherche en sélectionnant l'une des entrées de la table. La table elle-même est constituée des rubriques les plus pertinentes de l'annuaire utilisé (de type Yahoo) ainsi que des mots-clefs les plus pertinents extraits automatiquement et en temps réel par le moteur à partir du texte intégral des résultats de la recherche. Notre technologie permet donc de réunir en un outil unique les annuaires de sites de type Yahoo avec les moteurs de recherche de type AltaVista. Par exemple, si la requête est « marée noire », alors les rubriques pourraient être Société/Pollution et Régional/Morbihan tandis que les mots-clefs pourraient être Naufrage de l'Erika, Catastrophe écologique, Expérimentations sur les pollutions accidentelles des eaux. «Chasseurs de moteurs». -- Nous vous nommons Président Directeur Général d'Altavista. Quelles sont vos premières directives pour sauver votre moteur ? François Bourdoncle. -- Quelle question ! Bien entendu, j'achète tout de suite une license Exalead ! Plus sérieusement, il est vrai qu'AltaVista perd peu à peu du terrain et que sa technologie a très peu évolué depuis deux ou trois ans, ce qui dans ce secteur, est assez rapidement handicapant. Ma vision du marché des moteurs est que les technologies développées « in-house » sont très dures à maintenir à niveau, et qu'il vaux mieux laisser ce métier à des société purement technologiques qui n'ont pas à se préoccuper de ce qui fait la vie quotidienne d'un portail (publicité, accord de partenariat, etc.). Il n'y a qu'a voir le depot de bilan d'Excite@Home pour voir de quoi je parle... C'est pour cela que nous nous positionnons comme un éditeur logiciel, et pas comme un moteur Web. Mais notre technologie, prévue dès l'origine pour pouvoir indexer des milliards de documents, peut donc tout à faire être utilisée par de très gros moteurs. Nous avons également une offre où nous fournissons le « crawl » du web qui intéresse le client (par exemple, le web français sportif) ainsi que le moteur d'indexation proprement dit, qui est hébergé chez notre client. Nous faisons donc du « moteur sur mesure » à comparer avec le « prêt à porter » que pratiquent nos concurrents aujourdhui. D'autre part, nous nous positionnons résolument sur le marché de l'entreprise, et pas uniquement du Web. «Chasseurs de moteurs». -- Combien de personnes travaillent au développement de la technologie d'Exalead ? François Bourdoncle. -- La société comporte aujourdhui un quinzaine de collaborateurs, dont les deux tiers participent activement au développement du coeur de la technologie. «Chasseurs de moteurs». -- Quelle est votre architecture technique aussi bien au niveau logiciel que matériel ? François Bourdoncle. -- Notre choix s'est dès le départ porté sur une architecture 64-bit « pure » qui permet d'atteindre de très hautes performances, et sur le port du code sur des architectures qui ne sont pas encore 64-bits. Cela est assez différent des architectures actuelles qui sont par essence 32-bits et sont portées sur du 64 bits sans pouvoir en tirer le maximum de performances. Notre plate-forme tourne dès aujourdhui sur les principaux Unix 32 ou 64 bits, little ou big-endian, ainsi que sur Windows NT/2000, avec des performances qui dépendent essentiellement du processeur et assez peu de l'OS. «Chasseurs de moteurs». -- Pouvez-vous nous apporter un éclairage sur le modèle financier du moteur Exalead ? François Bourdoncle. -- Nous sommes un pur éditeur logiciel, même si nous avons aujourd'hui une activité de service pour nous permettre d'intégrer notre technologie chez nos clients (comme la plateforme de recherche de Scoot, que nous assurons depuis fin août), ainsi qu'une activité d'ASP, par exemple pour fournir le service de recherche Web et Wap au portail 6eme Sens de Bouygues Télécom. Notre modèle économique est donc un modèle lié aux licenses annuelles de nos logiciels. «Chasseurs de moteurs». -- De quelle base de données utilisez-vous les résultats présentés par Exalead pour l'instant ? François Bourdoncle. -- Nous disposons pour l'instant de trois bases, l'une du Web francophone (20 millions de documents), l'une de 100 millions de documents anglophone, et l'une du Wap francophone (3 millions de documents). «Chasseurs de moteurs». -- Donnez-nous votre définition du spam(dexing). François Bourdoncle. -- Le spamming est tout ce qui permet de fausser l'équité du moteur, et donc induire l'utilisateur en erreur. Notre moteur compte un certain nombre de technologies originales pour contrer le spam, mais je ne m'étendrai pas sur le sujet ;-) «Chasseurs de moteurs». -- Comptez-vous mettre en place une page de soumission (add url) ? François Bourdoncle. -- Nous y pensons. Mais les modalités pratiques sont encore a definir. «Chasseurs de moteurs». -- Si oui, vos robots, vont-ils avoir des protections particulières anti-spam ? François Bourdoncle. -- C'est déjà le cas, mais nous travaillons à améliorer encore ces protections. «Chasseurs de moteurs». -- Combien de jours faudra-t-il compter entre la visite du robot et la présence dans votre base de données ? François Bourdoncle. -- Notre crawler est encore opéré manuellement par périodes mais va prochainement passer en mode entièrement incrémental, et la fréquence de passage dépendra de pas mal de facteurs (certains sites qui ont beaucoup de contenu dynamique doivent être rafraîchis plus souvent). «Chasseurs de moteurs». -- Si non, comment allez-vous alimenter votre base de données et dans quelle proportion (couverture mondiale) ? François Bourdoncle. -- Seul notre crawl français est aujourd'hui réellement maintenu à jour, le crawl anglais est plus un démonstrateur, mais cela dépendra de nos clients et de leur volonté ou non d'avoir une couverture mondiale. Nous nous sommes arrêtés à 100 millions de documents faute d'espace disque et d'une liaison Internet suffisamment rapide (tout ça coûte de l'argent...). «Chasseurs de moteurs». -- Dans tous les cas, allez-vous relever toutes les pages de chaque site ? François Bourdoncle. -- Cela est impossible pour une raison technique simple qui est que le protocole http ne permet pas de savoir si une page est dynamique ou statique, et qu'il est donc difficile de savoir si un site a été crawlé de manière exhaustive ou non. «Chasseurs de moteurs». -- Concernant la version d'Exalead que nous connaissons pour l'instant. Avez-vous intégré toutes les fonctions auquelles vous aviez pensé ou pouvons-nous nous attendre encore à de grosses surprises ? François Bourdoncle. -- Je dirais plutôt un affinage de l'interface et des algorithmes que d'une révolution de concept. Mais il reste beaucoup à faire pour décliner notre concept de navigation en fonction du client et de son application spécifique. Par exemple, notre technologie mise en oeuvre chez Scoot est d'une grande complexité, car elle prend en compte par exemple la localisation géographique. Au final, l'applicatif Scoot ne ressemble plus du tout à notre site ! «Chasseurs de moteurs». -- Quel est votre sentiment concernant le mode annuaire (type Yahoo). Ont-ils encore un bel avenir devant eux face à la concurrence des moteurs ou métachercheurs qui s'affirment ? François Bourdoncle. -- Je pense que des bases de données de type Yahoo sont indispensables (un peu comme les pages jaunes) mais que les moteurs le sont tout autant. Cest pour cela qu'une technologie comme celle d'Exalead, qui unifie les deux modes de recherche d'information est particulièrement adaptée. «Chasseurs de moteurs». -- Vous naviguez combien de temps en moyenne par semaine ? François Bourdoncle. -- Difficile à dire ! J'utilise beaucoup de moteurs de recherche, et je surfe assez peu. Je suis donc un grand client de notre propre techno. ================================================================== o Equipe de «Chasseurs» -- Thomas BERTRAND thomas_bertrand@chasseurs-de-moteurs.net http://www.bertrand-thomas.nom.fr/ -- Chris HEDE chris_hede@chasseurs-de-moteurs.net http://www.enfin.com/ -- François PAINBLANC francois_painblanc@chasseurs-de-moteurs.net o ATTENTION La liste des abonnés n'est pas disponible. Nous ne la donnons ni ne la revendons à personne. En revanche, vous pouvez sponsoriser notre lettre d'information : contactez-nous pour discuter des modalités. o Les archives sont disponibles à http://www.chasseurs-de-moteurs.net/f_archives.html http://www.enfin.com/chasseurs/ o Abonnement à http://www.sqlfusion.com/formfusion/subscribe.php3?numlist=28 o Désabonnement à http://www.sqlfusion.com/formfusion/remove.php3?numlist=28 ================================================================== (C)opyright 1999-2001 - Chasseurs-de-moteurs.net ==================================================================