Rechercher de l'information sur le web
avec
les moteurs de recherche

 

Le web est vaste, il constitue une sorte de méta bibliothèque de l'humanité. On peut y trouver presque tout. Il n'a ni début ni fin. Les liens entre pages web créent un labyrinthe jamais figé dans un espace à de nombreuses dimensions, labyrinthe comportant des parties non reliées entre elles. Le web est riche de milliards de pages, placées là par qui le veut quand il le veut. Cette profusion librement anarchique fait la richesse inouïe du web, mais rend la recherche d'information très difficile : il n'existe aucun centre du web, aucun annuaire comparable à celui du téléphone. Puis, une fois l'information localisée par son adresse, son url, il reste à en déterminer la véracité et la pertinence...

Le palliatif à cette situation nous est fourni par… le web, bien sur ! Le web comporte des moteurs de recherche, plusieurs centaines. Mais seuls quelques uns sont d'usage généralisé.

 

Une première expérience

Intéressé par les microprocesseurs vous voulez mieux comprendre la physique des semiconducteurs, sans devoir lire un gros ouvrage savant ? Eh bien cherchez sur le web un texte de vulgarisation scientifique facile à lire.
Pour cela, lancez le moteur Google. Dans les salles en libre service de l'école, le bouton d' Internet Explorer est configuré pour lancer Google.

Tapez comme clé de recherche l'expression :   Guide to Semiconductor   .

NB : chez vous, sur votre PC personnel, vous installerez plutôt FireFox, qui permet de lancer la recherche d'un seul clic

 

Un second essai

Internet c'est le plus beau jouet jamais inventé par l'homme, mais surtout c'est le moyen d'information qui nous intègre dans le grand village planétaire. La rumeur ci dessous a circulé sur internet :

<< Il parait que le gouvernement Russe a loué la station Mir
à un fabriquant de cola (Pepsi) pour tourner une pub. ! >>.

Pour vérifier ou infirmer cette rumeur, lancer Google et taper comme clé de recherche les mots : mir cola
Plus de 70 000 pages web contiennent ces deux mots, c'est humainement inexploitable ! Comment affiner la recherche ?
En restreignant la recherche aux pages en français, l'on obtient quelques centaines de pages. C'est encore trop.
Le recherche peut être mieux ciblée en tapant mir "pepsi cola", ce qui signifie que l'on demande les pages contenant le mot "mir" et l'expression "pepsi cola" . Les informations cherchées figurent dans les résultats. Les différents liens permettent de recouper l'information et de la valider.

 

Rechercher des sites par un mot dans le texte

Votre nom est-il connu sur le web ? Essayer d'abord avec votre patronyme.
S'il y a trop de réponses, préciser la question en cherchant "Prénom Nom".
Comparez les résultats de différents moteurs.

Le moteur Google est la référence actuelle :
www.google.fr

eh ! oh ! tout petit mais redoutablement efficace :
eo.st

Ask, moteur en "langage naturel" :
www.ask.com

Kartoo, moteur "sémantique" :
www.kartoo.com

Exalead, moteur "européen" :
www.exalead.fr

ixquick, "métamoteur" rapide. Il interroge rapidement 11 moteurs et présente la synthèse des résultats :
us.ixquick.com/fra

Cherchez sur ixquick des informations sur votre ville d'origine.

 

Il apparaît clairement que le mode de recherche par mots clés de ces moteurs produit des résultats ambigus. Cela s'explique, car la recherche ne tient compte que de la syntaxe, c'est à dire de la façon dont s'écrivent les mots. Or nous nous attendions à des résultats tenant compte de la sémantique. Un exemple flagrant serait de rechercher de l'information sur les pommes aux USA, en tapant le mot "apple". Les résultats de la recherche concerneront alors essentiellement la société Apple... Certains pensent à futur web sémantique.

 

En attendant ce web sémantique, entraînons-nous à la méthodologie de recherche sur le web d'aujourd'hui avec l'aide des adresses de moteurs et des indications données ci-dessous.

  1. Que sont l'ataraxie ?   la callipédie ?   la rudologie ?   le noumène ?   l'acédie ?   un apophtegme  ?   le misonéisme ?  La pareidolie ? Le népotisme est-il abbhorré ? Qu'est-ce que s’essorer ? conculquer ,   Que préférez-vous, pampilles et nacrées, guipure et pampilles, ou pampilles de chêvre ? Seriez-vous un adepte sans le savoir de la kittoneconnectophilie ? Quel rapport entre un royaliste et et un sarcocyste ?
    Quels sont des synonymes d'intégrer ? 
    Quel est le contraire d'un pléonasme ?
    Le suicide des lemmings se produit-il chaque année ?
    Que dire de "Fidelity MultiManager Growth Portfolio" ("Fidelity - MMgr Growth Portfolio" pour les intimes) ?
    Aurait-il été préfarable de procrastiner ces recherches ? Et pour finir où placer le colophon ?
  2. Rechercher de l'information sur les rhinogrades et la recouper (recherche par mot clé, avec le moteur www.google.fr)
  3. Rechercher un dictionnaire wallon (recherche d'un thème dans l'annuaire www.yahoo.fr)
  4. Rechercher un magazine de SF (recherche dans le portail www.bonweb.com)
  5. Rechercher les pages "proches" concernant "alain tisserant", avec l'analyseur sémantique www.kartoo.com
  6. Rechercher la réponse à la question "comment lire des pages web en langue arabe", avec le moteur en langage naturel www.ask.com
  7. Tester les traducteurs en ligne : traduire un texte, puis le retraduire dans sa langue d'origine. Conclusion ?
  8. Les pages web peuvent contenir des modules animés "flash" : www.miniclip.com

 

Rechercher des sites par un thème

Yahoo est le plus connu des annuaires, moteurs thématiques :
www.yahoo.fr pour la francophonie, www.yahoo.com pour le reste du monde
Que contient le web à propos votre hobby préféré ?

Un autre mode de recherche consiste à utiliser un portail comme bonweb :
www.bonweb.com

Rechercher des sites sur des cartes géographiques

Virtual Tourist, particulièrement convivial :
www.vtourist.com/webmap
Quels sites sont proches de votre domicile ?

Il y a des centaines de moteurs de recherche sur le web...

Et aussi des annuaires de moteurs, comme Beaucoup :
www.beaucoup.com

Et des moteurs "intelligents" (c'est à dire un peu moins rudimentaires que les autres). Essayez donc Ask Jeeves !
www.askjeeves.com
ou Albert
www.albert-inc.com

Et encore des moteurs qui cartographient les relations sémantiques, comme Kartoo :
www.kartoo.com

Et il y a aussi des moteurs pour d'autres recherches

L'annuaire téléphonique de France Télécom :
www.voila.fr/PJ/voilapb.html

L'annuaire inverse :
http://www.infobel.com/france/wp/revsearch/

 

Les moteurs de recherche, commen ça marche ?

Chacun des internautes peut à son gré ajouter une page, ou en retirer une autre. Sur le web il n'y a pas l'équivalent de l'annuaire du téléphone. Il n'y en aura jamais car ce serait tuer la créativité. Pour trouver l'adresse d'une page traitant d'un sujet donné, le web apporte sa propre solution interne, les moteurs de recherche. Nous avons vu qu'il en existe de deux grands types, les annuaires, moteurs thématiques, de type pages jaunes, et les moteurs par mots clés, de type pages blanches.

Prenons le cas d'un moteur par mots clés, comme Google. Un moteur de recherche est un logiciel d'accès à une base de données décrivant le contenu des pages du web. A partir d'un mot, appelé mot-clé, le logiciel est capable d'extraire de la base de données la description de toutes les pages contenant ce mot. Mais le moteur de recherche doit aussi se construire sa base de données. Pour construire cette base de données, il n'y a pas d'autre recours que de regarder toutes les pages du web les unes après les autres, d'en construire la liste et de noter en regard de l'adresse de chaque page les mots et phases y apparaissant. Ces mots et phrases seront ensuite classés, indexés, pour construire la « liste inverse » donnant les adresses des pages où chaque mot intervient.

Comment scruter toutes les pages du web ? D'abord en demandant aux internautes de donner au moteur l'adresse des pages qu'ils créent, cela s'appelle soumettre sa page au moteur. Puis en ayant un programme fouineur qui va aller regarder toutes les pages accessibles par un lien depuis la nouvelle page. Et ce programme fouineur devra agir récursivement, pour aller regarder toutes les pages accessibles par un lien depuis chaque page liée à la nouvelle page. A force de parcourir ces liens de niveau 2, 3, N, le programme aura rapidement examiné toutes les pages d'un site et toutes les pages des sites référencés par ce premier site, et ainsi de suite. Ce n'est que celà un moteur de recherche ? Pas tout à fait car chaque internaute peut modifier à tout moment ses pages. Alors le programme fouineur devra être un robot qui recommence inlassablement sa tâche, toute page à peine scrutée pouvant déjà être modifiée. Dans la pratique les robots d'indexation examinent toutes les pages avec une périodicité allant de quotidien à mensuel. Sur Google, le robot parcourt le web tous les mois.

La liste des pages obtenues en réponse à une interrogation par mots clés sera ensuite présentée classée d'une certaine façon, en enlevant les doublons, et en rangeant par ordre de pertinence de la page. La "pertinence" peut être liée au nombre de fois où le mot clé apparaît dans la page, à l'emplacement du mot clé (dans le nom de domaine, dans le titre, dans la page, dans un lien), ou encore par ordre de notoriété (nombre de liens la référençant).

Il existe aujourd'hui des milliers de moteurs de recherche, mais seulement une cinquantaine sont vraiment exhaustifs. Ce qui distingue ces moteurs entre eux c'est le volume des références, variant de trois milliards à quelques milliers, lla pertinence des réponses, lla rapidité des réponses, l'ergonomie ou le charme de l'interface. Ainsi les « grands » moteurs, Google, Yahoo, AltaVista, Lycos, Alletheweb, HotBot, Voila sont tous différents les uns des autres et ont chacun leur public fidèle. La méthodologie de classement employée par chaque moteur fait que les résultats présentés à l'écran seront significativement différents. Alors l'internaute interrogeant un moteur de recherche ira systématiquement en interroger d'autres avant de conclure à l'exhaustivité des réponses.

Dans le cas des moteurs thématiques, comme Yahoo, l'internaute soumettant sa page devra indiquer quels thèmes y sont traités. Et des humains iront vérifier manuellement la pertinence de la classification proposée.

 

Le problème de la langue

Et si les pages trouvées sont dans une langue inconnue ? L'essentiel des pages des web a beau être en broken english, il y tout de même d'autres langues, dont le français ! Là aussi le web propose sa propre solution interne, les robots de traduction.

Google propose un service de traduction automatique de pages web, essayons-le. Altavista propose le service Babelfish, essayons-le aussi.

 

 

Evaluation des moteurs de recherche sur le web

Supposons que nous désirions nous offrir pour Noël un aquarium. Mais nous n'y connaissons à peu près rien… Voyons ce que peut nous apprendre le web. Les points d'entrée appropriés dans la toile sont les moteurs de recherche.

D'abord Yahoo ! (www.yahoo.fr), outil de recherche de type semblable aux pages jaunes de l'annuaire du téléphone. Plusieurs paragraphes dans l'annuaire Yahoo paraissent référencer de l'information pertinente :

  • des listes de sites de commerçants en aquariums
  • des sites dédiés à l'aquariophilie et aux poissons d'aquarium

Nous obtenons ainsi quelques dizaines de sites. C'est déjà beaucoup à parcourir ! Après examen de trois ou quatre sites, nous avons déjà une première vue d'ensemble de l'aquariophilie. Cela donne envie d'en savoir plus sur quelques poissons tropicaux d'eau douce, dont la première description a paru attrayante :

  • les poecilia reticulata, nommés aussi guppy, qui se reproduiraient facilement
  • les kryptoptérus bicirrhis, ou silures de verre, poissons transparents
  • les plécostomus punctatus, nommés aussi pléco, pour nettoyer l'aquarium

Mais aucun site web répertorié par Yahoo n'est dédié à l'un de ces poissons, le thème est trop étroit. Nous allons donc rechercher non plus des sites entiers, mais des pages où ces poissons sont cités. Il nous faut un moteur recherchant la présence de mots clés, fonctionnant en texte intégral sur l'ensemble des pages du web.

Sur Google, une recherche sur le mot "aquarium" donne des dizaines de milliers de références. C'est à peu près inexploitable. Les moteurs de recherche en texte intégral ne sont pas faits pour des thèmes généraux, il faut affiner la recherche avec des mots clés de plus en plus précis, jusqu'à ne plus obtenir que quelques dizaines de sites.

Par contre les recherches sur les noms des poissons donnent un nombre de sites trouvés nettement plus limité, exploitable. Et là, les moteurs de type annuaire étaient inefficaces.

 

La recherche simple par mots clés

Lancer une recherche sur grande ecole a nancy va produire des centaines de milleirs de références, car le moteur va trouver toutes les pages contenant soit le mot « grande », soit l'un des autres mots. Il va aussi produire toutes les pages personnes des américaines dont le prénom est « nancy » !

Il existe quelques règles simples permettant d'augmenter notoirement la précision de la recherche. Ces règles diffèrent d'un moteur à l'autre, nous allons examiner celles de AltaVista.

Les majuscules. Toute lettre de mot clé donnée en majuscule provoque une recherche sur les mots ayant aussi la lettre en majuscules. Alors que la lettre introduite en minuscule permettra de trouver les mots l'ayant indifféremment en minuscule ou en majuscule.

Plusieurs mots clés. Mettre plusieurs mots clés à la suite signifie demander de rechercher les pages ou un, deux ou plus des mots apparaissent. Dans la liste des préférences que produira le moteur, les pages citées en premier seront celles ou un maximum des mots clés apparaît, donc probablement les plus pertinentes.

Guillemets. Mettre une phrase entre guillemets lance la recherche des pages contenant exactement cette phrase. Essayer avec grande ecole a Nancy donnera une multitude de références, alors que "grande ecole" a Nancy va mieux cibler les pages pertinentes.

Plus. Le signe + mis devant un mot clé ou une phrase entre guillement limite la recherche aux pages où ce mot apparait effectivement. "grande ecole" +Nancy va encore mieux cibler les pages pertinentes.

Moins. Le signe - mis devant un mot clé ou une phrase entre guillement limite la recherche aux pages ne contenant pas ce mot. "grande ecole" +Nancy -"art nouveau" va enlever du résultat les pages traitant du mouvement artistique dit de l'Ecole de Nancy.

Etoile. Placer une étoile dans un mot clé remplace une ou plusieurs lettres. Rechercher rad* référence tous les mots radon, radeau, radical, radoub, radoter, etc. Il doit y avoir au moins trois lettres avant l'étoile.

Caractères accentués. Entrer un caractère accentué dans un mot clé limite la recherche aux mots avec exactement le même accent. Si le caractère est en majuscule, la recherche est aussi limitée aux caractères majusctules. Par contre entrer e lance la recherche sur e é è ê ë E É Ê Ë etc.

 

La recherche avancée

Opérateurs. Les opérateurs AND OR NOT NEAR agissent avec leur signification habituelle dans les requêtes d'interrogation des bases de données. Des précisions supplémentaires sont données dans l'aide en ligne de AltaVista, à l'URL www.altavista.com/cgi-bin/query?mss=fr/help_advanced_operators&country=fr

Mots structurants. Ces mots indiquent que le mot clé doit être recheché dans un élément particulier de la page : le titre, un lien, l'adresse, etc. Par exemple rechercher title:corrigé AND title:hanoï permet de rechercher une page dont le titre mentionne le corrigé du problème des tours de Hanoï.

Les principaux mots structurants de AltaVista pour le web sont :

anchor: référence le texte d'un lien.

applet: référence le nom d'un applet Java

domain: référence un domaine précis. Par exemple domain:fr limite la recherche aux sites de France

host: référence les pages sur un ordinateur précis. Exemple : host:eleves.mines.u-nancy.fr

image: référence des noms d'images. image:âne va trouver des photos d'ânes.

link: référence l'adresse contenue dans un lien. link:eleves.mines.u-nancy.fr/~glob recherche les documents contenant un lien vers la page d'accueil de l'élève Glob.

title: référence le titre de la page.

 

404 - Les messages d'erreur

Les moteurs produisent des listes d'adresses, c'est bien, mais le web est en perpétuel remaniement alors certaines pages référencées ne sont plus forcément en ligne... Accéder à une page retirée du web produit l'erreur 404. Cependant le fait qu'une page soit inaccessible à un moment donné n'implique pas nécessairement qu'elle aie été retirée du web, le serveur web peut-être "planté" ou en maintenance, le réseau peut être saturé, etc.
Voici les messages d'erreur qui peuvent apparaître :

Message d'erreur

Signification

200 ou 202

ce n'est pas une erreur : URL correcte

301

Erreur de redirection sur le serveur : Déplacé définitivement

302

Erreur de redirection sur le serveur : Déplacé temporairement

400

Mauvaise requête (erreur de syntaxe dans la methode d'acces au serveur http)

401

Accès non autorisé

402

Accès payant

403

Accès interdit

404

Site introuvable

405

Méthode non supportée

407

Authentification proxy exigée

408

Lenteur du réseau (time out)

409

Conflit

500

Erreur interne du serveur

501

Programme absent

502

Mauvaise passerelle

503

Service indisponible momentanément

504

La passerelle met trop de temps à répondre

505

Version HTTP non reconnue



Les erreurs 400-499 sont des erreurs provenant du client, parce que les requêtes sont incompletes.
Les erreurs 500-599 sont des erreurs du serveur.

Enfin, le thème "les moteurs d'internet", ne serait pas complet sans citer cet article du journal "Le Micro Bulletin Actu En Ligne" n° 81, édition du jeudi 30 octobre 1997 :

Le sexe, moteur d'Internet
 
" Le sexe est, largement devant tout autre sujet, la principale préoccupation des utilisateurs du réseau Internet ", indique une étude publiée dans la dernière édition de la revue britannique Web magazine. Toutes les deux secondes, un internaute demande d'une manière ou d'une autre à consulter un site portant sur le sexe. Cependant, les toutes dernières tendances indiquent que l'érotisme et la pornographie pourraient bientôt être détrônés par une tout autre activité: le shopping. Avec l'arrivée de davantage de femmes dans la communauté des internautes, le shopping devrait bientôt dépasser le sexe, selon Mike Cowley, rédacteur en chef de Web magazine.

 

Tous les moteurs et annuaires du monde

Le site "Country search engines and Regional Search Engines" http://www.philb.com/countryse.htm répertorie plus de 2 600 moteurs et annuaires provenant de 216 pays (en anglais, accès gratuit).

 


Ecole des Mines de Nancy

Document : www.mines.u-nancy.fr/~tisseran/cours/internet/rechercher
Mars 1997 - Mise à jour février 2007
Alain TISSERANT e-mail : Alain.Tisserant@mines.inpl-nancy.fr