Le web est vaste, il constitue une sorte de méta bibliothèque de l'humanité. On peut y trouver presque tout. Il n'a ni début ni fin. Les liens entre pages web créent un labyrinthe jamais figé dans un espace à de nombreuses dimensions, labyrinthe comportant des parties non reliées entre elles. Le web est riche de milliards de pages, placées là par qui le veut quand il le veut. Cette profusion librement anarchique fait la richesse inouïe du web, mais rend la recherche d'information très difficile : il n'existe aucun centre du web, aucun annuaire comparable à celui du téléphone. Puis, une fois l'information localisée par son adresse, son url, il reste à en déterminer la véracité et la pertinence... Le palliatif à cette situation nous est fourni par le web, bien sur ! Le web comporte des moteurs de recherche, plusieurs centaines. Mais seuls quelques uns sont d'usage généralisé.
Une première expérienceIntéressé par les microprocesseurs vous voulez mieux comprendre
la physique des semiconducteurs, sans devoir lire un gros ouvrage savant ?
Eh bien cherchez sur le web un texte de vulgarisation scientifique facile
à lire.
NB : chez vous, sur votre PC personnel, vous installerez plutôt
FireFox, qui permet de lancer la recherche d'un seul clic
Un second essaiInternet c'est le plus beau jouet jamais inventé par l'homme, mais surtout c'est le moyen d'information qui nous intègre dans le grand village planétaire. La rumeur ci dessous a circulé sur internet :
Rechercher des sites par un mot dans le texteVotre nom est-il connu sur le web ? Essayer d'abord avec votre patronyme.
Il apparaît clairement que le mode de recherche par mots clés de ces moteurs produit des résultats ambigus. Cela s'explique, car la recherche ne tient compte que de la syntaxe, c'est à dire de la façon dont s'écrivent les mots. Or nous nous attendions à des résultats tenant compte de la sémantique. Un exemple flagrant serait de rechercher de l'information sur les pommes aux USA, en tapant le mot "apple". Les résultats de la recherche concerneront alors essentiellement la société Apple... Certains pensent à futur web sémantique.
En attendant ce web sémantique, entraînons-nous à la méthodologie de recherche sur le web d'aujourd'hui avec l'aide des adresses de moteurs et des indications données ci-dessous.
Rechercher des sites par un thème
|
|
|
|
|
|
|
|
|
Virtual Tourist, particulièrement convivial : |
|
|
Et aussi des annuaires de moteurs, comme Beaucoup : |
|
|
|
www.kartoo.com |
|
|
L'annuaire téléphonique de France Télécom
: |
| L'annuaire inverse : http://www.infobel.com/france/wp/revsearch/ |
Chacun des internautes peut à son gré ajouter une page, ou en retirer une autre. Sur le web il n'y a pas l'équivalent de l'annuaire du téléphone. Il n'y en aura jamais car ce serait tuer la créativité. Pour trouver l'adresse d'une page traitant d'un sujet donné, le web apporte sa propre solution interne, les moteurs de recherche. Nous avons vu qu'il en existe de deux grands types, les annuaires, moteurs thématiques, de type pages jaunes, et les moteurs par mots clés, de type pages blanches.
Prenons le cas d'un moteur par mots clés, comme Google. Un moteur de recherche est un logiciel d'accès à une base de données décrivant le contenu des pages du web. A partir d'un mot, appelé mot-clé, le logiciel est capable d'extraire de la base de données la description de toutes les pages contenant ce mot. Mais le moteur de recherche doit aussi se construire sa base de données. Pour construire cette base de données, il n'y a pas d'autre recours que de regarder toutes les pages du web les unes après les autres, d'en construire la liste et de noter en regard de l'adresse de chaque page les mots et phases y apparaissant. Ces mots et phrases seront ensuite classés, indexés, pour construire la « liste inverse » donnant les adresses des pages où chaque mot intervient.
Comment scruter toutes les pages du web ? D'abord en demandant aux internautes de donner au moteur l'adresse des pages qu'ils créent, cela s'appelle soumettre sa page au moteur. Puis en ayant un programme fouineur qui va aller regarder toutes les pages accessibles par un lien depuis la nouvelle page. Et ce programme fouineur devra agir récursivement, pour aller regarder toutes les pages accessibles par un lien depuis chaque page liée à la nouvelle page. A force de parcourir ces liens de niveau 2, 3, N, le programme aura rapidement examiné toutes les pages d'un site et toutes les pages des sites référencés par ce premier site, et ainsi de suite. Ce n'est que celà un moteur de recherche ? Pas tout à fait car chaque internaute peut modifier à tout moment ses pages. Alors le programme fouineur devra être un robot qui recommence inlassablement sa tâche, toute page à peine scrutée pouvant déjà être modifiée. Dans la pratique les robots d'indexation examinent toutes les pages avec une périodicité allant de quotidien à mensuel. Sur Google, le robot parcourt le web tous les mois.
La liste des pages obtenues en réponse à une interrogation par mots clés sera ensuite présentée classée d'une certaine façon, en enlevant les doublons, et en rangeant par ordre de pertinence de la page. La "pertinence" peut être liée au nombre de fois où le mot clé apparaît dans la page, à l'emplacement du mot clé (dans le nom de domaine, dans le titre, dans la page, dans un lien), ou encore par ordre de notoriété (nombre de liens la référençant).
Il existe aujourd'hui des milliers de moteurs de recherche, mais seulement une cinquantaine sont vraiment exhaustifs. Ce qui distingue ces moteurs entre eux c'est le volume des références, variant de trois milliards à quelques milliers, lla pertinence des réponses, lla rapidité des réponses, l'ergonomie ou le charme de l'interface. Ainsi les « grands » moteurs, Google, Yahoo, AltaVista, Lycos, Alletheweb, HotBot, Voila sont tous différents les uns des autres et ont chacun leur public fidèle. La méthodologie de classement employée par chaque moteur fait que les résultats présentés à l'écran seront significativement différents. Alors l'internaute interrogeant un moteur de recherche ira systématiquement en interroger d'autres avant de conclure à l'exhaustivité des réponses.
Dans le cas des moteurs thématiques, comme Yahoo, l'internaute soumettant sa page devra indiquer quels thèmes y sont traités. Et des humains iront vérifier manuellement la pertinence de la classification proposée.
Et si les pages trouvées sont dans une langue inconnue ? L'essentiel des pages des web a beau être en broken english, il y tout de même d'autres langues, dont le français ! Là aussi le web propose sa propre solution interne, les robots de traduction.
Google propose un service de traduction automatique de pages web,
essayons-le. Altavista propose le service Babelfish,
essayons-le aussi.
Supposons que nous
désirions nous offrir pour Noël un aquarium. Mais nous n'y
connaissons à peu près rien
Voyons ce que peut nous
apprendre le web. Les points d'entrée appropriés dans la
toile sont les moteurs de recherche.
D'abord Yahoo ! (www.yahoo.fr), outil de recherche de type semblable aux pages jaunes de l'annuaire du téléphone. Plusieurs paragraphes dans l'annuaire Yahoo paraissent référencer de l'information pertinente :
Nous obtenons ainsi quelques dizaines de sites. C'est déjà beaucoup à parcourir ! Après examen de trois ou quatre sites, nous avons déjà une première vue d'ensemble de l'aquariophilie. Cela donne envie d'en savoir plus sur quelques poissons tropicaux d'eau douce, dont la première description a paru attrayante :
Mais aucun site web répertorié par Yahoo n'est dédié à l'un de ces poissons, le thème est trop étroit. Nous allons donc rechercher non plus des sites entiers, mais des pages où ces poissons sont cités. Il nous faut un moteur recherchant la présence de mots clés, fonctionnant en texte intégral sur l'ensemble des pages du web.
Sur Google, une recherche sur le mot "aquarium" donne des dizaines de milliers de références. C'est à peu près inexploitable. Les moteurs de recherche en texte intégral ne sont pas faits pour des thèmes généraux, il faut affiner la recherche avec des mots clés de plus en plus précis, jusqu'à ne plus obtenir que quelques dizaines de sites.
Par contre les recherches sur les noms des poissons donnent un nombre de sites trouvés nettement plus limité, exploitable. Et là, les moteurs de type annuaire étaient inefficaces.
Lancer une recherche sur grande ecole a nancy va produire des centaines de milleirs de références, car le moteur va trouver toutes les pages contenant soit le mot « grande », soit l'un des autres mots. Il va aussi produire toutes les pages personnes des américaines dont le prénom est « nancy » !
Il existe quelques règles simples permettant d'augmenter notoirement la précision de la recherche. Ces règles diffèrent d'un moteur à l'autre, nous allons examiner celles de AltaVista.
Les majuscules. Toute lettre de mot clé donnée en majuscule provoque une recherche sur les mots ayant aussi la lettre en majuscules. Alors que la lettre introduite en minuscule permettra de trouver les mots l'ayant indifféremment en minuscule ou en majuscule.
Plusieurs mots clés. Mettre plusieurs mots clés à la suite signifie demander de rechercher les pages ou un, deux ou plus des mots apparaissent. Dans la liste des préférences que produira le moteur, les pages citées en premier seront celles ou un maximum des mots clés apparaît, donc probablement les plus pertinentes.
Guillemets. Mettre une phrase entre guillemets lance la recherche des pages contenant exactement cette phrase. Essayer avec grande ecole a Nancy donnera une multitude de références, alors que "grande ecole" a Nancy va mieux cibler les pages pertinentes.
Plus. Le signe + mis devant un mot clé ou une phrase entre guillement limite la recherche aux pages où ce mot apparait effectivement. "grande ecole" +Nancy va encore mieux cibler les pages pertinentes.
Moins. Le signe - mis devant un mot clé ou une phrase entre guillement limite la recherche aux pages ne contenant pas ce mot. "grande ecole" +Nancy -"art nouveau" va enlever du résultat les pages traitant du mouvement artistique dit de l'Ecole de Nancy.
Etoile. Placer une étoile dans un mot clé remplace une ou plusieurs lettres. Rechercher rad* référence tous les mots radon, radeau, radical, radoub, radoter, etc. Il doit y avoir au moins trois lettres avant l'étoile.
Caractères accentués. Entrer un caractère accentué dans un mot clé limite la recherche aux mots avec exactement le même accent. Si le caractère est en majuscule, la recherche est aussi limitée aux caractères majusctules. Par contre entrer e lance la recherche sur e é è ê ë E É Ê Ë etc.
Opérateurs. Les opérateurs AND OR NOT NEAR agissent avec leur signification habituelle dans les requêtes d'interrogation des bases de données. Des précisions supplémentaires sont données dans l'aide en ligne de AltaVista, à l'URL www.altavista.com/cgi-bin/query?mss=fr/help_advanced_operators&country=fr
Mots structurants. Ces mots indiquent que le mot clé doit être recheché dans un élément particulier de la page : le titre, un lien, l'adresse, etc. Par exemple rechercher title:corrigé AND title:hanoï permet de rechercher une page dont le titre mentionne le corrigé du problème des tours de Hanoï.
Les principaux mots structurants de AltaVista pour le web sont :
anchor: référence le texte d'un lien.applet: référence le nom d'un applet Java
domain: référence un domaine précis. Par exemple domain:fr limite la recherche aux sites de France
host: référence les pages sur un ordinateur précis. Exemple : host:eleves.mines.u-nancy.fr
image: référence des noms d'images. image:âne va trouver des photos d'ânes.
link: référence l'adresse contenue dans un lien. link:eleves.mines.u-nancy.fr/~glob recherche les documents contenant un lien vers la page d'accueil de l'élève Glob.
title: référence le titre de la page.
|
Message d'erreur |
Signification |
|
|
200 ou 202 |
ce n'est pas une erreur : URL correcte |
|
|
301 |
Erreur de redirection sur le serveur : Déplacé définitivement |
|
|
302 |
Erreur de redirection sur le serveur : Déplacé temporairement |
|
|
400 |
Mauvaise requête (erreur de syntaxe dans la methode d'acces au serveur http) |
|
|
401 |
Accès non autorisé |
|
|
402 |
Accès payant |
|
|
403 |
Accès interdit |
|
|
404 |
Site introuvable |
|
|
405 |
Méthode non supportée |
|
|
407 |
Authentification proxy exigée |
|
|
408 |
Lenteur du réseau (time out) |
|
|
409 |
Conflit |
|
|
500 |
Erreur interne du serveur |
|
|
501 |
Programme absent |
|
|
502 |
Mauvaise passerelle |
|
|
503 |
Service indisponible momentanément |
|
|
504 |
La passerelle met trop de temps à répondre |
|
|
505 |
Version HTTP non reconnue |
Les erreurs 400-499 sont des erreurs provenant du client, parce que les
requêtes sont incompletes.
Les erreurs 500-599 sont des erreurs du serveur.
Enfin, le thème "les moteurs d'internet", ne serait pas complet sans citer cet article du journal "Le Micro Bulletin Actu En Ligne" n° 81, édition du jeudi 30 octobre 1997 :
Le site "Country search engines and Regional Search Engines" http://www.philb.com/countryse.htm répertorie plus de 2 600 moteurs et annuaires provenant de 216 pays (en anglais, accès gratuit).
Document : www.mines.u-nancy.fr/~tisseran/cours/internet/rechercher
Mars 1997 - Mise à jour février 2007
Alain
TISSERANT e-mail : Alain.Tisserant@mines.inpl-nancy.fr