13 November 2015

Le Web Caché, ou pourquoi être indexé par un moteur de recherche ne va pas de soi

Chez WebServiceMarketing, SEO oblige, nous vous parlons habituellement d’apparition dans les premiers résultats de recherche. Mais revenons aux origines : avant d’être visible, il faut être présent dans les résultats. Faisons un tour de l’autre côté du miroir, dans le Web invisible, pour comprendre pourquoi l’indexation est loin d’être évidente.

Google et les autres moteurs de recherche sont des outils bien pratiques pour explorer le web. Cependant, ils n’en offrent qu’un aperçu puisqu’on estime qu’ils donnent accès à seulement 25% du contenu internet existant.
Les 75% restant constituent ainsi ce que l’on appelle le Web Caché, le Web invisible ou encore le Web profond (en anglais, Deep web), par opposition au Web surfacique (les 25% indexés par les moteurs de recherche).

Pourquoi cette partie du Web n’est-elle pas indexée ?
Il y a deux obstacles principaux à l’indexation d’une page internet par les moteurs de recherche:

Souvent, cela est dû à de simples raisons « techniques » internes au site: la manière dont a été conçu le site fait qu’il ne peut être lu par le Web crawler (robot des moteurs de recherche qui détecte et analyse les pages présentes sur le web). C’est le cas :

- Lorsqu’un site contient des pages dynamiques, où les hyperliens ne sont pas statiques mais générés à la demande. Chaque visite sur la page génère donc des hyperliens qui sont propres à cette visite : le Web crawler ne peut donc pas prévoir quels liens vont apparaître, et par conséquent, ne peut indexer ces liens.
- Lorsqu’un site n’est accessible que par authentification (identifiant et mot de passe)
- Lorsque le langage utilisé est peu courant ou inclut des éléments particuliers : utilisation de Javascript ou Ajax ; ou encore avec HTML, remplacer des éléments body par des éléments frameset , utiliser un fichier robot.txt

La relation de la page avec l’extérieur peut également causer une non-indexation : Si aucun lien ne redirige vers une page, elle n’a aucune « porte d’entrée » et donc, ne peut être détectée par le moteur de recherche. Elle est bien présente sur le web, mais le seul moyen d’y accéder est d’en connaître l’URL, parce qu’elle est dépourvue de « backlinks » (voir notre précédent article sur le Link building)

Il ne suffit donc pas de créer un site web pour être accessible depuis un moteur de recherche, encore moins pour être visible en premier sur les résultats de recherches.

De nombreux webmasters l’ont compris : un procédé classique pour être indexé consiste donc à faire appel à des agences spécialisées dans le SEO qui, en plus de rendre vos pages accessibles par moteur de recherche, en amélioreront le référencement.Il ne suffit donc pas de créer un site web pour être accessible depuis un moteur de recherche, encore moins pour être visible en premier sur les résultats de recherches.
De nombreux webmasters l’ont compris : un procédé classique pour être indexé consiste donc à faire appel à des agences spécialisées dans le SEO qui, en plus de rendre vos pages accessibles par moteur de recherche, en amélioreront le référencement.

Note: Cet article est largement inspiré de Wikipedia, nous vous invitons à lire l'article original.

4 comments: