fonctionnement du moteur de recherche google
Benjamin Bar
Benjamin Bar

Consultant SEO Freelance depuis 2010.

Facebook
Twitter
LinkedIn

Comment fonctionne la recherche Google ? 

Comprendre comment fonctionne le SEO requiert d’abord que vous compreniez comment fonctionne la recherche Google. Beaucoup d’inquiétudes et de questions restées sans réponses pourraient être évitées. Dans cet article, je souhaite vous expliquer comment le moteur de recherche Google fonctionne. Mon intention est qu’à l’issue de votre lecture vous soyez plus à même de comprendre les mouvements des pages de votre site internet et pourquoi certains d’entre vous ne sont pas bien référencés sur les moteurs de recherche. 

Comment fonctionne la recherche Google ? 

Le moteur de recherche Google s’appuie sur des logiciels d’exploration que l’on appelle crawler, robots d’exploration, bots ou encore spider. Ces robots ont pour mission d’explorer le web en suivant les liens html qui se trouvent sur les pages des sites internet. Cette exploration automatisée des urls par le moteur de recherche lui permet d’identifier celles qui sont pertinentes pour être incluses dans son index. 

Pour schématiser le fonctionnement de la recherche Google, on peut la décrire en 3 étapes clés que sont : 

  1. L’exploration des pages web à partir des liens html
  2. L’indexation des urls répondant à l’intérêt du moteur de recherche
  3. Le traitement et classement de ces urls selon les critères de pertinence du moteur de recherche. 

Voyons maintenant un peu plus en détail en quoi consiste ces 3 étapes. 

L’exploration des bots

Comprendre l’exploration des pages web par les robots des moteurs de recherche comme Google c’est comprendre qu’une page, une fois qu’elle est publiée, est comme jetée dans un espace sans limites. Elle n’a aucune étiquette, aucun marqueur qui la définisse. 

C’est justement le rôle du moteur de recherche que d’être en continue à la recherche de pages web qui viendraient d’être créées. Cette étape s’appelle “la détection d’URL”. Une fois une nouvelle page détectée, Google l’ajoute à son index des URL connues. 

Google détecte de nouvelles URL en suivant les liens qui sont intégrés au sein des pages web ou depuis une liste d’URL intégrée dans le sitemap. 

Google, comme n’importe quel autre moteur de recherche, possède son propre programme d’exploration qui s’appelle Googlebot. Ce programme utilise un processus d’exploration basé sur des algorithmes pour déterminer quels sites explorer, la fréquence d’exploration et le nombre de pages à extraire de chaque site.

Les robots de Google sont également programmés pour éviter de les explorer trop rapidement afin d’éviter de les surcharger. Ce mécanisme s’appuie sur les réponses du site (par exemple, erreurs HTTP 500 signifient « lent ») et sur les paramètres dans la Search Console.

Googlebot peut aussi ne pas être en mesure d’explorer une ou plusieurs pages. Le bot de Google est souvent stoppé dans son élan car une page a été interdite à l’exploration par un propriétaire de site. Des problèmes techniques au niveau d’une page peut aussi conduire Googlebot à ne pas réussir à explorer la page. 

L’indexation des pages web

Dès que le moteur de recherche va s’arrêter sur une nouvelle page qu’il ne connait pas, il va tenter d’en terminer son sujet. Cette étape s’appelle l’indexation. L’indexation du moteur de recherche inclut le traitement du contenu textuel et son analyse mais aussi le traitement et l’analyses des attributs html comme les balises title, les meta descriptions, les attributs des images, des vidéos, bref tous les éléments de contenu qui forment la page. 

Dans le même temps, le moteur de recherche va tenter de comprendre si cette page qu’il analyse est unique ou s’ il existe une autre copie quelque part ailleurs sur le web depuis l’url canonique. 

La page canonique est la page qui peut s’afficher parmi les résultats de recherche.Google commence par regrouper (il créé un cluster) les pages trouvées sur Internet qui proposent un contenu similaire à la page analysé. Il va ensuite sélectionner la page la plus représentative du groupe. 

Les autres pages du groupe sont des versions alternatives qui peuvent être diffusées dans des contextes différents, par exemple si l’utilisateur recherche depuis un appareil mobile ou recherche une page très spécifique de ce cluster.

Les informations collectées concernant la page canonique et son cluster peuvent être stockées dans l’index Google. L’indexation n’est pas garantie. Toutes les pages que Google traite ne sont pas indexées.

Traitement et classement des pages web

Dès qu’un internaute tape une expression de recherche, le moteur de recherche va rechercher toutes les pages disponibles dans son index qui sont en lien. Il va ensuite envoyer les résultats qu’il aura estimé les plus qualitatifs pour répondre à l’expression de recherche de l’internaute. 

Cette pertinence est qualifiée à partir de plus de 200 facteurs dont la zone géographique ou la langue de la requête font partie. 

Les options d’affichage dans les résultats de recherche qui apparaissent sur la page de résultats de recherche changent également en fonction de l’expression de recherche de l’utilisateur.

Vous savez désormais que le processus de recherche de Google est un mécanisme en trois étapes, et chaque page sur le web ne parvient pas toujours à franchir toutes ces étapes avec succès.

La première étape, le crawl, est lorsque Google extrait des données textuelles, visuelles et vidéo à partir des pages détectées sur Internet grâce à des programmes automatisés appelés robots de crawl.

Ensuite, durant la phase d’indexation, Google passe au crible le texte, les images et les vidéos présents sur la page, avant de stocker ces informations dans l’index Google, un immense répertoire de données.

La dernière étape du processus consiste à fournir des informations qui correspondent étroitement à sa requête. C’est la distribution des résultats de recherche.

Facebook
Twitter
LinkedIn

More to explorer

sitemap en seo

Qu’est ce qu’un fichier sitemap ?

Le sitemap est un fichier XML ou HTML qui contient tous les formats d’informations présents sur vos pages de site. Le sitemap

Submit your response

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *