Benjamin Bar
Benjamin Bar

BtoB SEO consultant / BtoB Brand Content Strategist

Facebook
Twitter
LinkedIn

Guidez les moteurs de recherche avec le fichier robots.txt

Allez c’est parti pour enfoncer une porte ouverte… vous êtes prêt ? 

Le SEO fonctionne avec 3 éléments indissociables : 

  • La technique 
  • Le contenu
  • la popularité

Globalement, vous trouverez ici et là beaucoup plus d’articles et vidéos vous parlant des techniques pour rédiger des contenus de folies ou de celles vous permettant d’acquérir des backlinks de qualité supérieure. 

Mais il faudra creuser un peu plus les recherches pour entendre parler des éléments techniques d’un site. 

Et en toute franchise, si vous avez l’intention d’améliorer ou de faire améliorer le référencement naturel de votre site, il faudra inévitablement que vous ou le consultant SEO passiez quelque temps sur la technique. 

Justement, je voudrais vous parler du fichier robots.txt. 

C’est à mon humble avis un des éléments fondamentaux qui font qu’un site est bien vu des moteurs de recherche (après que ces derniers puissent référencer le site en question, c’est une autre histoire).

J’aurais très certainement très peu de détracteurs si je vous dis qu’un des principes du SEO c’est d’abord de contrôler les contenus d’un site auquel un moteur de recherche peut accéder. Sans oublier la vitesse à laquelle le moteur de recherche peut consommer cette information. 

Et bien tout ce petit bazar passe par le paramétrage du fichier robots.txt.

Mais avant de chanter à la gloire céleste du robots.txt je vous propose d’abord de vous expliquer ce qu’il est exactement et en quoi il est utile à votre site. 

Qu’est-ce qu’un fichier robots.txt et pourquoi votre site en a besoin ?

Le fichier robots.txt, comme son nom l’indique, est un fichier qui sert à améliorer l’analyse de votre site internet par les robots des moteurs de recherche (en SEO on appelle cela le crawl). 

Le fichier va permettre de rédiger des consignes destinées aux moteurs de recherche. Ces instructions ont pour but d’indiquer aux moteurs de recherche la façon dont ils doivent explorer votre site. 

Grosso modo, vous êtes le capitaine du navire et vous dîtes ouvertement aux moteurs quelles pages de votre site ils ont le droit d’exploiter et d’afficher sur leurs pages de résultats de recherche (SERP). 

L’intérêt est de faciliter la lecture de votre site par les robots des moteurs de recherche. 

Dans le cas où votre site n’inclut pas de fichier robots.txt, les moteurs de recherche auront la liberté d’explorer l’ensemble de votre site. 

Une question vous brûle les lèvres, je le sais, je le sens. 

Comment on paramètre ce fameux fichier pour optimiser le crawl de notre site internet ? 

Je vais vous donner ici quelques pratiques simples pour que votre paramétrage se passe dans de bonnes conditions et que vous n’ayez pas de mauvaises surprises à l’arrivée. 

Dressez une liste des pages qui ne seraient pas intéressantes à afficher

Optimiser l’accès à votre site pour les moteurs de recherche commence déjà par lister les pages qui vous semble peu intéressantes. En tout cas, celles qui n’apporteraient pas de valeur ajoutée à une recherche d’internautes. 

En règle générale, on retrouve les mêmes types de pages : 

  • Page de connexion au backend du site
  • Pages de remerciement de formulaire de contact
  • Pages contenant des informations sensibles
  • Pages de recherche du site (quand il y a un moteur de recherche interne)

J’ai pu lire je ne sais plus trop où que l’utilisation du Disallow dans le fichier robots.txt suffisait à empêcher les moteurs de recherche d’indexer une page…

FAUX ! 

Si on ne veut pas qu’une page soit indexée je recommande plutôt d’ajouter une directive Noindex au sein du fichier robots.txt ou bien d’inscrire la même directive noindex dans la balise meta robots de la ou des pages concernées. 

Toutefois, si vous ajoutez une balise noindex à ces pages, assurez-vous qu’elles ne sont pas interdites dans votre fichier robots.txt – sinon, les moteurs de recherche ne pourront pas explorer ces pages et votre balise noindex sera inefficace.

Soyez le plus précis

J’en appelle à la vigilance quand on utilise la directive Disallow car il y a une possibilité que cela affecte les url qui commencent par le même chemin. Si vous souhaitez ajouter une URL à Disallow dans votre fichier robots.txt, vous devez être aussi précis que possible.

Exemple : 

User-agent : *
Disallow : /catégorie

Ce type de directive peut involontairement empêcher les crawlers d’accéder à ce qui suit :

/categorie-A
/categorie-page-A
/categorie-A.html

Encore une fois le mieux à faire pour éviter des maux de tête c’est d’inclure le chemin URL spécifique dans la section Disallow.

L’orthographe est très importante

Une faute de frappe, un caractère en trop ou en moins et c’est le drame. J’exagère mais dans les faits, ces petites fautes d’inattention perturbent la lecture du robots.txt par les bots. 

On fait aussi attention aux typographies. 

Par exemple, /marketing et /MARKETING ne seront pas automatiquement interdits si vous ajoutez simplement l’un d’entre eux sous une directive disallow. Vous devez les placer dans des lignes disallow distinctes, comme ceci :

Disallow : /marketing
Disallow : /MARKETING

Le paramètrage du fichier robots.txt n’est pas compliqué en soi mais il est strict. Une toute petite erreur de format et les bots ne peuvent ne rien comprendre au contenu du fichier et ignorer toutes vos directives. 

Évitez d’utiliser Robots.txt pour cacher le contenu dupliqué

J’en parlerai plus longtemps au détour de prochains articles mais il faut dire que le contenu dupliqué est un problème pour le référencement naturel. 

Un souci qui perturbe les moteurs de recherche dans leur choix de quel contenu a l’autorité suffisante pour répondre à une recherche. 

Selon moi, à part tenter de reprendre le ou les contenus que l’on souhaite afficher, la meilleure façon de traiter le contenu dupliqué c’est d’utiliser la balise <rel= »canonical »>.

Il y a un risque à utiliser le fichier robot.txt pour gérer le contenu dupliqué. Si vous interdisez l’indexation de pages qui reçoivent des backlinks alors vous dites CIAO au jus de lien qui circule entre le site qui vous fait un lien et votre page. 

Et en SEO, pas de jus de lien, pas de puissance transmise ni d’autorité et donc la page qui reçoit le lien perd en crédibilité aux yeux des moteurs de recherche. 

Dans ce cas, <rel= »canonical »> est l’option la plus viable, car elle consolide les signaux de liens provenant d’autres sites.

Ne bloquez pas vos fichiers JavaScript et CSS

Je pourrai en parler plus tard dans un autre article mais je dois quand même vous rappeler que les fichiers CSS et JS sont importants pour le bon fonctionnement des pages d’un site web. En bloquant ou en interdisant l’accès à ces fichiers, votre site risque de ne pas fonctionner comme il le devrait et de nuire à l’expérience globale de vos visiteurs.

J’ai un exemple qui me vient en tête. Vous ne connaissez peut-être pas RankBrain. C’est l’un des derniers systèmes d’apprentissage automatique que Google a lancé pour parfaire son fonctionnement. Il faut remonter en 2015 pour son lancement. 

Et ce RankBrain, techniquement parlant, n’est qu’un algorithme de plus, une corde de plus à l’arc de Sieur Google. Un algorithme qui permet, comme d’autres, de mesurer avec plus ou moins d’exactitude la qualité d’un site. Ce qui le rend beaucoup plus intéressant que les algorithmes précédents, c’est qu’il prend en compte l’interactivité de votre site Web.

Les sites Web qui interdisent les fichiers CSS et JS dans leur fichier robots.txt risquent d’être mal classés. Pour plus de sécurité, il est préférable d’indiquer spécifiquement aux moteurs de recherche d’explorer vos fichiers CSS et JavaScript dans votre fichier robots.txt. 

Attention aux contradictions quand vous inscrivez des directives

Il peut arriver aussi que l’on se mélange les pinceaux quand on inscrit des directives. Ce qui a pour effet de faire perdre leur orientation aux moteurs de recherche. Sont-ils ou ne sont-ils pas autorisés à accéder à cette ressource web ??

Voici un exemple de directives contradictoires :

User-agent : *
Allow : /categorie
Disallow : /*.html

Si les directives sont structurées de cette manière, les moteurs de recherche ne sauront pas s’ils peuvent accéder à https://www.mondomaine.fr/categorie.html. Car on leur dit à la fois, qu’ils peuvent accéder aux pages avec le chemin /categorie et qu’ils ne peuvent accéder à toutes les url se finissant par .html.

Un autre cas de directives contradictoires concerne l’agent utilisateur. Par exemple, vous pouvez restreindre l’accès à tous les user-agents mais avoir une directive spécifique pour un user-agent. La bonne façon de procéder devrait être la suivante

User-agent : *
Disallow : /sample/
Disallow : /test-page/
Disallow : /staging/
User-agent : googlebot-news
Disallow : /sample/

Dans cet exemple, tous les moteurs de recherche, à l’exception de Google News, ne sont pas autorisés à accéder à /sample/, /test-page/ et /staging/. Google News est uniquement limité à /sample/.

Vérifiez toujours votre fichier robots.txt avant envoi

Le meilleur pour la fin. RELISEZ-VOUS ! 

Vraiment faîtes le, même si vous êtes sûrs de votre coup. Avec le fichier robots.txt, j’estime qu’on est jamais trop prudent. Au pire, vous pouvez utiliser le testeur de robots.txt proposé par la Google Search Console (si vous avez relié votre site à la Google Search Console bien entendu). 

Cet outil agit comme un Googlebot et identifie si votre fichier contient des erreurs. Il vérifie également si les chemins URL avec la directive Disallowed sont correctement bloqués.

Notez que le testeur de robots.txt ne vérifie ou ne contrôle que les fichiers avec les agents utilisateurs de Google. 

Avez-vous vraiment besoin d’un fichier robots.txt ?

Comme le sitemap il n’est pas obligatoire mais son aide est précieuse. Je ne peux que vous encourager à en avoir un à la racine de votre site. Avec un fichier robots.txt, vous pouvez contrôler dans une certaine mesure la façon dont les moteurs de recherche peuvent traiter votre site.

N’oubliez pas qu’en matière de référencement, chaque aspect du site Web a une incidence sur ses performances. Plus important encore, la façon dont vous optimisez ces aspects peut être un facteur clé pour que votre site Web dépasse la concurrence.

Facebook
Twitter
LinkedIn

More to explorer

Submit your response

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *