Guide Complet sur le fichier Robots.txt : Comment et pourquoi s’en servir en SEO ?

Ce guide vous explique la définition du fichier Robots.txt, son rôle, comment s’en servir, ainsi que les outils et méthodes pour s’assurer que Google visite correctement votre site web.

Qu’est-ce que le fichier Robots.txt ?

Le fichier robots.txt est un fichier qui indique aux robots des moteurs de recherche de ne pas explorer certaines pages ou sections d’un site Web.

La plupart des moteurs de recherche comme Google, Yahoo ou Bing utilisent ce fichier comme un standard pour s’orienter dans l’exploration des pages web de votre site.

Plus à ce sujet dans cet article : le fonctionnement de Google expliqué.

Concrètement, voici à quoi ressemble celui de ce site web (www.antoineferec.com/robots.txt) :

Capture d'écran du fichier robots.txt de antoineferec.com
Le fichier robots.txt de mon site est plutôt minimaliste, et similaire à de nombreux sites web comme le mien.

Le Robots.txt donne des instructions d’exploration à Google

Les moteurs de recherche découvrent les pages web pour créer leur index grâce au crawl. Au fur et à mesure qu’ils explorent internet, ils suivent les liens (internes et externes) pour continuer leurs découvertes.

Avant qu’un moteur de recherche ne visite une page d’un site web qu’il n’a jamais exploré, il ouvre le fichier robots.txt de ce domaine. Cela lui permet de savoir quelles sont les parties et les URLs du site qu’il est autorisé à visiter (et celles sur lesquelles il est interdit de passer).

Je vais vous traduire le mien ligne par ligne pour l’exemple. Voici ce que les robots qui passent sur mon site doivent comprendre :

  • User-agent: * → cela veut dire que l’instruction qui suit concerne tout type de robot d’exploration ;
  • Disallow: /wp-admin/ → les robots ne sont pas autorisés à explorer tous les fichiers du répertoire administrateur de mon site (à partir de antoineferec.com/wp-admin/)
  • Allow: /wp-admin/admin-ajax.php → parmi le répertoire /wp-admin/, les robots sont autorisés à crawler UNIQUEMENT le fichier admin-ajax.php(*)
  • Sitemap: https://antoineferec.com/sitemap_index.xml → j’indique l’adresse de mon fichier Sitemap.

(*) j’autorise Google à consulter ce fichier en particulier pour qu’il puisse voir le code CSS, JavaScript et les fichiers Ajax qui servent à construire mon site.

Bon à savoir : Le fichier robots.txt fait partie du “protocole d’exclusion des robots” (REP), un groupe de normes Web qui établit des règles sur la manière dont les robots explorent le Web, accèdent aux pages et les indexent.


3 raisons de s’intéresser au robots.txt (pour bien l’utiliser en SEO)

1- Rationnaliser le budget de crawl

Si vous avez du mal à indexer toutes vos pages, le problème vient peut-être du budget d’exploration. En bloquant les pages sans importance à l’aide de robots.txt, il semblerait que Googlebot consacre une plus grande partie des ressources qu’il alloue à votre site web pour visiter les pages qui comptent vraiment.

Il peut donc être utile de bloquer l’accès des moteurs de recherche aux sections de votre site qui ont besoin d’une bonne optimisation SEO. Une fois que vous avez réalisé vos améliorations, vous pourrez laisser les algorithmes revenir sur votre robots.txt.

2- Bloquer l’exploration de certaines parties du site

Certaines pages n’ont aucun intérêt à être indexées. Des fichiers PDFs ou des pages de connexion par exemple.

Elles n’ont pas de valeur ajoutée pour les moteurs de recherche, mais sont toutefois utiles pour vos visiteurs ou pour vous.

3- Empêcher les URLs à paramètres variables d’être indexées

Si votre site (un e-commerce par exemple) utilise beaucoup de paramètres ainsi que des chaînes de requête pour filtrer ou trier des listes, le fichier robots.txt pourra vous être utile. Ce point rejoint la question du budget de crawl.

En empêchant les paramètres de requête d’être explorés, vous vous assurez que le moteur de recherche n’explore que les URL principales de votre site, sans qu’il indexe toutes les URLs uniques générées par des recherches d’utilisateurs ou des filtres pour trier les résultats de produits.

Tester son fichier Robots.txt

Première étape : trouver le fichier. Le robots.txt est hébergé sur votre serveur, comme tous les autres fichiers qui composent votre site web.

Vous pouvez observer le robots.txt de n’importe quel site en tapant l’URL complète de la page d’accueil, puis en ajoutant /robots.txt, comme https://www.google.com/robots.txt.

fichier robots.txt de Google
Voici une partie du fichier robots.txt de Google

Le fichier robots.txt doit se trouver à la racine de votre domaine. Si vous le placez ailleurs, les robots supposeront que vous n’en avez pas.

Afin de vous assurer que votre fichier robots.txt est optimisé pour le SEO et qu’il ne comporte pas d’erreur, vous trouverez plusieurs recommandations dans les prochains paragraphes.

Checker que le fichier ne comporte pas d’erreurs

Il est VRAIMENT important que votre Robots.txt soit bien configuré. Une seule erreur et tout votre site pourrait ne jamais être indexé.

Heureusement, Google dispose d’un outil de test pratique que vous pouvez utiliser. Voici une démo de ce que ça donne avec mon site.

Capture d'écran de l'outil de test de Google
résultat de texte de fichier Robots sur le site d'Antoine Ferec avec l'outil de test de Google

Comme vous le voyez, Google m’indique qu’il ne rencontre aucun problème en passant sur mon site.

On peut également se servir d’un outil juste en-dessous sur la même page qui permet de tester les URLs individuellement. J’ai donc essayé avec https://antoineferec.com/wp-admin/index.php, et ça fonctionne. Google m’indique qu’il ne peut pas crawler cette URL à cause de l’instruction ligne 2.

Google est bloqué par le fichier robots.txt grâce à l'instruction Disallow

SEO Tips : Éviter les erreurs de crawl avec Robots.txt

5 actions rapides pour optimiser votre fichier Robots.txt

  • Créer votre fichier Robots.txt

    Si vous avez créé votre site web sur WordPress, il y a de fortes chances que votre fichier robots.txt existe déjà.

    Si vous ne le trouvez pas en tapant www.votredomaine.com/robots.txt, il faudra le créer. Les méthodes peuvent varier selon votre hébergeur web. Rendez-vous dans la FAQ ou la documentation de votre fournisseur d’hébergement.

  • Eviter de bloquer le crawl de votre code CSS et Javascript

    Google Search Console conseille dans ses bonnes pratiques pour webmasters de ne pas bloquer le crawl des fichiers CSS et JS dans votre fichier robots.txt.

    Le but : ne pas empêcher Google de vérifier si votre site Web fonctionne correctement. Google doit pouvoir comprendre votre site Web et la façon dont le code améliore (ou détériore) l’expérience utilisateur grâce au JS et au CSS.

  • Indiquer l’emplacement de votre Sitemap XML

    emplacement de mon sitemap indiqué dans mon fichier robots.txt

    La directive « Sitemap » indique aux moteurs de recherche où trouver votre sitemap XML.

    Les sitemaps comprennent généralement les pages que vous souhaitez faire explorer et indexer par les moteurs.

  • Utiliser un fichier robots.txt sur par sous-domaine

    Les fichiers robots.txt ne contrôlent le comportement d’exploration que sur le sous-domaine où ils sont hébergés.

    Ainsi, si vous souhaitez contrôler l’exploration d’un autre sous-domaine, vous devez créer un fichier robots.txt distinct pour celui-ci.

    Exemple : votre site principal se trouve sur www.votredomaine.com et votre blog sur le sous-domaine blog.votredomaine.com, vous aurez besoin de deux fichiers robots.txt.

  • Consulter la documentation de votre CMS (Content Management System)

    Faites une recherche en ligne pour obtenir de l’aide sur la façon de télécharger et modifier votre fichier robots.txt. Par exemple, vous pouvez rechercher « télécharger le fichier robots.txt sur Drupal » pour obtenir les instructions nécessaires.

    Je vous facilite le travail avec cette liste des CMS les plus utilisés :
    Wix : modifier le fichier Robots.txt de votre site
    WordPress : guide Kinsta
    Ghost : configurer le Robots.txt
    Documentation Joomla


Les règles de syntaxe à connaître pour éviter les erreurs de crawl

User-agent est le bot spécifique auquel vous vous adressez. Et tout ce qui vient après « disallow » sont les pages ou les sections que vous voulez bloquer.

Voici un exemple :

User-agent : googlebot
Disallow : /signup

Vous pouvez soit avoir un bloc pour envoyer une instruction à tous les moteurs de recherche, en utilisant User-agent: * , soit des blocs uniques pour chaque moteur de recherche.

Vous êtes maintenant en mesure de comprendre le fichier robots.txt ci-dessous :

User-agent: *
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: /not-for-bing/

Les directives comme Allow et Disallow ne sont pas sensibles à la casse (vous pouvez les écrire en minuscules ou en majuscules).
Les autres valeurs en revanche le sont. Le chemin /blog/ n’est pas la même chose que /Blog/.


Il est possible de séparer les directives selon les robots

Les moteurs de recherche choisissent toujours d’obéir à la directive le plus spécifique qu’ils peuvent trouver.

Supposons que vous ayez trois ensembles de directives :

  • un pour tous les navigateurs *
  • un pour Mediapartners-Google
  • et un pour Googlebot.

Si un robot dont l’agent utilisateur est Googlebot-Mobile arrive, il suivra les restrictions de Googlebot. Un robot dont l’agent utilisateur est Mediapartners-Google il utilisera les directives plus spécifiques de Mediapartners-Google.

Une ressource à garder dans vos favoris ! La liste des noms d’agents de crawl des principaux moteurs de recherche.

Moteur de rechercheType de crawlNom du User-agent
BaiduGeneralbaiduspider
BaiduImagesbaiduspider-image
BaiduMobilebaiduspider-mobile
BaiduNewsbaiduspider-news
BaiduVideobaiduspider-video
BingGeneralbingbot
BingGeneralmsnbot
BingImages & Videomsnbot-media
BingAdsadidxbot
GoogleGeneralGooglebot
GoogleImagesGooglebot-Image
GoogleMobileGooglebot-Mobile
GoogleNewsGooglebot-News
GoogleVideoGooglebot-Video
GoogleAdSenseMediapartners-Google
GoogleAdWordsAdsBot-Google
Yahoo!Generalslurp
YandexGeneralyandex
Source : Yoast.fr

Ce n’est qu’une des façons d’utiliser un fichier robots.txt. Pour consulter l’intégralité des fonctions à votre disposition afin de maîtriser l’exploration de votre site par les robots, rendez-vous comme souvent dans la section Documentation du Support Google dédiée au robots.txt.


FAQ SEO : la réponse à vos questions sur le Robots.txt

Que faire si votre page est indexée malgré le blocage par le fichier robots.txt ?

Le robots.txt n’est pas d’un mécanisme permettant d’empêcher une page Web d’apparaître dans Google, si ses robots ont déjà vu la page. Pour éviter qu’une page Web n’apparaisse dans Google, bloquez l’indexation avec noindex, ou protégez la page par un mot de passe.

Googlebot est bloqué par le fichier robots.txt : comment éviter ce problème ?

Consultez et testez votre fichier robots.txt, et assurez-vous que le User-agent Googlebot ne reçoit pas de directive disallow. Si c’est le cas, modifiez le fichier pour retirer cette directive qui bloque le Googlebot.

Le fichier robots.txt est-il obligatoire ?

Non, un robot. txt n’est pas obligatoire. Si un robot passe sur votre site et qu’il ne trouve pas de robots.txt, il se contentera d’explorer toutes vos pages et pourra les indexer.

Le robots.txt peut-il être vulnérable aux attaques informatiques et aux virus ?

Le format de fichier en texte brut (.txt) est considéré comme relativement sûr. Même si ce type de fichier contient un code malveillant, il ne peut pas être exécuté. Toutefois, ce fichier peut être consulté par n’importe qui. Assurez-vous que le fichier ne contient aucune information sensible sur le serveur, ou sur les répertoires qui peuvent être visés par des malwares.

Rédigé par : Antoine Ferec

Rédigé par : Antoine Ferec

Copywriter | SEO | Webmaster

En savoir plus

Laisser un commentaire