Ce guide vous explique la définition du fichier Robots.txt, son rôle, comment s’en servir, ainsi que les outils et méthodes pour s’assurer que Google visite correctement votre site web.
- Qu’est-ce que le fichier Robots.txt ?
- 3 raisons de s’intéresser au robots.txt (pour bien l’utiliser en SEO)
- Tester son fichier Robots.txt
- SEO Tips : Éviter les erreurs de crawl avec Robots.txt
- Les règles de syntaxe à connaître pour éviter les erreurs de crawl
- FAQ SEO : la réponse à vos questions sur le Robots.txt
Qu’est-ce que le fichier Robots.txt ?
Le fichier robots.txt est un fichier qui indique aux robots des moteurs de recherche de ne pas explorer certaines pages ou sections d’un site Web.
La plupart des moteurs de recherche comme Google, Yahoo ou Bing utilisent ce fichier comme un standard pour s’orienter dans l’exploration des pages web de votre site.
Plus à ce sujet dans cet article : le fonctionnement de Google expliqué.
Concrètement, voici à quoi ressemble celui de ce site web (www.antoineferec.com/robots.txt) :

Le Robots.txt donne des instructions d’exploration à Google
Les moteurs de recherche découvrent les pages web pour créer leur index grâce au crawl. Au fur et à mesure qu’ils explorent internet, ils suivent les liens (internes et externes) pour continuer leurs découvertes.
Avant qu’un moteur de recherche ne visite une page d’un site web qu’il n’a jamais exploré, il ouvre le fichier robots.txt de ce domaine. Cela lui permet de savoir quelles sont les parties et les URLs du site qu’il est autorisé à visiter (et celles sur lesquelles il est interdit de passer).
Je vais vous traduire le mien ligne par ligne pour l’exemple. Voici ce que les robots qui passent sur mon site doivent comprendre :
User-agent: *
→ cela veut dire que l’instruction qui suit concerne tout type de robot d’exploration ;Disallow: /wp-admin/
→ les robots ne sont pas autorisés à explorer tous les fichiers du répertoire administrateur de mon site (à partir de antoineferec.com/wp-admin/)Allow: /wp-admin/admin-ajax.php
→ parmi le répertoire/wp-admin/
, les robots sont autorisés à crawler UNIQUEMENT le fichier admin-ajax.php(*)Sitemap: https://antoineferec.com/sitemap_index.xml
→ j’indique l’adresse de mon fichier Sitemap.
(*) j’autorise Google à consulter ce fichier en particulier pour qu’il puisse voir le code CSS, JavaScript et les fichiers Ajax qui servent à construire mon site.
Bon à savoir : Le fichier robots.txt fait partie du “protocole d’exclusion des robots” (REP), un groupe de normes Web qui établit des règles sur la manière dont les robots explorent le Web, accèdent aux pages et les indexent.
3 raisons de s’intéresser au robots.txt (pour bien l’utiliser en SEO)
1- Rationnaliser le budget de crawl
Si vous avez du mal à indexer toutes vos pages, le problème vient peut-être du budget d’exploration. En bloquant les pages sans importance à l’aide de robots.txt, il semblerait que Googlebot consacre une plus grande partie des ressources qu’il alloue à votre site web pour visiter les pages qui comptent vraiment.
Il peut donc être utile de bloquer l’accès des moteurs de recherche aux sections de votre site qui ont besoin d’une bonne optimisation SEO. Une fois que vous avez réalisé vos améliorations, vous pourrez laisser les algorithmes revenir sur votre robots.txt.
2- Bloquer l’exploration de certaines parties du site
Certaines pages n’ont aucun intérêt à être indexées. Des fichiers PDFs ou des pages de connexion par exemple.
Elles n’ont pas de valeur ajoutée pour les moteurs de recherche, mais sont toutefois utiles pour vos visiteurs ou pour vous.
3- Empêcher les URLs à paramètres variables d’être indexées
Si votre site (un e-commerce par exemple) utilise beaucoup de paramètres ainsi que des chaînes de requête pour filtrer ou trier des listes, le fichier robots.txt pourra vous être utile. Ce point rejoint la question du budget de crawl.
En empêchant les paramètres de requête d’être explorés, vous vous assurez que le moteur de recherche n’explore que les URL principales de votre site, sans qu’il indexe toutes les URLs uniques générées par des recherches d’utilisateurs ou des filtres pour trier les résultats de produits.
Tester son fichier Robots.txt
Première étape : trouver le fichier. Le robots.txt est hébergé sur votre serveur, comme tous les autres fichiers qui composent votre site web.
Vous pouvez observer le robots.txt de n’importe quel site en tapant l’URL complète de la page d’accueil, puis en ajoutant /robots.txt
, comme https://www.google.com/robots.txt.

Le fichier robots.txt doit se trouver à la racine de votre domaine. Si vous le placez ailleurs, les robots supposeront que vous n’en avez pas.
Afin de vous assurer que votre fichier robots.txt est optimisé pour le SEO et qu’il ne comporte pas d’erreur, vous trouverez plusieurs recommandations dans les prochains paragraphes.
Checker que le fichier ne comporte pas d’erreurs
Il est VRAIMENT important que votre Robots.txt soit bien configuré. Une seule erreur et tout votre site pourrait ne jamais être indexé.
Heureusement, Google dispose d’un outil de test pratique que vous pouvez utiliser. Voici une démo de ce que ça donne avec mon site.


Comme vous le voyez, Google m’indique qu’il ne rencontre aucun problème en passant sur mon site.
On peut également se servir d’un outil juste en-dessous sur la même page qui permet de tester les URLs individuellement. J’ai donc essayé avec https://antoineferec.com/wp-admin/index.php, et ça fonctionne. Google m’indique qu’il ne peut pas crawler cette URL à cause de l’instruction ligne 2.

SEO Tips : Éviter les erreurs de crawl avec Robots.txt
5 actions rapides pour optimiser votre fichier Robots.txt
-
Créer votre fichier Robots.txt
Si vous avez créé votre site web sur WordPress, il y a de fortes chances que votre fichier robots.txt existe déjà.
Si vous ne le trouvez pas en tapant www.votredomaine.com/robots.txt, il faudra le créer. Les méthodes peuvent varier selon votre hébergeur web. Rendez-vous dans la FAQ ou la documentation de votre fournisseur d’hébergement.
-
Eviter de bloquer le crawl de votre code CSS et Javascript
Google Search Console conseille dans ses bonnes pratiques pour webmasters de ne pas bloquer le crawl des fichiers CSS et JS dans votre fichier robots.txt.
Le but : ne pas empêcher Google de vérifier si votre site Web fonctionne correctement. Google doit pouvoir comprendre votre site Web et la façon dont le code améliore (ou détériore) l’expérience utilisateur grâce au JS et au CSS.
-
Indiquer l’emplacement de votre Sitemap XML
La directive « Sitemap » indique aux moteurs de recherche où trouver votre sitemap XML.
Les sitemaps comprennent généralement les pages que vous souhaitez faire explorer et indexer par les moteurs.
-
Utiliser un fichier robots.txt sur par sous-domaine
Les fichiers robots.txt ne contrôlent le comportement d’exploration que sur le sous-domaine où ils sont hébergés.
Ainsi, si vous souhaitez contrôler l’exploration d’un autre sous-domaine, vous devez créer un fichier robots.txt distinct pour celui-ci.
Exemple : votre site principal se trouve sur www.votredomaine.com et votre blog sur le sous-domaine blog.votredomaine.com, vous aurez besoin de deux fichiers robots.txt.
-
Consulter la documentation de votre CMS (Content Management System)
Faites une recherche en ligne pour obtenir de l’aide sur la façon de télécharger et modifier votre fichier robots.txt. Par exemple, vous pouvez rechercher « télécharger le fichier robots.txt sur Drupal » pour obtenir les instructions nécessaires.
Je vous facilite le travail avec cette liste des CMS les plus utilisés :
– Wix : modifier le fichier Robots.txt de votre site
– WordPress : guide Kinsta
– Ghost : configurer le Robots.txt
– Documentation Joomla
Les règles de syntaxe à connaître pour éviter les erreurs de crawl
User-agent
est le bot spécifique auquel vous vous adressez. Et tout ce qui vient après « disallow
» sont les pages ou les sections que vous voulez bloquer.
Voici un exemple :
User-agent : googlebot
Disallow : /signup
Vous pouvez soit avoir un bloc pour envoyer une instruction à tous les moteurs de recherche, en utilisant User-agent: *
, soit des blocs uniques pour chaque moteur de recherche.
Vous êtes maintenant en mesure de comprendre le fichier robots.txt ci-dessous :
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
User-agent: bingbot
Disallow: /not-for-bing/
Les directives comme Allow
et Disallow
ne sont pas sensibles à la casse (vous pouvez les écrire en minuscules ou en majuscules).
Les autres valeurs en revanche le sont. Le chemin /blog/ n’est pas la même chose que /Blog/.
Il est possible de séparer les directives selon les robots
Les moteurs de recherche choisissent toujours d’obéir à la directive le plus spécifique qu’ils peuvent trouver.
Supposons que vous ayez trois ensembles de directives :
- un pour tous les navigateurs
*
- un pour
Mediapartners-Google
- et un pour
Googlebot
.
Si un robot dont l’agent utilisateur est Googlebot-Mobile
arrive, il suivra les restrictions de Googlebot
. Un robot dont l’agent utilisateur est Mediapartners-Google
il utilisera les directives plus spécifiques de Mediapartners-Google
.
Une ressource à garder dans vos favoris ! La liste des noms d’agents de crawl des principaux moteurs de recherche.
Moteur de recherche | Type de crawl | Nom du User-agent |
---|---|---|
Baidu | General | baiduspider |
Baidu | Images | baiduspider-image |
Baidu | Mobile | baiduspider-mobile |
Baidu | News | baiduspider-news |
Baidu | Video | baiduspider-video |
Bing | General | bingbot |
Bing | General | msnbot |
Bing | Images & Video | msnbot-media |
Bing | Ads | adidxbot |
General | Googlebot | |
Images | Googlebot-Image | |
Mobile | Googlebot-Mobile | |
News | Googlebot-News | |
Video | Googlebot-Video | |
AdSense | Mediapartners-Google | |
AdWords | AdsBot-Google | |
Yahoo! | General | slurp |
Yandex | General | yandex |
Ce n’est qu’une des façons d’utiliser un fichier robots.txt. Pour consulter l’intégralité des fonctions à votre disposition afin de maîtriser l’exploration de votre site par les robots, rendez-vous comme souvent dans la section Documentation du Support Google dédiée au robots.txt.
FAQ SEO : la réponse à vos questions sur le Robots.txt
Que faire si votre page est indexée malgré le blocage par le fichier robots.txt ?
Le robots.txt n’est pas d’un mécanisme permettant d’empêcher une page Web d’apparaître dans Google, si ses robots ont déjà vu la page. Pour éviter qu’une page Web n’apparaisse dans Google, bloquez l’indexation avec noindex
, ou protégez la page par un mot de passe.
Googlebot est bloqué par le fichier robots.txt : comment éviter ce problème ?

Consultez et testez votre fichier robots.txt, et assurez-vous que le User-agent
Googlebot ne reçoit pas de directive disallow
. Si c’est le cas, modifiez le fichier pour retirer cette directive qui bloque le Googlebot.
Le fichier robots.txt est-il obligatoire ?
Non, un robot. txt n’est pas obligatoire. Si un robot passe sur votre site et qu’il ne trouve pas de robots.txt, il se contentera d’explorer toutes vos pages et pourra les indexer.
Le robots.txt peut-il être vulnérable aux attaques informatiques et aux virus ?
Le format de fichier en texte brut (.txt) est considéré comme relativement sûr. Même si ce type de fichier contient un code malveillant, il ne peut pas être exécuté. Toutefois, ce fichier peut être consulté par n’importe qui. Assurez-vous que le fichier ne contient aucune information sensible sur le serveur, ou sur les répertoires qui peuvent être visés par des malwares.