Google ne crawle pas votre site si votre fichier robots.txt n’est pas disponible

Olivier Andrieu / 06 Jan 2014 à 09h28

Temps de lecture : 2 minutes

Partagez l'article

Un googler a indiqué sur un forum que, si le robot du moteur avait des soucis pour lire votre fichier robots.txt, le crawl du site s'arrêtait instantanément...

Une information importante, relayée par le site Search Engine Roundtable a été donnée par un googler du nom de Eric Kuan sur un forum d'aide aux webmasters : si votre site dispose d'un fichier robots.txt, que Google le sait et qu'il n'arrive pas à le lire (en d'autres termes, si le code HTTP renvoyé n'est ni 200 ni 404), le robot arrêtera de crawler le site pour éviter de récupérer des pages qu'il ne devrait pas indexer :

If Google is having trouble crawling your robots.txt file, it will stop crawling the rest of your site to prevent it from crawling pages that have been blocked by the robots.txt file. If this isn't happening frequently, then it's probably a one off issue you won't need to worry about. If it's happening frequently or if you're worried, you should consider contacting your hosting or service provider to see if they encountered any issues on the date that you saw the crawl error.

A vous, donc, de vérifier que votre fichier, s'il existe, est bien accessible et renvoie un code 200. S'il n'existe pas (code 404), votre site sera alors en "journées portes ouvertes" pour les robots, sans problème spécifique. Dans les autres cas, un action de votre part sera sans doute nécessaire...

Source de l'image : DR

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

13 Commentaires

marla sur 9 mai 2014 à 13 h 07 min

C’est normal si le fichiers robots.txt visible dans Google Webmaster Tools n’est pas le même que celui du site ? savez-vous combien de temps prend google pour identifier les modifications du fichier robots.txt ?
Réponse
eroll sur 3 mai 2014 à 5 h 10 min

Bonjour,

Pour ce qui est d’un domaine en http, les problèmes de ce fichier sont assez rare mais
dans le cadre d’un Robot.txt pour le HTTPS comment Google arrive à voir ce fichier ? (il arrive que le domaine soit indexé en https et de fait pour éviter l’indexation il faut le préciser dans un nouveau fichier dédié au https).

Merci d’avance pour vos réponses …
Réponse
Campingdispo sur 22 février 2014 à 12 h 50 min

Bonjour,

Merci pour toute ces petites précisions très intéressantes. QUESTION: Peut-on indiquer au robot.txt une requête pour rendre tous les liens sortants en « nofollow » ? Je connais la balise Méta et le lien seul et je n’ai pas trouvé sur le net quoi mettre dans robots.txt
Réponse
Rakabulle sur 28 janvier 2014 à 1 h 30 min

C’est normal si le fichiers robots.txt visible dans Google Webmaster Tools n’est pas le même que celui du site ? savez-vous combien de temps prend google pour identifier les modifications du fichier robots.txt ?
Réponse
olivier@abondance.com sur 16 janvier 2014 à 11 h 09 min

@ Lionel : oui, le terme de « disponibilité » est ambigü. En même temps c’est bien ce que dit l’article 🙂
Réponse
Lionel - Yooda sur 16 janvier 2014 à 11 h 07 min

Salut Olivier;
Ton titre me semble inciter à une mauvaise interprétation. Ce n’est pas l’absence de robots.txt qui est pointée, mais un robots.txt cassé, non-interprétable.
Pas de robots.txt => j’ai le droit de tout crawler
Robots.txt incompréhensible => stop du crawl.

Bonne journée
Réponse
Ordibug sur 8 janvier 2014 à 12 h 39 min

Merci Olivier de relayer l’info, qui est beaucoup plus importante qu’il n’y paraît. Pourquoi ?

Tout simplement parce qu’il va falloir surveiller ce petit fichier robots.txt qui risque d’être la cible d’attaques de NSEO (par exemple en faisant une redirection 301 ou 302 lorsque ce fichier est demandé par un bot, via du cloaking…)
Donc, information à prendre très au sérieux…
Réponse
olivier@abondance.com sur 7 janvier 2014 à 15 h 25 min

@ Mon poêle à pellet.com : quel problème en fait ? s’il y a un code 200 ou 404 qui est renvoyé, il n’y a pas de problème…
cdt
Réponse
Mon poêle à pellet.com sur 7 janvier 2014 à 15 h 23 min

Merci pour cet article, mais qui me laisse un peu sur ma faim.

Comment remédier à ce problème ?

Les solutions sont elles faciles à mettre en œuvre ?

Merci et bonne année
Réponse
olivier@abondance.com sur 7 janvier 2014 à 9 h 06 min

@Abitasud : je vous rassure, un site sans robots.txt ni Sitemap XML n’aura pas obligatoirement des problèmes d’indexation si sa structure et son arborescence sont bien faites.
Réponse
ABITASUD sur 7 janvier 2014 à 0 h 57 min

Possible…..probablement qu’un site internet sans fichier robots.txt et sitemap rencontrera des problèmes d’indexation…
Réponse
Marc, Annuaire Français sur 6 janvier 2014 à 16 h 50 min

Sur le nouveau moteur de recherche Premsgo en développement, nous avons rencontré quelques erreurs sur ces fichiers importants. Parmi celles-ci, le = qui remplace les deux points « : » … nous avons implémenté quelques erreurs répétitives, mais certaines ne sont pas gérables, comme les directives doubles (ex : nofollow : /dir1 + /dir2 etc …).

Dans ces cas rares, le site n’est pas indexé si :
– l’algo ne comprend pas une ligne
– si la le fichier est une page html ou une liste de liens (plus fréquent que l’on ne le pense).
– le code http renvoie une redirection

Nous avons prévu d’envoyer un courriel si le robot rencontre une difficulté.
Réponse
Sebastien sur 6 janvier 2014 à 14 h 34 min

En fait, ce n’est pas nouveau. C’est écrit noir sur blanc sur le suppport de Google, depuis au moins deux ans : https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=fr

J’adore relire les specs de temps en temps, on apprend des petits trucs.

On apprend ainsi que AdsBot-Google (pour les landing AdWords) ne respecte pas toutes les directives de robots.txt …
Réponse

Laisser un commentaire Annuler la réponse

Google ne crawle pas votre site si votre fichier robots.txt n’est pas disponible

Un googler a indiqué sur un forum que, si le robot du moteur avait des soucis pour lire votre fichier robots.txt, le crawl du site s'arrêtait instantanément...

Articles complémentaires :

Google va explorer des alternatives au fichier robots.txt

Goossips : Temps passé sur la page, Code 5xx sur robots.txt, Interdiction de crawl