Robots.txt quel est son rôle et comment le créer
Vous vous demandez ce que représente un fichier « Robots.txt » ? Online VIP Consulting est là pour vous définir le rôle de ce type de fichier.
Placé à la racine du site Web, le fichier Robots.txt est le premier qui croise la route des robots d’indexation des moteurs de recherche.
Transmettant des instructions de plusieurs types et interdisant l’indexation de certaines zones du site Web, les Robots.txt sont les premiers interlocuteurs des « Spiders » et des « robots de crawl ».
Que ce soit pour des contenus Web ou pour des mises de contenus des différents sites Web, ces « robots de crawl » explorent continuellement les pages Internet des sites, fonctionnant un peu comme un malwares ou comme un logiciel malveillant. Sauf que la mission de ces derniers est d’indexer ces pages Web selon leur qualité de contenu afin de les classer au niveau des résultats de recherche
Que signifie un fichier « Robots.txt» ?
En premier lieu, sachez que vous avez le contrôle total sur votre site Web, surtout sur qui indexe et explore vos pages.
Pour ce faire, le fichier Robots.txt représente un outil efficace pour paramétrer ce genre de directives ! C’est un simple fichier texte que vous placez au niveau du répertoire racine du site.
Ni essentiel ni obligatoire, sa présence est néanmoins utile pour le contrôle de la manière avec laquelle des moteurs de recherche comme Google vous voient.
Une utilisation optimisée du fichier « Robots.txt »améliore en même temps l’exploration ainsi que le référencement de votre site.
Le fichier « Robots.txt» contient des commandes qui servent à délivrer ou non des autorisations de crawl. Comme son nom l’indique le mot ‘’ Robots ‘’ est au pluriel ! Ce qui signifie que le fichier est constitué de plusieurs paramétrages dont le premier but est d’alléger le pourcentage des demandes sur votre site Web.
Créez un fichier « Robots.txt » : comment procéder ?
Il faut tout d’abord accéder à la racine du domaine, ensuite la création se fait manuellement.
De nos jours, la plupart des CMS (content management system) le génère par défaut ! Des outils en ligne ont été développés aussi pour l’occasion.
Si vous optez pour la création manuelle, vous pouvez utiliser n’importe quel éditeur de texte comme ‘’ Notepad ’’. L’éditeur doit respecter nom de fichier, c’est à dire » robots.txt ‘’. Il doit suivre une certaine structure, d’où des instructions par ligne et aucune ligne ne doit être vide.
N’oubliez surtout pas les instructions et la syntaxe ! En effet, les commandes utilisées vont se présenter ainsi ; tout d’abord les fameux ‘’ Allow ‘’ et les ‘’ Disallow ’’, des instructions qui respectivement autorisent et interdisent aux agents utilisateurs l’accès à un dossier ou à une URL.
Ces user-agents ou les agents utilisateurs sont en fait les robots mis en place par les différents moteurs de recherche tels que » Bingbot » sur Bing ou le fameux » Googlebot » sur Google.
Il faudrait bien-sûr tester votre fichier « Robots.txt» et le mettre à l’essai afin de vérifier que les URL sont possibles à indexer sur Google.
Le test est facilement réalisable, il faut juste créer et authentifier le site sur ‘’ Google Search Console ‘’. Dès que le compte est créé, allez dans le menu sur la rubrique « Exploration », puis vers l’option « Outil de Test » du fichier « Robots.txt»
Attention si le fichier « Robots.txt», qui normalement se trouve dans la racine du site, est absent, les robots ou les Crawls vont considérer qu’aucun contenu de vos pages Web n’est interdit et une « Erreur 404 » s’affichera !
Le nom du fichier « robots.txt » doit être exact, en minuscule et unique !
Le fichier « Robots.txt » et le Sitemap
En effet, vous pouvez utiliser vos ‘’ robots.txt ‘’ pour amener les moteurs de Crawl (les robots des moteurs de recherche ou les Spiders) au ‘’ Sitemap ‘’ XML de votre site Web.
Compatible avec la majorité des moteurs de recherche tels que ‘’ Google ‘’, ‘’ Yahoo ‘’, ‘’ Bing ‘’ et bien d’autres, ce procédé facilite la compréhension de l’arborescence du site Web.
Respectez les règles de création d’un fichier « robots.txt » et permettez aux moteurs d’indexations Google de mieux assimiler votre site Internet !
Quelles sont les spécificités du fichier « robots.txt » à prendre en compte ?
Évitez les erreurs qui nuisent à votre site Web en :
- Respectant l’ordre de préséance : Au niveau de votre fichier « robots.txt » c’est la première directive qui l’emporte sur le reste. Par contre sur Bing et Google c’est les directives spécifiques qui l’emportent. Du coup, chaque moteur ainsi que chaque robot possède leur propre façon de traiter le fichier « robots.txt».
- Ne pas dépassant la taille de 500 Ko : étant une simple indication, le fichier « robots.txt» ne doit pas dépasser la taille maximale.
- Faisant attention aux robots Malwares : les robots « malveillants » ignorent carrément votre fichier « robots.txt» et ne jouent pas le jeu comme les robots « bienveillants ».
- Étant sensible à la casse : faites attention et évitez les majuscules dans les noms de répertoires ou de liens, les fichiers robots.txt étant très sensibles à la casse.
- Faisant attention à ne pas tout mettre sur la même ligne : il faut que chaque directive soit une ligne distincte. Si vous en mettez plusieurs sur la même ligne, cela engendrera l’incompréhension des robots d’indexations.
Évitez l’indexation de contenus dupliqués, mettez de côté les pages Web de votre site qui sont de mauvaise qualité, fournissez votre Sitemap aux robots d’indexation !
Économisez le ‘’ Budget Crawl ‘’ et Optimisez votre SEO avec un fichier ‘’ robots.txt ‘’ aux normes !