Robots.txt
Robot.txt, qu’est-ce que c’est ?
Le robot.txt est un fichier qui permet aux moteurs de recherche de savoir quelles pages de votre site ils peuvent indexer et lesquelles ils ne doivent pas. Il est important de comprendre comment fonctionne le Robot.txt, car il peut vous aider à contrôler l’indexation de votre site par les moteurs de recherche et à améliorer votre référencement.
C’est un fichier texte simple qui est placé à la racine de votre site web. Il contient des instructions pour les robots des moteurs de recherche qui indiquent quelles pages doivent être indexées et lesquelles doivent être ignorées.
Ces instructions sont appelées « directives de robots ». Il est important de noter que les robots des moteurs de recherche ne sont pas tenus de suivre les directives de robots, mais la plupart du temps, ils le font.
Les directives de robots sont généralement écrites en termes de fichiers et d’extensions de fichiers, mais elles peuvent aussi être écrites en termes d’URL.
Les directives de robots les plus courantes sont les suivantes :
User-agent: *
Allow: /*
Disallow: /feed
Ces directives /* indiquent aux robots des moteurs de recherche qu’ils doit indexer toutes les pages du site sauf le /feed.
Le fichier robots.txt, comment ça marche ?
Lorsque que des pages web sont crées et publiées, les robots d’exploration vont venir les explorer afin de recenser leur contenu et donner ses informations au moteur pour compléter l’index. Ensuite, selon les recherches des internautes, la page pourra ressortir dans les résultats. Tout cela se fait de manière automatisée et vous n’avez aucun contrôle sur les agissements des robots.
Le fichier robots.txt permet d’indiquer aux robots de ne pas explorer les pages que vous souhaitez et donc empêcher leur indexation. Ces pages fonctionneront normalement, seront accessibles pour les visiteurs par des liens mais ne seront pas traitées par les robots.
Pourquoi utiliser un fichier robots.txt ?
Produire des pages web et interdire aux robots de les indexer peut paraitre étrange au premier abord mais il y a certains avantages à utiliser le fichier robots.txt. Si vous posséder une page qui possède du contenu dupliqué il est préférable de ne pas l’indexer pour ne pas pénaliser le site.
Ne pas indexer certaines permet d’économiser du budget de crawl et en quelque sorte optimiser les pages principales. Le fichier robots.txt permet également de fournir un sitemap, une indication pour les robots sur les URL à indexer.