Désindexation
Désindexation : de quoi s’agit-il ?
La désindexation est une pratique SEO qui consiste à dire à un moteur de recherche de ne pas tenir compte d’une page web. Il peut s’agir de contenus de faible qualité, ou bien de contenus privés ne représentant aucun intérêt à être affiché, d’un point de vue SEO, commercial ou informationnel. Ainsi, la page ne sera pas conservée dans l’index et le moteur de recherche n’affichera pas la page dans les résultats de recherche.
Avec le développement d’Internet, de nombreux sites web voient le jour, proposant toujours plus de nouveaux contenus sur diverses thématiques. La course en référencement est lancée, et les sites ne cessent de se disputer la première place dans les résultats de Google.
Historiquement, l’indexation des pages dans l’index du moteur de recherche Google désigne l’ensemble du processus par lequel passent les robots crawler pour présenter une page dans ses résultats de recherche. Nécessaire pour le référencement naturel, l’indexation va permettre d’afficher dans les SERPs les sites qui répondent le plus pertinemment aux requêtes des internautes.
Pour être bien positionné dans les résultats de recherche, il ne suffit pas de proposer du contenu sur son site. Les contenus doivent être utiles, fiables et qualitatifs pour l’internaute. Les pages considérées de faible qualité ne seront pas mises en avant par le moteur de recherche, mais seront également pénalisées si elles ne sont pas conformes aux règles imposées par Google.
C’est la raison pour laquelle Google a déployé l’algorithme Panda, qui permet de filtrer les contenus de faible qualité sur le web et sanctionne les propriétaires de site ne proposant pas du contenu à valeur ajoutée aux utilisateurs, en désindexant leurs pages.
Pourquoi désindexer une page web ?
Lorsqu’on créer un site, il arrive que certaines pages n’aient pas pour but de proposer un contenu intéressant ou qui devrait rester privé. Grâce à la désindexation, un webmaster peut indiquer au robot du moteur de recherche de ne pas indexer ces pages, afin de ne montrer que les pages de qualité. Seules les pages utiles et pertinentes pour les internautes seront crawlées et iront étoffer l’index de Google.
Les raisons de désindexer une page web peuvent être multiples ;
- Un nouveau contenu en production
- Des contenus spinnés sur les pages
- Présence de contenu dupliqué sur mes pages
- Données confidentielles
- Contenus saisonniers
- Les pages de résultats du moteur de recherche interne au site
- Les PDF
Attention de bien distinguer « désindexation » et « interdiction de crawl » ! L’ajout de la fonction « disallow » dans robots.txt permet seulement d’éviter à Google de crawler les pages, et non de les désindexer.
Comment désindexer une page web ?
Plusieurs méthodes permettent de désindexer une ou plusieurs pages d’un site web.
- En utilisant le fichier robots.txt, un fichier texte ajouté dans le code source d’un site permet d’indiquer aux robots de Google de ne pas crawler les pages web en question.
- La fonction “X-Robots-Tag” est utilisée pour désindexer des éléments qui ne sont pas au format html comme des fichiers PDF ou Excel.
- Une autre méthode bien connue est la balise meta noindex et sa fonction “robots”. Tout comme dans le fichier robots.txt, l’attribut “robots” de la balise meta noindex indique aux robots d’exploration des moteurs de recherche de ne pas conserver ces pages dans leurs index.
Gardez à l’esprit que chacune de ces méthodes à le même objectif il est inutile de les cumuler.