GoogleBot deviendrait-il fou ?

GoogleBot ne semble plus respecter les consignes du fichier robots.txt.

Depuis quelque mois, beaucoup d'utilisateurs de PrestaShop furent impactés au niveau référencement par des pénalités incompréhensibles.

GoogleBot ne semble plus respecter les consignes édictées dans le fichier robots.txt.

J'ai un de mes clients qui fut, lui aussi, affecté par ce comportement erratique des derniers mois de GoogleBot.

Je vais ici vous partager les étapes de correction que nous avons mises en place en partenariat avec l'agence spécialisée en SEO, La Mandrette.

Identification du problème

Depuis quelques mois, en allant sur la Search Console de Google, on peut retrouver des dizaines de milliers d'URL terminant par ?q=xxxxxxxxx.

Cette information envoyée dans l'URL de votre site correspond aux filtres générés par le module ps_facetedsearch natif dans PrestaShop vous permettant de créer ce que l'on appelle communément une navigation à facette. Cette navigation est très pratique pour le client, car cela lui permet de limiter l'affichage des produits correspondant à sa recherche, comme une couleur ou une taille, dans le cadre d'une boutique de vêtements.

Dans la construction du code du module, chaque filtre va générer un lien vers une page de résultat et comme chaque filtre peut être cumulé aux autres, on peut imaginer le nombre de liens au final qui peut envahir la Google Search Console.

Ce qui est étrange, c'est que le fichier robots.txt comporte une information à destination des robots d'indexation pour justement ne pas suivre ce type de liens. On a même l'information sur chaque lien avec rel="nofollow".

On peut donc se demander, pourquoi, du jour au lendemain, Google se met à référencer et à analyser ces pages.

Plusieurs hypothèses peuvent justifier cela. La première, c'est juste que Google, pour économiser ses efforts de Crawl des sites, a décidé de récupérer les données de navigation de tous les utilisateurs de son navigateur Chrome, comme il le fait déjà pour l'analyse des données de "performances", FCP, CLS et tutti quanti. La seconde hypothèse serait que Google, dans le cadre de son évolution vers l'intelligence artificielle, a déployé ou transformé son robot d'indexation pour qu'il récupère l'intégralité du web sans se soucier des conséquences pour les sites et son classement historique de moteur de recherche.

Dans tous les cas, que faire pour corriger ou tout du moins amoindrir l'impact de cette situation pour vos boutiques en ligne ?

La solution la plus simple et la plus rapide

Quoi de mieux que de faire confiance à l'écosystème de PrestaShop pour avoir des membres qui proposent des solutions alternatives, performantes et fonctionnelles pour rapidement corriger ce type de désagrément.

Il existe deux modules qui font référence sur PrestaShop pour proposer une navigation à facette performante avec des options parfaites pour coller à tous les types de commerce.

Ces modules vont corriger l'existence de ces pages désagréables, mais le nettoyage de la Google Search Console va prendre du temps. Vous pouvez donc intégrer la procédure ci-dessous permettant de nettoyer l'indexation.

Nettoyage de la Google Search Console

Voici une procédure, plus ou moins technique, pour essayer de nettoyer la Google Search Console de ces URL inutiles. Je dis bien essayer, car Google, comme il nous le montre avec ce problème, n'en fait qu'à sa tête, ainsi, cela peut prendre plusieurs mois avant de réellement constater une amélioration.

3 techniques à mettre en œuvre au même moment :

  1. Modification du robots.txt pour ne plus interdire aux robots d'indexation de visiter ces pages, ce qui semble étrange puisque les robots d'indexation ne suivent pas convenablement cette interdiction. C'est juste pour être certain d'offrir toutes ses chances aux URL d'être visitées.
  2. Ajout d'une rubrique Noindex dans le fichier robots.txt. Soi-disant que Google ne le prend pas en compte, mais là encore, on préfère prévenir et mettre toutes les chances de notre côté.
  3. Et, la dernière, qui sera la plus complexe à mettre en œuvre pour les non-techniques. C'est la modification du code de votre thème pour afficher convenablement les données meta robots en noindex pour certaines pages, et je vous rassure, je vous proposerai une solution simple par le biais d'un module qui fait autorité dans le domaine — Merci l'écosystème PrestaShop.

Modification du fichier robots.txt

Pour ceux qui ne connaissent pas encore le fichier robots.txt, je vous invite à visiter ce site expliquant tout ce que vous devez connaître sur ce fichier : robots-txt.com

1- Nous allons désactiver l'interdiction de référencement des pages résultats avec filtre

Ouvrez le fichier robots.txt de votre boutique avec votre éditeur préféré et identifiez les lignes suivantes :

Disallow: /*?order=
Disallow: /*?q=
Disallow: /*&order=
Disallow: /*&q=

Vous devez les désactiver, soit en les effaçant simplement, tout en conservant une trace, car vous devrez les remettre en place lorsque le nettoyage sera terminé, soit en les commentant comme ceci :

# Disallow: /*?order=
# Disallow: /*?q=
# Disallow: /*&order=
# Disallow: /*&q=

2- Nous allons interdire l'indexation de ces pages

Pour ce faire, nous allons mettre deux techniques en place, une dans le fichier robots.txt et une autre dans l'entête de votre boutique.

Dans le fichier robots.txt qui doit normalement toujours être ouvert dans votre éditeur, vous devez rajouter ces lignes au-dessus de # Allow Directives

Cette nouvelle directive est considérée comme non active, mais les retours que nous avons pu glaner semblent prouver le contraire. Dans le doute, il est donc préférable de la mettre en place. Toues les explication sur robots-txt.com.

Ce qui donnera comme résultat ceci :

# Noindex Directives
Noindex: /*?order=
Noindex: /*?q=
Noindex: /*&order=
Noindex: /*&q=
# Allow Directives

Vous pouvez maintenant enregistrer votre fichier robots.txt modifié sur votre hébergement.

Maintenant passons à la modification de l'entête de votre boutique.

Toujours avec votre éditeur de code préféré, ouvrez le fichier suivant présent dans votre thème : /themes/votre_theme/templates/_partials/head.tpl

Vers la ligne 39 vous devriez trouver ceci :

{if $page.meta.robots !== 'index'}
  <meta name="robots" content="{$page.meta.robots}">
{/if}

Nous allons modifier cette condition pour y forcer l'interdiction d'indexation des pages issues des filtres à facette.

{if $page.meta.robots !== 'index'}
  <meta name="robots" content="{$page.meta.robots}">
{elseif isset($smarty.get.order) || isset($smarty.get.q) || http_response_code() == '403'}
  <meta name="robots" content="noindex, follow">
{/if}

Ce code permet de mettre en noindex les pages contenant des requêtes de type q=, order= et les pages en erreur 403.

Si vous ne vous sentez pas l'âme d'un professionnel du codage pour effectuer ces modifications, vous avez la chance de pouvoir profiter d'une large communauté qu'est celle de PrestaShop et de pouvoir simplement installer et configurer le module suivant : Op'art NoIndex: Booster votre SEO, éviter les pénalités

Lorsque vous aurez mis en place toutes ces corrections, il faudra patienter plusieurs semaines/mois pour que le nettoyage de la Google Search Console soit complet. À vous de suivre cela directement.

Lorsque le nettoyage sera complet, remettez en place les règles précédemment commentées ou effacées du fichier rotos.txt :

Disallow: /*?order=
Disallow: /*?q=
Disallow: /*&order=
Disallow: /*&q=

Au bout du compte

Certains vont crier au scandale, comme quoi PrestaShop ne fait rien pour corriger ce genre de problème et patati et patata (vous sentez que ce genre d'argumentaire m'agace), mais là, le problème vient réellement de Google qui semble être de plus en plus mauvais et feignant pour référencer convenablement les sites complexes, je ne parlerais même pas de l'arnaque des pages AMP.

Voyons le positif et justement, PrestaShop étant open source, vous pouvez instantanément trouver une solution proposée par sa communauté pour chaque frein que vous rencontrez au développement de votre boutique.

D'autres vont encore pester, car ils devront acheter des modules complémentaires pour remplacer un module natif. Ici, je rappellerai plusieurs points, celui que ces modules complémentaires font largement plus que le module natif et pour un prix dérisoire par rapport au coût réel de développement de telles fonctionnalités, ou encore que ces modules sont un investissement pour vous permettre comme commerçant d'engranger encore plus de ventes.

Alors n'hésitons plus et installons rapidement ces modules sur nos boutiques PrestaShop pour enfin déclencher de nouvelles ventes et corriger un bug de Google.

Discussions