Google vient de mettre en lumière un problème significatif pour les crawlers : les paramètres d’URL. Lors d’un récent épisode du podcast « Search Off The Record », Gary Illyes, analyste chez Google, a expliqué comment les paramètres peuvent créer une infinité d’URL pour une seule page, entraînant des inefficacités de crawl.
Le Problème des URL Infinies
Illyes a expliqué que les paramètres d’URL peuvent générer un nombre pratiquement infini d’URLs pour une seule page. Il déclare :
« Techniquement, vous pouvez ajouter un nombre presque infini de paramètres à n’importe quelle URL, et le serveur ignorera simplement ceux qui n’altèrent pas la réponse. »
Cela pose un problème pour les moteurs de recherche. Bien que ces variations puissent mener au même contenu, les crawlers ne peuvent pas le savoir sans visiter chaque URL. Cela peut entraîner une utilisation inefficiente des ressources de crawl et des problèmes d’indexation.
Sites E-commerce Les Plus Touchés
Le problème est particulièrement courant parmi les sites e-commerce, qui utilisent souvent des paramètres d’URL pour suivre, filtrer et trier les produits. Par exemple, une page produit unique peut avoir plusieurs variations d’URL pour différentes options de couleur, tailles ou sources de référence.
Illyes souligne :
« Parce que vous pouvez simplement ajouter des paramètres d’URL… cela signifie également que lorsque vous crawlez, et que vous suivez les liens, tout devient beaucoup plus compliqué. »
Contexte Historique
Google se débat avec ce problème depuis des années. Par le passé, Google proposait un outil de paramètres d’URL dans Search Console pour aider les webmasters à indiquer quels paramètres étaient importants et lesquels pouvaient être ignorés.
Cependant, cet outil a été déprécié en 2022, laissant certains SEO inquiets sur la manière de gérer ce problème.
Solutions Potentielles
Bien qu’Illyes n’ait pas offert de solution définitive, il a suggéré plusieurs approches potentielles :
- Google explore des moyens de gérer les paramètres d’URL, potentiellement en développant des algorithmes pour identifier les URLs redondantes.
- Une communication plus claire de la part des propriétaires de sites sur leur structure d’URL pourrait aider. « Nous pourrions simplement leur dire d’utiliser cette méthode pour bloquer cet espace URL, » a-t-il noté.
- Les fichiers robots.txt pourraient être utilisés davantage pour guider les crawlers. « Avec robots.txt, il est surprenant de voir à quel point vous pouvez faire preuve de flexibilité, » a-t-il ajouté.
Implications Pour le SEO
Cette discussion a plusieurs implications pour le SEO :
- Budget de Crawl : Pour les grands sites, gérer les paramètres d’URL peut aider à économiser le budget de crawl, en veillant à ce que les pages importantes soient crawlées et indexées.
- Architecture du Site : Les développeurs peuvent avoir besoin de repenser la structure des URLs, en particulier pour les grands sites e-commerce avec de nombreuses variations de produits.
- Navigation à Facettes : Les sites e-commerce utilisant la navigation à facettes devraient être attentifs à l’impact sur la structure des URLs et la crawlabilité.
- Balises Canoniques : L’utilisation des balises canoniques peut aider Google à comprendre quelle version d’URL doit être considérée comme principale.
Gary Illyes a souligné que Google continue de travailler sur le problème, notamment en explorant de nouvelles solutions algorithmiques et en améliorant la communication avec les propriétaires de sites. Cependant, il est essentiel pour les webmasters de surveiller leurs structures d’URL et d’utiliser les outils disponibles pour guider les crawlers de manière efficace.