Dans le dernier épisode du podcast « Search Off the Record », l’équipe des relations de recherche de Google a exploré les complexités du web crawling et les améliorations potentielles dans une discussion approfondie sur les technologies de web crawling. Publié le 8 août 2024, cet épisode a mis en avant John Mueller, Lizzi Sassman et Gary Illyes, discutant des idées fausses sur la fréquence de crawl, la qualité des sites, et les défis auxquels les moteurs de recherche sont confrontés lors du crawling du web moderne.
Le podcast, qui en est maintenant à son 79e épisode, a abordé plusieurs problèmes clés liés au web crawling. Gary Illyes a commencé par souligner une idée fausse courante parmi les propriétaires de sites web : une fréquence de crawl accrue n’indique pas nécessairement une meilleure qualité de site. Il a précisé que bien que les sites de haute qualité puissent être crawlés plus fréquemment, d’autres facteurs comme la charge du serveur et les mises à jour de contenu jouent également un rôle crucial dans la détermination des taux de crawl.
John Mueller a mis l’accent sur l’importance des temps de réponse des serveurs, notant que les serveurs lents peuvent avoir un impact significatif sur l’efficacité du crawling. Il a exhorté les propriétaires de sites à consulter régulièrement leur rapport sur les statistiques de crawl dans la Google Search Console, expliquant que des temps de réponse de plusieurs secondes peuvent réduire considérablement le nombre de pages que Google peut crawler dans un laps de temps donné.
Améliorations potentielles en matière d’efficacité de crawling
L’équipe a également discuté des améliorations potentielles en matière d’efficacité de crawling, avec Gary Illyes mentionnant des travaux en cours sur une meilleure gestion des paramètres d’URL. Ce problème survient en raison des variations quasi infinies d’URL pouvant être créées en ajoutant des paramètres, ce qui peut entraîner un crawling excessif et inutile. Illyes a suggéré que des méthodes améliorées pour identifier et gérer ces paramètres pourraient réduire significativement les tentatives de crawl inutiles.
Un concept intrigant exploré au cours du podcast était la possibilité de mises à jour de contenu plus granulaires. À l’heure actuelle, lorsque qu’une page change, les moteurs de recherche doivent généralement recrawler l’ensemble de la page. L’équipe a spéculé sur les technologies futures qui pourraient permettre aux serveurs de communiquer uniquement les parties modifiées d’une page, économisant ainsi une bande passante et une puissance de traitement substantielles tant pour les moteurs de recherche que pour les sites web.
La discussion a touché le groupe de travail de l’ingénierie Internet (IETF) et une proposition pour un nouveau type de transfert fragmenté, qui pourrait répondre à certains de ces défis. Cependant, l’équipe a reconnu que la mise en œuvre de tels changements serait complexe et nécessiterait une coopération significative à travers l’écosystème web.
Défis des hashtags dans les URL
Lizzi Sassman a soulevé des questions sur l’utilisation des hashtags (ou ancres) dans les URL, ce qui a conduit à une conversation sur les défis que cela représente pour les crawlers. Gary Illyes a expliqué que, puisque les hashtags sont généralement traités côté client, ils peuvent créer des complications pour les processus de crawling côté serveur.
Le rôle des hébergeurs dans la résolution des problèmes de crawling
Le podcast a également abordé le rôle des sociétés d’hébergement dans la résolution des problèmes liés au crawl. Gary Illyes a exprimé sa frustration face à des situations où les fournisseurs d’hébergement attribuent à tort les problèmes de crawl à Google, alors que les problèmes résident en réalité dans leur propre infrastructure. Il a plaidé pour une meilleure éducation et une résolution proactive des problèmes de la part des sociétés d’hébergement pour aborder ces défis.
Tout au long de la discussion, l’équipe a souligné la nécessité de trouver un équilibre entre un crawling complet et une efficacité des ressources. Ils ont noté que bien que Google dispose de ressources substantielles pour le crawling, il est toujours nécessaire d’optimiser le processus afin d’assurer que le contenu le plus précieux soit découvert et indexé efficacement.
Cette conversation a mis en lumière l’évolution continue des technologies web et les efforts constants nécessaires pour maintenir les pratiques de crawling des moteurs de recherche à jour. À mesure que les sites web deviennent plus complexes et dynamiques, les défis liés au crawling et à l’indexation efficaces du contenu continuent de croître.
Cet épisode de « Search Off the Record » offre des aperçus précieux pour les webmasters, les professionnels du SEO et quiconque s’intéresse aux aspects techniques du fonctionnement des moteurs de recherche pour découvrir et traiter le contenu web. Il souligne la complexité du crawling web moderne et le travail continu visant à améliorer ces processus.
Pour ceux qui souhaitent approfondir ces sujets, la transcription complète de l’épisode du podcast est disponible sur le site Google Search Central. De plus, les auditeurs peuvent trouver d’autres épisodes de « Search Off the Record » sur diverses plateformes de podcast ou via la chaîne YouTube Google Search Central.