Google a discrètement introduit un nouveau robot d’indexation dans leur documentation des crawlers, conçu pour les clients commerciaux de leur produit Vertex AI. Ce nouvel agent, nommé Google-CloudVertexBot, est destiné à ingérer le contenu des sites web pour les clients de Vertex AI, contrairement à d’autres bots listés dans la documentation Search Central qui sont associés à la recherche Google ou à la publicité.
Agents Vertex AI
Dans la documentation officielle de Google Cloud, le Google-CloudVertexBot est décrit comme un crawler qui indexe les sites web à la demande des propriétaires de sites, notamment pour la construction d’agents Vertex AI. Selon cette documentation, différents types de stores de données peuvent être utilisés dans Vertex AI Agent Builder, un store de données pouvant contenir un seul type de données, y compris les données de sites web publics. Il existe deux types d’indexation des sites web avec des limitations spécifiques à chaque type :
- Indexation de base des sites web
- Indexation avancée des sites web
La Documentation : Une Source de Confusion
La documentation explique que les stores de données contenant des données de sites web utilisent des données indexées à partir de sites web publics. Vous pouvez fournir un ensemble de domaines et configurer des recherches ou des recommandations sur les données extraites de ces domaines, incluant le texte et les images avec des balises méta.
Pour l’indexation de base, aucune vérification de domaine n’est mentionnée. Cependant, pour l’indexation avancée, la vérification de domaine est requise et des quotas d’indexation sont imposés. La documentation concernant le crawler indique que le nouveau bot crawle à la demande des propriétaires de sites, suggérant qu’il ne crawlerait pas les sites publics sans vérification préalable.
Qu’est-ce que cela implique pour les propriétaires de sites ?
La note du Changelog pour ce nouveau crawler indique qu’il a été introduit pour aider les propriétaires de sites à identifier le nouveau trafic de crawler. Toutefois, l’absence de clarté dans la documentation peut susciter des préoccupations. Il n’est pas déraisonnable de se demander si ce nouveau crawler pourrait être bloqué via le fichier robots.txt par précaution.
Les Défis de la Documentation
La documentation semble laissée à l’interprétation concernant les capacités de crawl du Google-CloudVertexBot. Tandis que certaines sections suggèrent une utilisation restreinte aux domaines vérifiés par les entités initiatrices du crawl, d’autres sections, en particulier le Changelog, suggèrent que le crawler pourrait avoir un impact plus large sur les sites publics.
Cette ambiguïté pourrait inciter les propriétaires de sites à adopter une approche prudente en surveillant les logs du serveur pour toute activité inattendue liée à ce nouvel agent et en définissant des règles dans le fichier robots.txt si nécessaire.
Résumé de la Situation Actuelle
Pour résumer, Google-CloudVertexBot semble être une avancée intéressante dans le domaine de l’intelligence artificielle et du crawl de sites pour des usages commerciaux spécifiques. Cependant, la clarté de la documentation et la manière dont cette information est communiquée aux développeurs et aux propriétaires de sites reste un point d’amélioration crucial. Il est essentiel de suivre de près toute mise à jour future de la documentation ou des communications officielles de Google concernant ce nouveau crawler.