Introduction
Les systèmes de topicalité de base de Google ont récemment fait l’objet d’un intérêt accru après qu’un podcast de Google Search Off The Record a mentionné leur existence en tant que partie intégrante des algorithmes de classement. Ce sujet, bien que complexe, est crucial pour comprendre les stratégies SEO modernes. Si peu de détails sont connus sur ces systèmes de topicalité de base, il est possible de déduire leur nature et leurs implications pour le SEO. La documentation de Google pour leur service de recherche commerciale en cloud offre une définition de la topicalité qui, bien qu’elle ne soit pas directement liée à leur propre moteur de recherche, fournit une idée utile de ce que Google pourrait désigner par « systèmes de topicalité de base ».
Définition de la topicalité
La documentation en cloud de Google définit la topicalité comme étant la pertinence d’un résultat de recherche par rapport aux termes de la requête initiale. C’est une explication simple et efficace de la relation entre les pages web et les requêtes de recherche. Il n’est pas nécessaire de rendre cela plus compliqué.
Comment atteindre la pertinence?
Pour comprendre ce qui pourrait constituer un composant des systèmes de topicalité de Google, il est utile de commencer par la manière dont les moteurs de recherche comprennent les requêtes de recherche et représentent les sujets dans les documents de pages web.
Comprendre les requêtes de recherche
Comprendre ce que les utilisateurs veulent dire équivaut à comprendre le sujet qui les intéresse. Les utilisateurs de moteurs de recherche peuvent utiliser des requêtes ambiguës lorsqu’ils veulent dire quelque chose de plus spécifique. Le premier système d’IA déployé par Google, RankBrain, a été mis en place pour mieux comprendre les concepts inhérents aux requêtes de recherche. Le terme « concept » est plus large que le terme « sujet » car les concepts sont des représentations abstraites. Un système qui comprend les concepts dans les requêtes de recherche peut alors aider le moteur de recherche à retourner des résultats pertinents sur le bon sujet.
Google décrit le rôle de RankBrain ainsi : « RankBrain nous aide à trouver des informations que nous ne pouvions pas trouver auparavant en comprenant plus largement comment les mots dans une recherche se rapportent aux concepts du monde réel. Par exemple, si vous recherchez ‘quel est le titre du consommateur au plus haut niveau d’une chaîne alimentaire’, nos systèmes apprennent en voyant ces mots sur diverses pages que le concept de chaîne alimentaire peut concerner les animaux et non les consommateurs humains. En comprenant et en faisant correspondre ces mots aux concepts associés, RankBrain comprend que vous recherchez ce qu’on appelle couramment un ‘prédateur de sommet’. »
Comprendre les sujets
BERT est un modèle d’apprentissage profond qui aide Google à comprendre le contexte des mots dans les requêtes pour mieux saisir le sujet général du texte. Je ne pense pas que les moteurs de recherche modernes utilisent encore la modélisation de sujets, mais une technique de modélisation statistique appelée Modélisation Latente de Dirichlet (LDA) était utilisée par le passé pour comprendre de quoi parlent les pages web et les faire correspondre aux requêtes de recherche. Vers 2015, des chercheurs ont publié des articles sur le Modèle de Document Variationnel Neuronal (NVDM), une méthode encore plus puissante pour représenter les sujets sous-jacents des documents.
Un des articles de recherche les plus récents s’intitule « Beyond Yes and No: Improving Zero-Shot LLM Rankers via Scoring Fine-Grained Relevance Labels ». Cet article traite de l’amélioration de l’utilisation des grands modèles de langage pour classer les pages web, un processus de notation de pertinence. Il s’agit de dépasser une classification binaire pour une méthode plus précise utilisant des labels comme « Très Pertinent », « Assez Pertinent » et « Non Pertinent ».
Ce papier de recherche précise : « Nous proposons d’incorporer des labels de pertinence fine dans l’invite pour les classificateurs LLM, leur permettant de mieux différencier les documents avec différents niveaux de pertinence par rapport à la requête et ainsi de fournir un classement plus précis. »
Éviter la pensée réductrice
Les moteurs de recherche vont au-delà de la simple récupération d’information et se dirigent vers une résolution de questions plus précise, une tendance qui s’est accélérée ces dernières années. Cela avait été prédit dans un article de 2001 intitulé « Rethinking Search: Making Domain Experts out of Dilettantes ». Cet article proposait la nécessité de s’engager pleinement dans la fourniture de réponses de niveau expert.
Le document commence ainsi : « Lorsqu’ils éprouvent un besoin d’information, les utilisateurs veulent s’engager avec un expert du domaine, mais se tournent souvent vers un système de récupération d’information, tel qu’un moteur de recherche. Les systèmes traditionnels ne répondent pas directement aux besoins d’information, mais fournissent des références à des réponses (espérons-le, autoritaires). Les systèmes de réponse aux questions réussis offrent un corpus limité créé à la demande par des experts humains, ce qui n’est ni opportun ni évolutif. Les modèles de langage pré-entraînés, en revanche, sont capables de générer directement des textes qui peuvent répondre à un besoin d’information, mais pour l’instant, ils sont des dilettantes plutôt que des experts du domaine – ils n’ont pas une réelle compréhension du monde … »
Le principal enseignement est qu’il est contre-productif d’appliquer une pensée réductrice à la manière dont Google classe les pages web, comme en mettant un accent exagéré sur les mots-clés, les éléments de titre et les en-têtes. Les technologies sous-jacentes évoluent rapidement pour comprendre le monde, donc si l’on veut réfléchir aux systèmes de topicalité de base, il est utile de le faire dans un contexte qui va au-delà des systèmes de récupération d’information « classiques ». Les méthodes que Google utilise pour comprendre les sujets sur les pages web et les faire correspondre aux requêtes de recherche deviennent de plus en plus sophistiquées, et il est bon de se familiariser avec les façons dont Google l’a fait par le passé et la manière dont ils pourraient le faire actuellement.