Si vous êtes un praticien SEO ou un marketeur digital, vous avez probablement déjà expérimenté l’IA et les chatbots dans votre travail quotidien. Mais comment tirer le meilleur parti de l’IA au-delà de l’utilisation d’une interface utilisateur de chatbot ?

Pour cela, il faut comprendre en profondeur comment fonctionnent les grands modèles de langage (LLMs) et apprendre les bases du codage. Oui, le codage est absolument nécessaire pour réussir en tant que professionnel du SEO de nos jours.

Qu’est-ce qu’un vecteur ?

En mathématiques, les vecteurs sont des objets décrits par une liste ordonnée de nombres (composants) correspondant aux coordonnées dans l’espace vectoriel. Un exemple simple de vecteur est un vecteur dans un espace bidimensionnel, représenté par des coordonnées (x,y).

Les vecteurs définis par des coordonnées ont une longueur, appelée la magnitude ou norme. Pour notre cas simplifié bidimensionnel, elle est calculée par la formule :

L = √((x1)² + (y1)²)

Cependant, les mathématiciens ont défini des vecteurs avec un nombre arbitraire de coordonnées abstraites (X1, X2, X3 … Xn), ce qu’on appelle un vecteur “N-dimensionnel”.

Avec les embeddings de LLM, nous entrons dans le domaine de l’abstraction où les vecteurs peuvent représenter des significations complexes et des relations entre les mots.

Qu’est-ce que l’embedding de texte ?

Les embeddings de texte sont des vecteurs abstraits de haute dimension représentant du texte, capturant le contexte sémantique et les relations entre les mots. Dans le jargon des LLM, les “mots” sont appelés des tokens de données, chaque mot étant un token. Plus abstraitement, les embeddings sont des représentations numériques de ces tokens, encodant les relations entre n’importe quels tokens de données.

Pour calculer la proximité sémantique des mots, nous devons les convertir en nombres. Tout comme vous pouvez soustraire des nombres (par exemple, 10-6=4), vous pouvez soustraire des vecteurs pour calculer leur proximité.

Qu’est-ce que la similarité cosinus ?

La similarité cosinus mesure le cosinus de l’angle entre deux vecteurs, c’est-à-dire la proximité de leur alignement. Elle est définie comme suit :

cos(α) = (A · B) / (|A| · |B|)

Les valeurs vont de -1 (complètement opposé) à 1 (identique), une valeur de 0 signifiant que les vecteurs sont perpendiculaires. Voici quelques exemples de similarités cosinus :

Similarité Cosinus = 1 (Identique)

“Top 10 Hidden Gems for Solo Travelers in San Francisco”

“Top 10 Hidden Gems for Solo Travelers in San Francisco”

Ces textes sont identiques, donc leurs embeddings seraient les mêmes, résultant en une similarité cosinus de 1.

Similarité Cosinus = 0 (Perpendiculaire, ce qui signifie sans rapport)

“Quantum mechanics”

“I love rainy day”

Ces textes sont totalement sans rapport, résultant en une similarité cosinus de 0 entre leurs embeddings BERT.

La similarité cosinus peut être utilisée pour :

  • Classification
  • Clustering de mots-clés
  • Mise en œuvre de redirections
  • Liens internes
  • Détection de contenu dupliqué
  • Recommandation de contenu
  • Analyse des concurrents

Qu’est-ce que la distance Euclidienne ?

Dans le cas de deux vecteurs A(X1, Y1) et B(X2, Y2), la distance Euclidienne est calculée par la formule suivante :

D = √((x2 – x1)² + (y2 – y1)²)

Elle peut être utilisée pour :

  • Évaluation de la densité des mots-clés dans le contenu
  • Détection de contenu dupliqué avec une structure similaire
  • Analyse de la distribution des textes d’ancrage
  • Clustering de mots-clés

Un point clé à retenir est que vous ne devez pas vous fier uniquement à la similarité cosinus mais utiliser d’autres méthodes, selon les besoins du projet.

Qu’est-ce que la normalisation L2 ?

La normalisation L2 est une transformation mathématique appliquée aux vecteurs pour en faire des vecteurs unitaires avec une longueur de 1. Pour expliquer simplement, imaginons que Bob et Alice ont marché sur une longue distance. Pour comparer leurs directions, nous apportons les deux à la même distance plus proche du point de départ. Dans le contexte des embeddings de texte, cette normalisation nous aide à nous concentrer sur la similarité sémantique entre les textes.

La plupart des modèles d’embeddings, tels que ceux d’OpenAI ou de Google Vertex AI, retournent des embeddings pré-normalisés.

C’est le début de notre série d’articles qui vise à vous familiariser avec le jargon des LLM. Les prochains chapitres couvriront :

  • Introduction aux embeddings de texte d’OpenAI avec des exemples
  • Introduction aux embeddings de texte de Google Vertex AI avec des exemples
  • Introduction aux bases de données vectorielles
  • Utilisation des embeddings LLM pour les liens internes
  • Utilisation des embeddings LLM pour mettre en œuvre des redirections à grande échelle
  • Comment créer un plugin WordPress basé sur les LLM pour les liens internes
Share.

Comments are closed.

Exit mobile version