Quand les idées deviennent des coordonnées Intermédiaire

Embeddings et vecteurs

Voir comment un système transforme des textes ou documents en points d'un espace pour retrouver ce qui se ressemble.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA fait le ménage dans les mots » — lire l'histoire →

11 min embeddingsrecherchesimilarité

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

On transforme chaque document ou question en vecteur.

On compare les distances ou similarités entre vecteurs.

On récupère ce qui semble le plus proche du besoin exprimé.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

Ranger les idées sur une carte géante

Chaque mot, chaque phrase reçoit une « adresse » faite de chiffres, comme des coordonnées sur une carte. C'est ça, un embedding.
Sur cette carte, les idées qui se ressemblent sont rangées côte à côte : « voiture » et « auto » se retrouvent voisines, même sans aucun mot commun.
Pour comparer deux contenus, la machine ne regarde plus les mots exacts : elle mesure la distance entre leurs adresses. Proche sur la carte = sens proche.
C'est exactement ce qui fait qu'une barre de recherche te retrouve la bonne vidéo même quand tu écris ta demande « avec tes mots à toi ».

Un exemple pour toi

Tu cherches « film avec un robot qui devient gentil » sur ton appli de streaming. Tu n'as donné aucun titre exact, pourtant elle te propose les bons films : leurs « adresses » sont voisines de celle de ta phrase sur la carte du sens. Pareil quand Shazam ou ta playlist te suggèrent un morceau « dans la même ambiance ».

« Proche sur la carte » ne veut pas dire « vrai » ni « le meilleur ». Un résultat peut sortir en tête juste parce qu'il ressemble à ta requête, pas parce qu'il est fiable. Les recommandations qui t'enferment dans le même style de contenus marchent sur ce principe : garde l'esprit critique et va vérifier ailleurs au lieu de tout prendre pour argent comptant.

À retenir : un embedding compare le SENS, pas juste les mots. C'est le moteur de la recherche moderne et des outils qui « comprennent » ta question reformulée.

Le déclic en mouvement

Regarde les mots se ranger sur une carte du sens

Chaque mot devient un point. Les sens proches deviennent voisins. Lance une recherche pour voir l'IA retrouver les plus proches, même avec d'autres mots.

Voici des mots. Je vais leur donner une place sur une carte du sens.

chatchienlapinvoiturevélobuspommebanane

8 mots de 3 familles (animaux, véhicules, fruits). On va les ranger par le sens.

Tu cherches…On place la recherche sur la carte et on prend les voisins.

Étape 1 / 4

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

L'étiquette magique

Chaque mot reçoit son adresse secrète, comme une étiquette de jouet

Imagine que chaque mot ou chaque histoire reçoit une petite étiquette pleine de chiffres, comme l'adresse de ta maison. Toi tu ne comprends pas ces chiffres, mais l'ordinateur, lui, sait s'en servir pour ranger les mots qui se ressemblent tout près les uns des autres.

Les copains proches

On regarde qui est rangé tout près, pas si les mots sont pareils

Sur la grande carte, « voiture » et « auto » sont rangées côte à côte, comme deux copains assis l'un à côté de l'autre, même s'ils n'ont pas le même nom. L'ordinateur regarde qui est voisin pour deviner qui parle de la même chose.

Trouver vite

Retrouver le bon livre dans une bibliothèque géante en un clin d'œil

Une fois que tout est bien rangé sur la carte, l'ordinateur peut courir très vite vers les voisins de ta question pour trouver la bonne réponse. C'est comme savoir tout de suite dans quel rayon de la bibliothèque se cache le livre que tu cherches.

Pas toujours juste

Être tout près ne veut pas dire être le bon copain à chaque fois

Parfois deux choses sont rangées à côté mais ne vont pas vraiment ensemble, comme un chat assis près d'un chien. Alors l'ordinateur doit vérifier encore un peu, avec d'autres petits indices, pour ne pas se tromper.

Vecteur = coordonnées

Un vecteur, ce sont des coordonnées GPS posées sur le sens d'un texte

Chaque mot, question ou doc est transformé en une longue liste de nombres, un peu comme des coordonnées GPS (latitude/longitude) mais en beaucoup plus de dimensions. Tu ne lis pas cette liste comme une phrase, mais elle permet à la machine de situer chaque contenu dans un « espace » et de mesurer qui est proche de qui.

Similarité

On mesure une distance de sens, comme la distance entre deux points

Plutôt que de comparer les mots à la lettre, on calcule à quel point deux vecteurs pointent dans la même direction (c'est la similarité). Résultat : « voiture » et « auto », ou un message en argot et sa version formelle, ressortent proches même sans aucun mot commun. C'est ce qui fait que la recherche comprend ce que tu veux dire, pas juste ce que tu tapes.

Recherche vectorielle

Une base vectorielle retrouve les voisins les plus proches en un éclair

Tous les vecteurs sont stockés dans une base spéciale (vector database). Quand tu poses une question, elle est aussi transformée en vecteur, et le système va chercher ses plus proches voisins quasi instantanément. C'est ce moteur qui fait tourner la recherche sémantique et les systèmes RAG, où l'IA récupère les bons passages avant de répondre.

Limites

Proche en maths n'est pas toujours pertinent : il faut affiner

La proximité géométrique est une approximation du sens, pas une preuve : deux contenus peuvent être voisins sans vraiment répondre à ton besoin. C'est pour ça qu'on ajoute du filtrage (par date, catégorie, métadonnées) et du reranking, une seconde étape qui reclasse les résultats pour remonter les plus vraiment utiles.

Vecteurs

Un vecteur, c'est une adresse mathématique dans un espace

Chaque texte, question ou document reçoit une longue liste de nombres. Cette liste ne se lit pas comme une phrase humaine, mais elle permet à la machine de comparer les proximités et les écarts entre contenus.

Similarité

On compare des distances, pas des mots exacts

Deux contenus peuvent être proches même s'ils n'emploient pas les mêmes termes. C'est ce qui permet de retrouver des passages pertinents quand la question de l'utilisateur reformule le problème avec un vocabulaire différent.

Recherche

La recherche vectorielle sert à retrouver vite ce qui semble pertinent

Une fois les vecteurs stockés, on peut chercher rapidement les plus proches d'une question donnée. Cette étape devient une pièce centrale des moteurs documentaires modernes et des pipelines RAG.

Limites

Proche en maths ne veut pas toujours dire parfait pour le métier

C'est pour cela qu'on ajoute souvent du filtrage métier, du reranking, des métadonnées et parfois une validation supplémentaire. La proximité sémantique est très utile, mais elle n'est pas une vérité absolue.

L'image mentale

L'analogie qui aide à retenir

C'est une grande bibliothèque où les livres qui parlent de la même chose sont rangés côte à côte.

C'est comme une appli de rencontre, mais pour les idées : les sens qui matchent finissent voisins sur la carte.

Imagine une salle immense où les idées proches sont rangées sur des étagères voisines.

À retenir

Le coeur de l'idée

La machine range les idées qui se ressemblent tout près, même si les mots changent.

Un embedding compare le SENS des contenus, pas seulement les mots écrits.

Les embeddings mesurent une ressemblance de sens, pas juste une ressemblance de mots.

Comment ça marche

Le mécanisme, découpé étape par étape

Chaque mot reçoit une place sur une grande carte.

Les idées qui se ressemblent sont rangées tout près l'une de l'autre.

« Voiture » et « auto » habitent côte à côte sur la carte.

Quand tu cherches, la machine va voir ce qui est rangé juste à côté.

Chaque texte (un message, une vidéo, une chanson) reçoit une liste de nombres : c'est son adresse sur une carte du sens.

L'appli mesure la distance entre ces adresses pour voir ce qui se ressemble.

Elle te ressort ce qui est le plus proche de ta recherche, même si tu n'as pas tapé les mêmes mots.

Si tu cherches « voiture », elle pense aussi à « auto » : elles sont voisines sur la carte.

Chaque texte, question ou document est transformé en vecteur : une longue liste de nombres qui sert d'adresse dans un espace de sens.

On mesure la distance ou la similarité entre ces vecteurs pour comparer les contenus.

On récupère ce qui est le plus proche du besoin exprimé, même formulé avec d'autres mots.

Ainsi « voiture » et « auto » se retrouvent voisines : proximité géométrique ≈ proximité de sens.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

« Chien » et « toutou » sont voisins sur la carte.

« Vélo » est rangé tout près de « trottinette ».

Tu dis « bonbon », la machine pense aussi à « sucette », parce que c'est rangé à côté.

Spotify te propose un son qui ressemble à celui que tu écoutes en boucle.

YouTube te suggère une vidéo proche de celle que tu viens de mater.

Tu tapes « jeu de combat » dans un store et il te sort des titres de bagarre, même sans le mot exact.

Retrouver le bon passage d'un manuel ou d'une procédure interne sans connaître les mots exacts du texte.

Regrouper automatiquement des tickets de support qui parlent du même problème.

Détecter des doublons de sens entre fiches ou articles, même rédigés différemment.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Des fois la machine range un mot un peu trop loin de son vrai copain.

Si la carte est mal rangée, elle trouve le mauvais voisin.

Voisin, ça ne veut pas toujours dire « la bonne réponse ».

Être proche sur la carte n'est jamais une preuve parfaite que c'est le bon résultat.

La qualité dépend du modèle d'embedding et de documents bien nettoyés.

Il faut souvent rajouter un tri (reranking) ou des règles pour coller au vrai besoin.

Une proximité mathématique n'est jamais une preuve parfaite de pertinence.

La qualité dépend du modèle d'embedding choisi et du nettoyage des documents.

Il faut souvent ajouter du reranking ou de la logique métier.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit qu'il faut écrire pile le même mot pour trouver.

Ce qu'il faut garder

En vrai, « chat » et « minou » sont voisins, alors la machine trouve quand même.

Ce qu'on imagine

On croit que voisin sur la carte, c'est toujours la bonne réponse.

Ce qu'il faut garder

En vrai, pas toujours : des fois la machine se trompe de voisin.

Ce qu'on imagine

« Chercher, c'est juste comparer les mots identiques. »

Ce qu'il faut garder

Non : « voiture » et « auto » sont proches sur la carte même sans aucun mot commun.

Ce qu'on imagine

« Si deux trucs sont voisins sur la carte, c'est forcément la bonne réponse. »

Ce qu'il faut garder

Pas toujours. Proche en maths ne veut pas dire pertinent : on rajoute souvent du tri (reranking) et de la logique.

Ce qu'on imagine

« Un vecteur, c'est une image. »

Ce qu'il faut garder

Non, c'est une longue liste de nombres : illisible pour toi, mais comparable par la machine.

Ce qu'on imagine

« Chercher, c'est juste comparer les mots identiques. »

Ce qu'il faut garder

Non. Les embeddings comparent le sens : « voiture » et « auto » sont proches même sans mot commun.

Ce qu'on imagine

« Si deux textes sont proches dans l'espace, c'est forcément la bonne réponse. »

Ce qu'il faut garder

Pas toujours. La proximité mathématique est utile mais pas une preuve : on ajoute souvent du reranking et de la logique métier.

Ce qu'on imagine

« Un vecteur, c'est une image ou un dessin. »

Ce qu'il faut garder

Non, c'est une longue liste de nombres — une « adresse » dans un espace, illisible pour un humain mais comparable par la machine.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Une place pour chaque mot

Chaque mot a son coin sur la grande carte.

Voisins = se ressemblent

Les idées proches sont rangées côte à côte.

Mots différents, même coin

« Auto » et « voiture » sont voisines.

Pas toujours parfait

Parfois la machine se trompe un peu de voisin.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Une adresse de sens

Chaque contenu reçoit une liste de nombres qui le situe sur une carte.

Proche = sens proche

On mesure des distances, pas des mots identiques.

Le moteur de la reco

C'est ce qui fait marcher recherche sémantique et suggestions.

Utile mais pas parfait

On ajoute des filtres pour que ça colle vraiment au besoin.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Un embedding = une place sur la carte

Chaque contenu reçoit des coordonnées numériques.

Proche = sens proche

On compare des distances, pas des mots exacts.

Cœur de la recherche sémantique

Et des moteurs RAG : retrouver le bon passage.

Utile mais pas parfait

On ajoute filtres, métadonnées et reranking pour le métier.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

Embeddings et vecteurs

À la fin, ce sont ces idées qui doivent rester

Une adresse de sensChaque contenu reçoit une liste de nombres qui le situe sur une carte.
Proche = sens procheOn mesure des distances, pas des mots identiques.
Le moteur de la recoC'est ce qui fait marcher recherche sémantique et suggestions.
Utile mais pas parfaitOn ajoute des filtres pour que ça colle vraiment au besoin.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi un embedding, simplement ?

Une façon de transformer un texte en coordonnées numériques, pour ranger les contenus proches en sens au même endroit d'une « carte ».

C'est quoi un vecteur, ici ?

Une longue liste de nombres qui sert d'adresse au contenu dans l'espace. On compare ces adresses pour mesurer la ressemblance de sens.

Pourquoi c'est mieux que chercher les mêmes mots ?

Parce que ça retrouve le bon contenu même quand l'utilisateur reformule avec d'autres mots (« auto » au lieu de « voiture »).

Les embeddings se trompent-ils ?

Oui : proche en maths ne veut pas toujours dire pertinent. On ajoute souvent du reranking, des métadonnées et de la logique métier.

Continuer le parcours

La suite, pensée comme une montée en compréhension

On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.

Voir la fiche

RAG expliqué simplement

Pour voir les embeddings au travail : retrouver les bons passages avant de répondre.

Suite 1

Voir la fiche

Tokens et grands modèles de langage

Pour revoir d'où viennent ces représentations numériques.

Suite 2

Voir la fiche

Agents vs workflows

Pour orchestrer la recherche dans des systèmes plus complets.

Suite 3