Rouvrir le cahier avant de répondre Intermédiaire

RAG expliqué simplement

Comprendre le principe du Retrieval-Augmented Generation sans le transformer en jargon intimidant.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « Le carnet magique de IA » — lire l'histoire →
12 min ragdocumentsfiabilité
Pas de jargon Compréhensible vite
Mascotte de L'IA du Zéro

Les documents sont découpés en blocs utiles.

Ces blocs sont indexés ou vectorisés.

La question de l'utilisateur lance une recherche.

1. Je découvre une version simple et imagée
2. Je comprends le vrai mécanisme sans jargon inutile
3. Je m'entraîne avec un mini quiz immédiat
4. Je retiens les points clés à réexpliquer

Réviser avant de répondre, pas répondre au pif

  • Le RAG, c'est demander à l'IA d'aller d'abord chercher les bons documents, puis de répondre en s'appuyant dessus, au lieu de répondre seulement « de tête ».
  • Concrètement : on découpe les textes en petits blocs (des « chunks »), on les range pour pouvoir les retrouver par le sens, et la question va piocher les passages les plus pertinents.
  • Ces quelques passages sont glissés sous les yeux du modèle juste avant qu'il rédige : il répond donc à partir de vraies sources, idéalement en les citant.
  • La qualité dépend surtout de la préparation des documents : mauvais découpage ou mauvaise recherche = mauvaise réponse, même avec un super modèle.
Un exemple pour toi

Imagine un bot Discord qui répond aux questions sur ton jeu vidéo préféré. Sans RAG, il invente à partir de vagues souvenirs. Avec RAG, il va d'abord ouvrir le wiki officiel du jeu, retrouver le bon passage sur l'arme ou le boss dont tu parles, et te répondre avec la vraie info à jour, en citant la page.

Même avec RAG, vérifie la source. Si le bot « cite » un document, regarde lequel : il peut très bien avoir attrapé le mauvais passage ou une page périmée et te répondre avec assurance une info fausse. Une réponse qui affiche une source paraît fiable, mais la source elle-même peut être à côté de la plaque. Garde le réflexe de remonter à l'original avant de tout croire.

Retiens l'ordre : on cherche d'abord, on répond ensuite. Le RAG relie l'IA aux bonnes sources au bon moment, il ne la rend pas magique.

Le déclic en mouvement

Regarde l'IA chercher les bonnes sources avant de répondre

Question → recherche des bons passages → réponse ancrée. Compare une réponse « de mémoire » à une réponse « avec RAG » (exacte et sourcée).

Tu me poses une question. Je ne vais pas répondre de mémoire.
« Combien de jours de congés ? »

Bonne question pour un assistant RH. La bonne réponse est dans un document interne.

Comment le modèle répond ?Avec RAG : ancré sur le passage trouvé, avec la source.
Étape 1 / 4
Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier
1
Les morceaux

On coupe les gros livres en petits bouts faciles à retrouver

Un livre entier, c'est trop long pour vite trouver la bonne info. Alors on le coupe en petits bouts, comme quand tu coupes une grande tablette de chocolat en carrés. Chaque petit bout doit garder assez d'histoire pour qu'on comprenne, mais pas trop, sinon on se perd.

2
Le rangement malin

Chaque petit bout reçoit une étiquette d'idée pour le retrouver vite

Une fois coupés, les petits bouts sont rangés un peu comme des jouets dans des boîtes étiquetées. Comme ça, quand tu poses une question, la machine va tout de suite à la bonne boîte au lieu de fouiller partout. Elle retrouve les bouts qui parlent de la même chose que ta question.

3
Juste les bons bouts

La machine ne lit pas tout, seulement les meilleurs petits bouts

La machine ne lit pas tout le livre d'un coup. Elle prend juste les 2 ou 3 petits bouts les plus utiles et elle les regarde avant de répondre, comme quand tu relis seulement la bonne page de ton cahier avant de parler. Ça l'aide à dire des choses justes au lieu d'inventer.

4
Bien ranger d'abord

Si les bouts sont mal rangés, la réponse sera ratée

Si les petits bouts sont sales, mal coupés ou rangés n'importe comment, la machine va prendre les mauvais et se tromper. C'est comme chercher ton crayon dans une chambre en désordre : tu ne le trouves jamais. Bien ranger les bouts, c'est presque plus important que la machine elle-même.

1
Chunking

On découpe les documents en blocs (chunks) repérables

Un document complet est trop long pour une recherche précise, comme chercher une réplique dans tout un film au lieu d'un clip TikTok. On le coupe donc en morceaux appelés chunks. Un bon chunk garde assez de contexte pour rester compréhensible, mais reste court pour éviter le bruit, c'est-à-dire les infos inutiles qui brouillent la recherche.

2
Vectorisation

Chaque chunk devient un vecteur pour la recherche par le sens

Chaque bloc est transformé en embedding : une suite de chiffres qui résume son idée. C'est un peu comme l'algorithme de ton fil de recommandations qui range les vidéos par thème. Ces vecteurs vont dans une base vectorielle, ce qui permet de retrouver les passages qui ressemblent au sens de ta question, pas juste aux mots exacts.

3
Injection

On donne au modèle seulement les meilleurs passages, pas toute la base

Après la recherche, on sélectionne quelques extraits et on les colle dans le contexte du modèle, c'est-à-dire la zone de texte qu'il lit avant de répondre (un peu comme une antisèche autorisée). Le modèle s'appuie sur cette matière préparée, ce qui réduit les réponses inventées, aussi appelées hallucinations.

4
Qualité finale

Le RAG vaut surtout ce que vaut sa préparation des documents

Si les documents sont mal nettoyés, mal découpés, périmés ou mal indexés, le modèle hérite du désordre, comme réviser sur des notes fausses avant un contrôle. Le RAG est donc autant un travail d'ingénierie documentaire (préparer et organiser les sources) qu'un travail de génération de texte.

1
Chunking

On découpe les documents en blocs que le système pourra retrouver

Un document entier est souvent trop long ou trop flou pour une recherche précise. On le coupe donc en morceaux utiles appelés chunks. Un bon chunk garde assez de contexte pour rester compréhensible, mais pas trop pour éviter le bruit.

2
Vectorisation

Chaque chunk devient un vecteur pour la recherche sémantique

Une fois découpés, les blocs sont convertis en embeddings puis stockés dans un index ou une base vectorielle. Cela permet de retrouver rapidement les passages qui ressemblent le plus à la question posée.

3
Injection

Le modèle ne lit pas toute la base, seulement les meilleurs passages

Après la recherche, on sélectionne quelques extraits et on les injecte dans le prompt ou dans le contexte du modèle. Le modèle répond ensuite à partir de cette matière préparée, ce qui limite les réponses hors-sol.

4
Qualité finale

Le RAG est aussi bon que sa préparation documentaire

Si les documents sont mal nettoyés, mal découpés, mal datés ou mal recherchés, le modèle héritera de ce désordre. Le RAG est donc autant un travail d'ingénierie documentaire qu'un travail de génération.

L'image mentale

L'analogie qui aide à retenir

C'est comme un copain qui relit la bonne page de son cahier avant de répondre à la maîtresse.

C'est comme rouvrir le bon chapitre de ton cours avant de répondre en interro, au lieu de répondre au feeling.

Un bon élève n'invente pas tout : il relit d'abord la bonne page de son cours avant de répondre.

À retenir

Le coeur de l'idée

La machine répond mieux quand elle lit le bon cahier avant de parler.

Le RAG ne rend pas l'IA omnisciente : il lui met les bonnes sources sous les yeux avant qu'elle réponde.

Le RAG ne rend pas un modèle omniscient : il l'aide à répondre avec les bonnes sources sous les yeux.

Comment ça marche

Le mécanisme, découpé étape par étape

1

Au lieu de répondre de tête, la machine ouvre d'abord le bon cahier.

2

Elle cherche la bonne page qui parle de ta question.

3

Elle lit cette page avant de te répondre.

4

Comme ça, elle se trompe beaucoup moins.

1

On découpe les documents en petits blocs faciles à retrouver.

2

On range ces blocs pour pouvoir les chercher par le sens, pas juste par mot-clé.

3

Ta question part chercher les blocs les plus utiles.

4

On donne ces blocs à l'IA, et elle répond en s'appuyant dessus.

1

Les documents sont découpés en blocs utiles (chunks).

2

Ces blocs sont indexés ou vectorisés pour la recherche par le sens.

3

Ta question lance une recherche qui remonte les passages les plus pertinents.

4

Ces passages sont injectés dans le contexte du modèle, qui répond en s'appuyant dessus, idéalement avec citations.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Pour parler des dinosaures, elle ouvre ton livre de dinosaures avant de répondre.

Tu demandes les règles d'un jeu de billes : elle relit la fiche du jeu d'abord.

Tu veux la recette des crêpes : elle regarde la recette avant de te la dire.

Un chatbot de jeu vidéo qui répond en allant lire le wiki officiel au lieu d'inventer.

Une appli de révision qui cite la bonne page de ton cours avant de t'expliquer.

Un assistant qui répond au règlement intérieur de ton lycée en citant l'article exact.

Un assistant RH répond aux salariés à partir du règlement interne.

Un support client cite la bonne page de la documentation produit.

Un juriste retrouve les passages pertinents d'un contrat avant d'en faire un résumé.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Si elle ouvre le mauvais cahier, sa réponse est fausse.

Si les pages sont mal rangées, elle ne trouve pas la bonne.

Elle se trompe moins, mais elle peut encore se tromper.

Si la recherche se trompe de passages, la réponse part en vrille.

La façon de découper les documents change tout le résultat.

Ça améliore la fiabilité, mais ça ne garantit pas zéro erreur.

Si la recherche récupère les mauvais passages, la réponse sera mauvaise.

Le découpage des documents (chunking) compte énormément.

Le RAG améliore l'ancrage, mais n'élimine pas tous les risques d'erreur.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine ne se trompe plus jamais.

Ce qu'il faut garder

En vrai, si elle ouvre le mauvais cahier, elle dit encore des bêtises.

Ce qu'on imagine

On croit qu'elle lit tous les cahiers d'un coup.

Ce qu'il faut garder

En vrai, elle lit juste la bonne page qu'elle a trouvée.

Ce qu'on imagine

« Avec le RAG, l'IA ne se trompe plus jamais. »

Ce qu'il faut garder

Faux. Si la recherche ramène les mauvais passages, la réponse sera fausse quand même.

Ce qu'on imagine

« Le RAG, c'est juste un modèle plus puissant. »

Ce qu'il faut garder

Non. C'est surtout une meilleure préparation : découpage, rangement, recherche. La qualité dépend autant de ça que du modèle.

Ce qu'on imagine

« L'IA lit toute la base à chaque question. »

Ce qu'il faut garder

Non. Elle ne lit que les quelques passages que la recherche a sélectionnés.

Ce qu'on imagine

« Avec le RAG, l'IA ne se trompe plus jamais. »

Ce qu'il faut garder

Faux. Si la recherche récupère les mauvais passages, la réponse sera mauvaise. Le RAG améliore l'ancrage, il ne le garantit pas.

Ce qu'on imagine

« Le RAG, c'est juste un meilleur modèle. »

Ce qu'il faut garder

Non. C'est surtout une meilleure préparation : découpage, indexation, recherche. La qualité dépend autant de la préparation que du modèle.

Ce qu'on imagine

« Le modèle lit toute la base à chaque question. »

Ce qu'il faut garder

Non. Il ne lit que quelques passages sélectionnés par la recherche, injectés dans son contexte.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Elle lit d'abord

La machine ouvre le bon cahier avant de répondre.

2
La bonne page

Elle cherche la page qui parle de ta question.

3
Bien ranger

Si les cahiers sont mal rangés, elle se trompe.

4
Pas magique

Elle se trompe moins, mais pas jamais.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Chercher d'abord

L'IA retrouve les bons passages avant de répondre.

2
Réponse ancrée

Elle s'appuie sur de vraies sources, pas seulement sur sa mémoire.

3
La prépa compte

Si les documents sont mal découpés ou mal rangés, la réponse est mauvaise.

4
Pas magique

Le RAG réduit les erreurs, il ne les supprime pas toutes.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Chercher d'abord

Le RAG retrouve les bons passages avant de générer la réponse.

2
Réponse ancrée

Le modèle s'appuie sur des sources réelles, pas seulement sur sa mémoire.

3
Aussi bon que sa préparation

Mauvais découpage ou mauvaise recherche = mauvaise réponse.

4
Pas une baguette magique

Le RAG réduit les erreurs, il ne les supprime pas toutes.

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi le RAG, simplement ?

Une méthode où l'IA va d'abord chercher les bons documents, puis répond en s'appuyant dessus — au lieu de répondre seulement de mémoire.

Pourquoi utiliser le RAG ?

Pour ancrer les réponses dans des sources réelles (règlement, documentation…), les rendre plus fiables et citables.

Le RAG empêche-t-il les erreurs ?

Non. Si la recherche ramène les mauvais passages, la réponse sera fausse. Il réduit les erreurs sans les supprimer.

C'est quoi un « chunk » ?

Un bloc de document découpé pour la recherche : assez grand pour garder du sens, assez petit pour rester précis.