La mécanique du texte Intermédiaire

Tokens et grands modèles de langage

Comprendre qu'un LLM ne lit pas des phrases comme nous : il manipule des fragments appelés tokens.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « Le tracteur à combien de R ? » — lire l'histoire →
12 min llmtokenstexte
Pas de jargon Compréhensible vite
Mascotte de L'IA du Zéro

Le texte est découpé en tokens.

Chaque token reçoit une représentation numérique.

Le modèle lit le contexte puis prédit le token suivant.

1. Je découvre une version simple et imagée
2. Je comprends le vrai mécanisme sans jargon inutile
3. Je m'entraîne avec un mini quiz immédiat
4. Je retiens les points clés à réexpliquer

Le texte découpé en petits bouts

  • Quand tu écris un message à une IA, elle ne lit pas tes phrases d'un bloc : elle les coupe en petits morceaux appelés « tokens » (un mot, un bout de mot, un emoji, un signe).
  • Chaque token devient une suite de chiffres, parce que la machine calcule avec des nombres, pas avec des lettres.
  • Pour répondre, elle regarde tout ce qui est déjà écrit, puis choisit le prochain token le plus logique. Elle recommence morceau après morceau : c'est pour ça que la réponse s'affiche au fur et à mesure.
  • Plus ta conversation est longue, plus il y a de tokens à relire à chaque étape, donc plus ça coûte de calcul (et d'argent).
Un exemple pour toi

Tu demandes à un chatbot de t'écrire une bio Insta stylée. Il ne « comprend » pas ta personnalité : il enchaîne les tokens qui vont souvent bien ensemble dans ce style. Pareil quand l'autocomplétion de ton clavier devine le mot suivant, mais en beaucoup plus puissant.

Un texte super fluide n'est pas forcément vrai. L'IA est faite pour enchaîner des tokens qui « sonnent » bien, pas pour dire la vérité. Avant de recopier une réponse dans un devoir ou de la partager, vérifie l'info ailleurs : elle peut inventer une date, une citation ou une source avec un aplomb total.

Un détail qui surprend : un emoji ou un mot rare peut être coupé en plusieurs tokens, alors qu'un mot courant tient en un seul.

Le déclic en mouvement

Regarde une phrase se découper en tokens, puis se générer

Un LLM ne lit pas des mots : il manipule des tokens. Suis le découpage (parfois en bouts de mots), puis la génération token par token.

Tu m'écris un début de phrase. Je vais la continuer.
Phrase :

Lesoleilse?

On va deviner la suite, token après token.

Étape 1 / 5
Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier
1
Les morceaux

Un petit bout, ce n'est pas toujours un mot entier

Imagine que tu casses un mot comme tu casses une tablette de chocolat. Parfois un mot tient en un seul carré. Mais un mot rare, un emoji ou une date, c'est comme un gros morceau : il faut le casser en plusieurs petits bouts. Le modèle, lui, joue tout le temps avec ces petits bouts.

2
Les chiffres-codes

Chaque petit bout devient un code en chiffres

Le modèle ne voit pas le mot « bonjour » comme toi. Pour lui, c'est trop compliqué ! Alors il transforme chaque petit bout en un paquet de chiffres, un peu comme un numéro secret. Avec ces numéros, il peut ranger les bouts et savoir lesquels se ressemblent.

3
Il relit tout

Le modèle regarde toujours ce qui est déjà écrit

Avant de choisir le prochain petit bout, le modèle relit tout ce qui vient avant, comme quand tu te rappelles le début d'une histoire pour bien deviner la suite. Il regarde les mots déjà là et le ton avant de décider le morceau qui va le mieux ensuite.

4
Pas tous pareils

Deux robots-écrivains peuvent être très différents

Tous les modèles ne se ressemblent pas, comme deux peluches qui ont l'air pareilles mais ne font pas la même chose. L'un découpe les mots autrement, l'autre se souvient de plus de choses, un autre va plus vite. Dire « j'utilise une IA », c'est comme dire « j'ai un jouet » : on ne sait pas encore lequel !

1
Tokenisation

Un token, ce n'est pas forcément un mot complet

Le modèle découpe ton texte en tokens (des fragments). Un mot courant comme « chat » peut tenir dans un seul token, mais un mot rare, un pseudo, un emoji ou une date sont souvent coupés en plusieurs morceaux. C'est ce qui explique le coût (tu paies au nombre de tokens), la limite de longueur d'une conversation, et certains bugs bizarres quand tu écris un truc inhabituel.

2
Vecteurs

Chaque token est transformé en liste de nombres

Le modèle ne manipule pas le mot « bonjour » comme tu le lis. Il lui donne d'abord un identifiant, puis un vecteur, c'est-à-dire une longue liste de nombres (comme des coordonnées GPS, mais en beaucoup plus de dimensions). Grâce à ces nombres, il peut calculer mathématiquement quels fragments sont proches ou éloignés les uns des autres.

3
Contexte

Le modèle relit en continu tout l'historique

Pour choisir le prochain token, le modèle ne devine pas au hasard : il prend en compte le contexte, c'est-à-dire tout ce qui précède (ta question, le ton, les consignes, le style, ce qu'il a déjà écrit). C'est un peu comme l'autocomplétion de ton clavier, mais qui tiendrait compte de toute la conversation au lieu des deux derniers mots.

4
Comparaison

Deux LLM diffèrent par bien plus que leur nom

Comparer deux modèles, ce n'est pas comme comparer deux marques de téléphone juste sur le logo. Le tokenizer, la taille, la qualité des données d'entraînement, la fenêtre de contexte (combien il peut « se souvenir »), les outils dispos, la vitesse et le coût changent énormément. Dire « j'utilise un LLM » ne veut presque rien dire tant que tu ne précises pas lequel et pour quoi faire.

1
Tokenisation

Un token n'est pas toujours un mot entier

Selon le tokenizer, un mot courant peut tenir dans un seul token, tandis qu'un mot rare, un emoji, une date ou un mot technique peuvent être coupés en plusieurs morceaux. C'est important pour comprendre les coûts, les limites de contexte et certains comportements étranges.

2
Vecteurs

Chaque token devient une représentation numérique

Le modèle ne travaille pas avec le mot 'bonjour' comme toi tu le lis. Il le transforme en identifiant puis en vecteur, c'est-à-dire en paquet de nombres qui permet au système de le situer mathématiquement par rapport aux autres fragments.

3
Contexte

Le modèle relit en permanence ce qui a déjà été écrit

Un LLM ne choisit pas le prochain token sans regarder autour. Il tient compte de l'historique, du ton, des consignes, du style et des morceaux déjà produits pour calculer ce qui paraît cohérent ensuite.

4
Comparaison

Deux LLM peuvent différer par bien plus que leur nom

Tokenizer, taille, qualité des données, contexte maximal, outils disponibles, multimodalité, vitesse, alignement et coût changent beaucoup d'un modèle à l'autre. Dire 'j'utilise un LLM' ne dit presque rien sans préciser lequel et pour quel usage.

L'image mentale

L'analogie qui aide à retenir

C'est comme construire une phrase avec des petites briques de Lego plus petites que les mots.

C'est comme assembler un texte avec des Lego plus petits que les mots, brique après brique.

C'est un jeu de construction de phrases avec des briques plus petites que les mots.

À retenir

Le coeur de l'idée

La machine écrit petit bout par petit bout, elle ne pense pas comme toi.

Un LLM prédit le prochain token : il ne « comprend » pas vraiment, il devine la suite la plus probable.

Un LLM produit du texte en prédisant des tokens, pas en pensant comme un rédacteur humain.

Comment ça marche

Le mécanisme, découpé étape par étape

1

La machine coupe ta phrase en tout petits bouts.

2

Un bout peut être un mot, un demi-mot ou un point.

3

Elle regarde les bouts déjà là et devine le prochain.

4

Elle ajoute le bout, puis recommence, encore et encore.

1

Ton message est découpé en petits fragments appelés tokens (mot, bout de mot ou signe).

2

Chaque fragment devient une suite de chiffres que la machine sait calculer.

3

Le modèle relit tout ce qui précède, puis choisit le prochain token le plus logique.

4

Il répète l'opération token par token jusqu'à former la réponse complète.

1

Ton texte est découpé en tokens : selon les mots, un token vaut un mot entier, un bout de mot ou un signe.

2

Chaque token est converti en représentation numérique (un vecteur) pour permettre le calcul.

3

Le modèle lit tout le contexte déjà présent, puis estime le token suivant le plus plausible.

4

Il répète cette boucle token par token jusqu'à produire la réponse complète.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Finir une histoire que tu as commencée avant le coucher.

Écrire une jolie carte d'anniversaire pour ton copain.

Redire ta blague préférée avec d'autres petits mots rigolos.

Compléter une légende Insta que tu as commencée.

Générer un résumé de cours ou un bout de code pour ton projet.

Reformuler ton message dans un autre ton, plus sérieux ou plus drôle.

Rédiger ou compléter un e-mail professionnel à partir de quelques mots.

Générer un compte rendu de réunion ou un extrait de code.

Reformuler un texte dans un autre ton, plus formel ou plus direct.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Couper en petits bouts, c'est bizarre pour nous, pas pour la machine.

Elle peut écrire très joliment et se tromper quand même.

Si la phrase est très longue, elle doit relire plein de bouts.

Le découpage en tokens n'a rien d'intuitif pour un humain.

Le texte peut paraître parfait et contenir une erreur très crédible.

Une longue conversation coûte plus cher car il faut relire tous les tokens.

Le découpage en tokens n'est pas intuitif pour un humain et explique certains comportements étranges.

Le modèle peut produire un texte très fluide tout en restant faux.

Plus le contexte est long, plus le calcul peut coûter cher (en tokens, en latence).

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine lit la phrase comme toi.

Ce qu'il faut garder

En vrai elle la coupe en bouts et devine le prochain.

Ce qu'on imagine

On croit qu'un bout, c'est toujours un mot entier.

Ce qu'il faut garder

En vrai un mot rare ou un petit dessin peut être coupé en plusieurs.

Ce qu'on imagine

On croit que si c'est bien écrit, c'est vrai.

Ce qu'il faut garder

En vrai une jolie phrase peut raconter une bêtise.

Ce qu'on imagine

« L'IA lit mes phrases comme moi. »

Ce qu'il faut garder

Non : elle les coupe en tokens et prédit le suivant, sans comprendre le sens comme toi.

Ce qu'on imagine

« Un token, c'est un mot. »

Ce qu'il faut garder

Pas toujours : un mot rare, un emoji ou une date peuvent être coupés en plusieurs tokens.

Ce qu'on imagine

« Si ça sonne juste, c'est vrai. »

Ce qu'il faut garder

La fluidité vient de la prédiction, pas de la vérité : vérifie toujours.

Ce qu'on imagine

« Le modèle lit et comprend les phrases comme nous. »

Ce qu'il faut garder

Non : il découpe le texte en tokens et prédit le suivant ; il ne « comprend » pas le sens comme un humain.

Ce qu'on imagine

« Un token, c'est un mot. »

Ce qu'il faut garder

Pas toujours : un mot courant tient en un token, mais un mot rare, un emoji ou une date peuvent être coupés en plusieurs.

Ce qu'on imagine

« Si le texte est fluide, c'est qu'il est vrai. »

Ce qu'il faut garder

Faux : la fluidité vient de la prédiction de tokens, elle ne garantit pas l'exactitude.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Des petits bouts

La machine coupe la phrase en mini-morceaux.

2
Un bout après l'autre

Elle devine le prochain bout, puis recommence.

3
Joli n'est pas vrai

Une belle phrase peut quand même se tromper.

4
Long fatigue

Plus tu écris long, plus elle a de bouts à relire.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Token = fragment

Un mot, un bout de mot ou un signe, pas forcément un mot entier.

2
Token par token

Il prédit le suivant, l'ajoute, recommence.

3
Fluide ≠ vrai

Une réponse bien tournée peut être fausse.

4
Contexte = coût

Plus le fil est long, plus il y a de tokens à traiter.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Le LLM manipule des tokens

Des fragments de texte, pas des mots avec leur sens.

2
Génération token par token

Il prédit le suivant, l'ajoute, puis recommence.

3
Fluide ≠ vrai

Un texte impeccable peut contenir une erreur très plausible.

4
Le contexte a un coût

Plus l'historique est long, plus il y a de tokens à traiter.

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi un token, simplement ?

Un petit morceau de texte que le modèle manipule : un mot, un bout de mot ou un signe. Le modèle calcule sur des tokens, pas sur des phrases entières.

Pourquoi un assistant écrit-il mot après mot ?

Parce qu'il génère token par token : il prédit le prochain morceau, l'ajoute, puis recommence l'opération.

Un token, est-ce toujours un mot ?

Non. Un mot courant peut tenir en un token ; un mot rare, un emoji ou une date peuvent être découpés en plusieurs tokens.

Pourquoi les longues conversations coûtent-elles plus cher ?

Parce que le modèle relit le contexte à chaque étape : plus l'historique est long, plus il y a de tokens à traiter.