Toutes les briques ne s'allument pas pareil Expert

Dense vs mixture-of-experts

Comprendre pourquoi certaines architectures activent tout leur réseau et d'autres seulement une partie spécialisée.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « La classe des ânes feignants » — lire l'histoire →
11 min architecturemoeperformance
Pas de jargon Compréhensible vite
Mascotte de L'IA du Zéro

Dense : chaque couche pertinente participe à chaque passage.

MoE : un mécanisme de routage choisit quels experts activer.

Le gain visé est souvent un meilleur compromis capacité / coût d'inférence.

1. Je découvre une version simple et imagée
2. Je comprends le vrai mécanisme sans jargon inutile
3. Je m'entraîne avec un mini quiz immédiat
4. Je retiens les points clés à réexpliquer

Toute l'équipe, ou juste les bons joueurs ?

  • Un modèle « dense », c'est comme faire jouer TOUS les joueurs de ton équipe à chaque action, même ceux qui servent à rien sur ce coup-là : c'est complet mais ça pompe un max d'énergie.
  • Un modèle « mixture-of-experts » (MoE), c'est une grosse équipe de spécialistes, mais un coach (le « routeur ») n'envoie sur le terrain que les 2 ou 3 experts du sujet à chaque mot.
  • Résultat : tu as une équipe ÉNORME sur le papier, mais tu fais bosser peu de monde à la fois, donc ça coûte moins cher et ça peut aller plus vite.
  • Le hic : compter juste le nombre total de joueurs ne dit rien. Ce qui compte, c'est combien jouent vraiment à chaque instant.
Un exemple pour toi

C'est un peu comme dans un jeu vidéo en équipe : tu as 50 persos débloqués, mais tu n'en sors que 3 par manche selon la map. Avoir une grosse collection ≠ tous les utiliser en même temps. Le MoE, c'est pareil : beaucoup d'experts dispos, peu activés par mot.

Quand une marque crie « notre IA a 400 milliards de paramètres ! », méfie-toi du chiffre choc. Pour un MoE, seule une fraction est activée à chaque mot. Un gros nombre balancé sans contexte, c'est de la com : sur internet aussi, le chiffre le plus spectaculaire n'est pas toujours le plus honnête. Apprends à demander « oui, mais activé combien ? ».

À retenir : le MoE sépare deux choses qu'on confond souvent : la « taille totale » du modèle et le « calcul vraiment utilisé » à chaque réponse.

Le déclic en mouvement

Dense vs MoE : tout activer, ou seulement les bons experts ?

Bascule entre « dense » (tout le réseau s'active) et « MoE » (un routeur ne réveille que quelques experts) et vois la jauge de coût par token changer.

Un token arrive. Voyons combien d'« experts » le modèle va faire travailler.
1 token à traiter

Question clé : faut-il activer tout le réseau, ou seulement une partie spécialisée ?

Architecture ?MoE : un routeur n'active que quelques experts.
Étape 1 / 4
Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier
1
Toute la classe

Tout le monde réfléchit en même temps

Dans un modèle dense, c'est comme si toute la classe levait le doigt à chaque question, même les copains qui ne connaissent pas la réponse. Ça marche bien, mais tout le monde se fatigue, et quand la classe est énorme, c'est très long !

2
Le surveillant

Quelqu'un choisit qui répond

Le routeur, c'est comme un gentil surveillant. À chaque question, il regarde et appelle seulement les 2 ou 3 élèves qui s'y connaissent. Les autres se reposent un moment et ne réfléchissent pas pour cette question-là.

3
Plein d'élèves, peu réveillés

Une très grande classe, mais peu de doigts levés

On peut avoir une classe géante avec des spécialistes de tout : les dinosaures, les fusées, les gâteaux... Mais à chaque question, on n'en réveille que quelques-uns. Du coup on est très malin sans fatiguer tout le monde à chaque fois.

4
Pas de baguette magique

Ce n'est pas magique, ça demande de l'ordre

Il faut bien partager le travail pour qu'un seul élève ne fasse pas tout, garder de la place pour tous les élèves dans la salle, et surveiller que le surveillant choisit bien. Parfois, pour aller super vite, une petite classe toute simple suffit.

1
Dense

Tous les paramètres bossent à chaque mot

Un modèle dense fait passer chaque token (un bout de mot) à travers la totalité de ses paramètres, comme une appli qui chargerait tout son code à chaque clic. C'est fiable et prévisible, mais plus le modèle grossit, plus chaque réponse coûte cher en calcul.

2
Routeur

Un aiguilleur qui sélectionne les experts

Le réseau est découpé en plusieurs « experts ». Pour chaque token, un petit module appelé routeur choisit le top-k (par exemple les 2 experts les plus utiles) et ignore les autres. Pense à un feed qui ne t'affiche que les comptes pertinents au lieu de tout afficher.

3
Capacité vs coût

Beaucoup de paramètres, une fraction activée

Un MoE peut afficher un nombre total de paramètres énorme, mais n'en active qu'une petite partie par token. C'est pour ça qu'un modèle « plus gros sur le papier » peut tourner sans exploser le coût de chaque réponse. Le vrai chiffre à regarder, c'est les paramètres activés, pas le total.

4
Les pièges

Le MoE ajoute de la complexité

Il faut équilibrer la charge (éviter que tous les tokens aillent vers le même expert), gérer des entraînements parfois instables, garder tous les experts en mémoire même les endormis, et surveiller les choix du routeur. Pour une appli temps réel où la latence prime, un dense plus simple peut rester le meilleur choix.

1
Dense

Tout le réseau participe à chaque token

Chaque passage active l'ensemble des paramètres. C'est robuste et prévisible, mais le coût grimpe vite quand le modèle devient très grand.

2
Routeur

Le routeur choisit quels experts réveiller

Pour chaque token, un petit mécanisme sélectionne un sous-ensemble d'experts (souvent les plus pertinents). Le reste du réseau ne calcule pas pour ce token.

3
Capacité vs coût

Beaucoup de paramètres, peu activés à la fois

Un MoE peut avoir énormément de paramètres totaux mais n'en activer qu'une fraction par token. D'où des modèles « plus gros » sans exploser le coût par réponse.

4
Pièges

Le MoE n'est pas magique

Équilibrage de charge entre experts, instabilités d'entraînement, mémoire pour stocker tous les experts, routage à surveiller. Sur certains usages temps réel, un dense plus simple reste préférable.

L'image mentale

L'analogie qui aide à retenir

La machine maligne, c'est comme appeler au tableau seulement les copains qui connaissent la réponse, pas toute la classe.

Le dense fait plancher toute la classe à chaque question ; le MoE n'appelle au tableau que les élèves vraiment concernés.

Le dense, c'est convoquer tout le service à chaque dossier ; le MoE, c'est n'appeler que les quelques spécialistes vraiment concernés.

À retenir

Le coeur de l'idée

Le plus malin, ce n'est pas de faire travailler tout le monde, c'est d'appeler juste les bons copains.

Comparer deux IA, ce n'est pas juste leur taille : c'est aussi combien de cerveau elles allument vraiment à chaque mot.

Comparer des modèles, c'est aussi comparer leur manière d'activer leur intelligence, pas seulement leur nombre de paramètres.

Comment ça marche

Le mécanisme, découpé étape par étape

1

Imagine toute la classe qui réfléchit à CHAQUE question, même ceux qui ne savent pas. La machine « dense » fait pareil : tout le monde travaille.

2

Ça donne une bonne réponse, mais ça fatigue tout le monde et c'est très long.

3

L'autre machine est maligne : un surveillant appelle juste 2 ou 3 élèves très forts sur la question.

4

Les autres élèves se reposent. La réponse est aussi bonne, et on a fait travailler moins de monde !

1

Dense : pour répondre, le réseau allume TOUT son cerveau à chaque mot, même les parties inutiles.

2

MoE : un aiguilleur (le « routeur ») choisit quelques spécialistes et n'allume qu'eux pour ce mot-là.

3

Du coup tu gardes plein de capacité, mais tu calcules moins à chaque fois : moins de batterie, moins cher.

4

Le piège : il faut bien gérer le routeur, sinon certains spécialistes bossent trop et d'autres dorment.

1

Dense : à chaque token, l'ensemble des paramètres du réseau est activé. Robuste et prévisible, mais le coût grimpe vite quand le modèle est très grand.

2

MoE : un routeur sélectionne, pour chaque token, un petit sous-ensemble d'experts (souvent « top-k »). Seuls ces experts calculent.

3

Résultat visé : un meilleur compromis capacité/coût d'inférence, beaucoup de paramètres totaux mais une fraction activée par token.

4

Contrepartie : équilibrage de charge entre experts, instabilités d'entraînement, mémoire pour stocker tous les experts et routage à surveiller.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

C'est comme à la récré : pour réparer un vélo, tu appelles juste le copain qui s'y connaît, pas toute la cour.

Pour un dessin animé d'animaux, on réveille l'expert des animaux, pas l'expert des bonbons.

Une grande boîte de jouets : tu n'en sors pas mille à la fois, tu prends juste ceux dont tu as besoin pour jouer.

Comme un groupe de révision où, pour chaque question, on appelle juste les 2 potes forts dans cette matière au lieu de toute la classe.

Une appli de chat IA sur ton smartphone peut préférer un modèle plus simple si elle doit répondre ultra vite sans laguer.

Une marque qui annonce « notre IA a 400 milliards de paramètres » : impressionnant, mais elle n'en allume peut-être qu'une petite partie à chaque mot.

Certaines familles de modèles haut de gamme (par ex. côté Meta ou Mistral) utilisent des logiques d'experts pour scaler autrement qu'en gonflant le coût par requête.

Un produit temps réel où la latence domine peut préférer une architecture dense plus simple et prévisible.

Un benchmark peut flatter la capacité brute d'un modèle sans raconter son coût opérationnel réel.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Choisir les bons copains, c'est dur : des fois le surveillant se trompe.

Une grosse équipe, c'est pas toujours mieux : ça dépend de ce qu'on demande.

Le MoE n'est pas automatiquement meilleur : ça dépend de l'usage.

Le routeur ajoute de la complexité à régler et à surveiller.

Juger une IA sur ses paramètres sans parler du coût réel, ça induit en erreur.

Le MoE n'est pas automatiquement meilleur dans tous les contextes.

Le routage ajoute de la complexité de qualité, d'infrastructure et d'observabilité.

Comparer deux modèles sans parler de coût réel peut induire en erreur.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que réveiller juste quelques copains, c'est forcément mieux.

Ce qu'il faut garder

Pas toujours ! Des fois, c'est plus simple de demander à tout le monde. Ça dépend de la question.

Ce qu'on imagine

On croit qu'une très grande équipe est toujours plus forte.

Ce qu'il faut garder

En vrai, ce qui compte c'est combien de copains travaillent VRAIMENT, pas combien il y en a en tout.

Ce qu'on imagine

« Un MoE bat toujours un modèle dense. »

Ce qu'il faut garder

Faux. Le MoE améliore le rapport capacité/coût, mais il est plus compliqué. Pour des cas simples ou ultra rapides, un dense peut gagner.

Ce qu'on imagine

« Plus de paramètres = IA plus intelligente. »

Ce qu'il faut garder

Trompeur. Pour un MoE, ce qui compte aussi c'est combien sont vraiment allumés par mot, pas le total affiché sur l'affiche.

Ce qu'on imagine

« Le MoE, c'est juste un modèle en plus gros. »

Ce qu'il faut garder

Non : c'est une vraie organisation interne avec un routeur qui n'allume qu'une partie spécialisée à chaque mot.

Ce qu'on imagine

« Un MoE est toujours meilleur qu'un dense. »

Ce qu'il faut garder

Non. Le MoE améliore le compromis capacité/coût, mais ajoute de la complexité ; sur des cas simples ou temps réel, un dense peut être préférable.

Ce qu'on imagine

« Plus de paramètres = modèle plus intelligent. »

Ce qu'il faut garder

Trompeur. Pour un MoE, ce qui compte aussi, c'est combien de paramètres sont réellement activés par token, pas seulement le total annoncé.

Ce qu'on imagine

« Le MoE, c'est juste un modèle plus gros. »

Ce qu'il faut garder

Non : c'est une architecture où un routeur n'active qu'une partie spécialisée du réseau à chaque token.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Toute la classe

Une machine fait réfléchir tout le monde à chaque question. C'est long.

2
Juste les forts

Une autre appelle juste 2 ou 3 copains experts. Plus rapide !

3
Une grande équipe

Plein de copains experts, mais on n'en réveille que quelques-uns.

4
Pas magique

Il faut bien choisir les bons copains, sinon ça rate.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Dense = tout s'allume

Tout le réseau bosse à chaque mot. Complet mais coûteux quand c'est géant.

2
MoE = quelques experts

Un routeur réveille juste 2-3 spécialistes par mot.

3
Gros ≠ cher à utiliser

Beaucoup de paramètres au total, peu allumés à la fois.

4
Pas magique

Le routeur doit bien répartir le boulot, sinon ça déraille.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Dense = tout s'active

L'ensemble des paramètres travaille à chaque token. Coûteux à grande échelle.

2
MoE = activation partielle

Un routeur n'active qu'un petit sous-ensemble d'experts par token.

3
Capacité ≠ coût

Beaucoup de paramètres totaux, peu réellement activés par token.

4
Pas une baguette magique

Routage, équilibrage de charge et infrastructure à maîtriser.

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est quoi la différence dense vs MoE, simplement ?

Dense : tout le réseau s'active à chaque token. MoE : un routeur n'active qu'une partie spécialisée (quelques « experts »).

Pourquoi utiliser un MoE ?

Pour avoir une grande capacité totale sans payer le calcul complet à chaque token — donc un meilleur compromis qualité / coût.

Plus de paramètres = plus intelligent ?

Pas forcément. Il faut regarder les paramètres réellement activés par token, pas seulement le total annoncé.

Quand préférer un modèle dense ?

Quand la simplicité, la latence et la prévisibilité priment, ou quand le surcoût d'infrastructure du MoE n'est pas justifié.