Dense : chaque couche pertinente participe à chaque passage.
Dense vs mixture-of-experts
Comprendre pourquoi certaines architectures activent tout leur réseau et d'autres seulement une partie spécialisée.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « La classe des ânes feignants » — lire l'histoire →
MoE : un mécanisme de routage choisit quels experts activer.
Le gain visé est souvent un meilleur compromis capacité / coût d'inférence.
Toute l'équipe, ou juste les bons joueurs ?
- Un modèle « dense », c'est comme faire jouer TOUS les joueurs de ton équipe à chaque action, même ceux qui servent à rien sur ce coup-là : c'est complet mais ça pompe un max d'énergie.
- Un modèle « mixture-of-experts » (MoE), c'est une grosse équipe de spécialistes, mais un coach (le « routeur ») n'envoie sur le terrain que les 2 ou 3 experts du sujet à chaque mot.
- Résultat : tu as une équipe ÉNORME sur le papier, mais tu fais bosser peu de monde à la fois, donc ça coûte moins cher et ça peut aller plus vite.
- Le hic : compter juste le nombre total de joueurs ne dit rien. Ce qui compte, c'est combien jouent vraiment à chaque instant.
C'est un peu comme dans un jeu vidéo en équipe : tu as 50 persos débloqués, mais tu n'en sors que 3 par manche selon la map. Avoir une grosse collection ≠ tous les utiliser en même temps. Le MoE, c'est pareil : beaucoup d'experts dispos, peu activés par mot.
Quand une marque crie « notre IA a 400 milliards de paramètres ! », méfie-toi du chiffre choc. Pour un MoE, seule une fraction est activée à chaque mot. Un gros nombre balancé sans contexte, c'est de la com : sur internet aussi, le chiffre le plus spectaculaire n'est pas toujours le plus honnête. Apprends à demander « oui, mais activé combien ? ».
À retenir : le MoE sépare deux choses qu'on confond souvent : la « taille totale » du modèle et le « calcul vraiment utilisé » à chaque réponse.
Dense vs MoE : tout activer, ou seulement les bons experts ?
Bascule entre « dense » (tout le réseau s'active) et « MoE » (un routeur ne réveille que quelques experts) et vois la jauge de coût par token changer.
Question clé : faut-il activer tout le réseau, ou seulement une partie spécialisée ?
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
Tout le monde réfléchit en même temps
Dans un modèle dense, c'est comme si toute la classe levait le doigt à chaque question, même les copains qui ne connaissent pas la réponse. Ça marche bien, mais tout le monde se fatigue, et quand la classe est énorme, c'est très long !
Quelqu'un choisit qui répond
Le routeur, c'est comme un gentil surveillant. À chaque question, il regarde et appelle seulement les 2 ou 3 élèves qui s'y connaissent. Les autres se reposent un moment et ne réfléchissent pas pour cette question-là.
Une très grande classe, mais peu de doigts levés
On peut avoir une classe géante avec des spécialistes de tout : les dinosaures, les fusées, les gâteaux... Mais à chaque question, on n'en réveille que quelques-uns. Du coup on est très malin sans fatiguer tout le monde à chaque fois.
Ce n'est pas magique, ça demande de l'ordre
Il faut bien partager le travail pour qu'un seul élève ne fasse pas tout, garder de la place pour tous les élèves dans la salle, et surveiller que le surveillant choisit bien. Parfois, pour aller super vite, une petite classe toute simple suffit.
Tous les paramètres bossent à chaque mot
Un modèle dense fait passer chaque token (un bout de mot) à travers la totalité de ses paramètres, comme une appli qui chargerait tout son code à chaque clic. C'est fiable et prévisible, mais plus le modèle grossit, plus chaque réponse coûte cher en calcul.
Un aiguilleur qui sélectionne les experts
Le réseau est découpé en plusieurs « experts ». Pour chaque token, un petit module appelé routeur choisit le top-k (par exemple les 2 experts les plus utiles) et ignore les autres. Pense à un feed qui ne t'affiche que les comptes pertinents au lieu de tout afficher.
Beaucoup de paramètres, une fraction activée
Un MoE peut afficher un nombre total de paramètres énorme, mais n'en active qu'une petite partie par token. C'est pour ça qu'un modèle « plus gros sur le papier » peut tourner sans exploser le coût de chaque réponse. Le vrai chiffre à regarder, c'est les paramètres activés, pas le total.
Le MoE ajoute de la complexité
Il faut équilibrer la charge (éviter que tous les tokens aillent vers le même expert), gérer des entraînements parfois instables, garder tous les experts en mémoire même les endormis, et surveiller les choix du routeur. Pour une appli temps réel où la latence prime, un dense plus simple peut rester le meilleur choix.
Tout le réseau participe à chaque token
Chaque passage active l'ensemble des paramètres. C'est robuste et prévisible, mais le coût grimpe vite quand le modèle devient très grand.
Le routeur choisit quels experts réveiller
Pour chaque token, un petit mécanisme sélectionne un sous-ensemble d'experts (souvent les plus pertinents). Le reste du réseau ne calcule pas pour ce token.
Beaucoup de paramètres, peu activés à la fois
Un MoE peut avoir énormément de paramètres totaux mais n'en activer qu'une fraction par token. D'où des modèles « plus gros » sans exploser le coût par réponse.
Le MoE n'est pas magique
Équilibrage de charge entre experts, instabilités d'entraînement, mémoire pour stocker tous les experts, routage à surveiller. Sur certains usages temps réel, un dense plus simple reste préférable.
L'analogie qui aide à retenir
La machine maligne, c'est comme appeler au tableau seulement les copains qui connaissent la réponse, pas toute la classe.
Le dense fait plancher toute la classe à chaque question ; le MoE n'appelle au tableau que les élèves vraiment concernés.
Le dense, c'est convoquer tout le service à chaque dossier ; le MoE, c'est n'appeler que les quelques spécialistes vraiment concernés.
Le coeur de l'idée
Le plus malin, ce n'est pas de faire travailler tout le monde, c'est d'appeler juste les bons copains.
Comparer deux IA, ce n'est pas juste leur taille : c'est aussi combien de cerveau elles allument vraiment à chaque mot.
Comparer des modèles, c'est aussi comparer leur manière d'activer leur intelligence, pas seulement leur nombre de paramètres.
Le mécanisme, découpé étape par étape
Imagine toute la classe qui réfléchit à CHAQUE question, même ceux qui ne savent pas. La machine « dense » fait pareil : tout le monde travaille.
Ça donne une bonne réponse, mais ça fatigue tout le monde et c'est très long.
L'autre machine est maligne : un surveillant appelle juste 2 ou 3 élèves très forts sur la question.
Les autres élèves se reposent. La réponse est aussi bonne, et on a fait travailler moins de monde !
Dense : pour répondre, le réseau allume TOUT son cerveau à chaque mot, même les parties inutiles.
MoE : un aiguilleur (le « routeur ») choisit quelques spécialistes et n'allume qu'eux pour ce mot-là.
Du coup tu gardes plein de capacité, mais tu calcules moins à chaque fois : moins de batterie, moins cher.
Le piège : il faut bien gérer le routeur, sinon certains spécialistes bossent trop et d'autres dorment.
Dense : à chaque token, l'ensemble des paramètres du réseau est activé. Robuste et prévisible, mais le coût grimpe vite quand le modèle est très grand.
MoE : un routeur sélectionne, pour chaque token, un petit sous-ensemble d'experts (souvent « top-k »). Seuls ces experts calculent.
Résultat visé : un meilleur compromis capacité/coût d'inférence, beaucoup de paramètres totaux mais une fraction activée par token.
Contrepartie : équilibrage de charge entre experts, instabilités d'entraînement, mémoire pour stocker tous les experts et routage à surveiller.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
C'est comme à la récré : pour réparer un vélo, tu appelles juste le copain qui s'y connaît, pas toute la cour.
Pour un dessin animé d'animaux, on réveille l'expert des animaux, pas l'expert des bonbons.
Une grande boîte de jouets : tu n'en sors pas mille à la fois, tu prends juste ceux dont tu as besoin pour jouer.
Comme un groupe de révision où, pour chaque question, on appelle juste les 2 potes forts dans cette matière au lieu de toute la classe.
Une appli de chat IA sur ton smartphone peut préférer un modèle plus simple si elle doit répondre ultra vite sans laguer.
Une marque qui annonce « notre IA a 400 milliards de paramètres » : impressionnant, mais elle n'en allume peut-être qu'une petite partie à chaque mot.
Certaines familles de modèles haut de gamme (par ex. côté Meta ou Mistral) utilisent des logiques d'experts pour scaler autrement qu'en gonflant le coût par requête.
Un produit temps réel où la latence domine peut préférer une architecture dense plus simple et prévisible.
Un benchmark peut flatter la capacité brute d'un modèle sans raconter son coût opérationnel réel.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Choisir les bons copains, c'est dur : des fois le surveillant se trompe.
Une grosse équipe, c'est pas toujours mieux : ça dépend de ce qu'on demande.
Le MoE n'est pas automatiquement meilleur : ça dépend de l'usage.
Le routeur ajoute de la complexité à régler et à surveiller.
Juger une IA sur ses paramètres sans parler du coût réel, ça induit en erreur.
Le MoE n'est pas automatiquement meilleur dans tous les contextes.
Le routage ajoute de la complexité de qualité, d'infrastructure et d'observabilité.
Comparer deux modèles sans parler de coût réel peut induire en erreur.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que réveiller juste quelques copains, c'est forcément mieux.
Pas toujours ! Des fois, c'est plus simple de demander à tout le monde. Ça dépend de la question.
On croit qu'une très grande équipe est toujours plus forte.
En vrai, ce qui compte c'est combien de copains travaillent VRAIMENT, pas combien il y en a en tout.
« Un MoE bat toujours un modèle dense. »
Faux. Le MoE améliore le rapport capacité/coût, mais il est plus compliqué. Pour des cas simples ou ultra rapides, un dense peut gagner.
« Plus de paramètres = IA plus intelligente. »
Trompeur. Pour un MoE, ce qui compte aussi c'est combien sont vraiment allumés par mot, pas le total affiché sur l'affiche.
« Le MoE, c'est juste un modèle en plus gros. »
Non : c'est une vraie organisation interne avec un routeur qui n'allume qu'une partie spécialisée à chaque mot.
« Un MoE est toujours meilleur qu'un dense. »
Non. Le MoE améliore le compromis capacité/coût, mais ajoute de la complexité ; sur des cas simples ou temps réel, un dense peut être préférable.
« Plus de paramètres = modèle plus intelligent. »
Trompeur. Pour un MoE, ce qui compte aussi, c'est combien de paramètres sont réellement activés par token, pas seulement le total annoncé.
« Le MoE, c'est juste un modèle plus gros. »
Non : c'est une architecture où un routeur n'active qu'une partie spécialisée du réseau à chaque token.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Une machine fait réfléchir tout le monde à chaque question. C'est long.
Une autre appelle juste 2 ou 3 copains experts. Plus rapide !
Plein de copains experts, mais on n'en réveille que quelques-uns.
Il faut bien choisir les bons copains, sinon ça rate.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Tout le réseau bosse à chaque mot. Complet mais coûteux quand c'est géant.
Un routeur réveille juste 2-3 spécialistes par mot.
Beaucoup de paramètres au total, peu allumés à la fois.
Le routeur doit bien répartir le boulot, sinon ça déraille.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
L'ensemble des paramètres travaille à chaque token. Coûteux à grande échelle.
Un routeur n'active qu'un petit sous-ensemble d'experts par token.
Beaucoup de paramètres totaux, peu réellement activés par token.
Routage, équilibrage de charge et infrastructure à maîtriser.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
C'est quoi la différence dense vs MoE, simplement ?
Dense : tout le réseau s'active à chaque token. MoE : un routeur n'active qu'une partie spécialisée (quelques « experts »).
Pourquoi utiliser un MoE ?
Pour avoir une grande capacité totale sans payer le calcul complet à chaque token — donc un meilleur compromis qualité / coût.
Plus de paramètres = plus intelligent ?
Pas forcément. Il faut regarder les paramètres réellement activés par token, pas seulement le total annoncé.
Quand préférer un modèle dense ?
Quand la simplicité, la latence et la prévisibilité priment, ou quand le surcoût d'infrastructure du MoE n'est pas justifié.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.