Ressources

Le grand atlas des modeles IA, du monde entier

Ici, on parle des grandes familles americaines, europeennes et chinoises, avec leurs equivalences, leurs rôles et leurs usages, sans transformer le sujet en concours de logos.

Le but n'est pas de memoriser des dizaines de noms. Le but est de comprendre qui joue quel rôle: le cerveau premium, le sprinteur économique, le modèle de code, l'atelier visuel ou la plateforme multimédia.

  • USA, Europe, Chine
  • Equivalences simples
  • Docs officielles
  • Comparaisons utiles
Sans jargon Visuel d'abord
Comprendre Comparer Appliquer
Comprendre en clair 🫏

Le complexe, rendu évident

Comment l'IA génère du texte, des images, des vidéos, de la voix, et ce qui distingue vraiment les grands modèles : expliqué simplement, avec une analogie et des sources vérifiées.

Comment l'IA génère du texte

L'IA n'écrit pas une phrase entière d'un coup : elle la devine un petit bout à la fois, comme on complète un mot sur le bout de la langue.

Quand l'IA écrit, elle ne pense pas à ce qu'elle va dire : elle prédit juste le prochain « morceau » de texte (un mot ou un bout de mot, qu'on appelle un token), puis le suivant, et ainsi de suite. Pour bien choisir, elle relit tout ce qui précède et décide quels mots comptent le plus à cet instant : c'est le mécanisme d'« attention », le cœur d'une architecture appelée Transformer, qui regarde toute la phrase d'un coup au lieu de la lire de gauche à droite. À force d'avoir vu des montagnes de textes, elle a appris quelles suites de mots sont les plus probables, et elle rejoue cette intuition à chaque pas. C'est puissant parce que prédire le mot suivant l'oblige, sans qu'on le lui demande, à apprendre la grammaire, le sens, le style et des tonnes de connaissances. Mais c'est aussi sa faiblesse : elle cherche ce qui « sonne juste » et probable, pas ce qui est vrai, et rien ne vérifie un fait au passage. Quand elle ne sait pas, elle comble quand même le trou avec la suite la plus plausible : c'est ça, une « hallucination ».

L'analogie

C'est comme le texto qui suggère le mot suivant au-dessus de ton clavier, mais en bien plus malin : à chaque mot tapé, il propose la suite la plus probable. Sauf que l'IA enchaîne ces suggestions des centaines de fois pour écrire des paragraphes entiers, en gardant en tête tout ce qui a déjà été écrit. Et comme ton clavier, elle propose parfois un mot très crédible... mais totalement à côté.

Creuser dans le cours →
Sources (3)

Comment l'IA crée des images

Pour dessiner un chat, l'IA ne part pas d'une page blanche : elle part d'un écran de neige télé et le « débrouille » jusqu'à voir un chat apparaître.

Au départ, l'IA affiche un fouillis de points aléatoires, comme la « neige » d'une vieille télé sans signal. Pendant son entraînement, on lui a montré des millions d'images qu'on a peu à peu noyées sous ce grain, et elle a appris à faire l'inverse : retirer un peu de bruit à chaque fois. Pour générer une image, elle répète donc ce nettoyage des dizaines de fois ; à chaque étape elle devine « si je gomme un peu de grain, qu'est-ce qui se cache là-dessous ? », et une forme se précise pas à pas. Votre texte (le prompt) sert de boussole : à chaque coup de gomme, l'IA compare ce qu'elle voit avec vos mots et oriente le débruitage vers « un chat roux » plutôt que vers autre chose. Pour aller vite, elle ne travaille pas sur les millions de pixels finaux mais sur une version compressée et résumée de l'image — un brouillon interne appelé espace latent — qu'un dernier module traduit en image nette. Les mains ratent souvent parce qu'elles sont petites, rares et tordues dans tous les sens sur les photos d'entraînement : l'IA a vu des doigts mais n'a jamais compris qu'une main en a exactement cinq.

L'analogie

C'est comme un sculpteur devant un bloc de marbre brut : il n'ajoute rien, il enlève de la matière petit à petit jusqu'à ce que la statue apparaisse. Votre prompt, c'est le croquis posé à côté qui lui dit quoi dégager — sauf que pour les doigts, le croquis est flou, alors il en sculpte parfois six.

Creuser dans le cours →
Sources (2)

Comment l'IA génère des vidéos

Une vidéo IA, ce n'est pas un film qu'on tourne : c'est du « bruit » télévisuel que la machine sculpte image par image jusqu'à ce qu'un monde apparaisse.

L'IA part d'un écran rempli de grésillement aléatoire, comme une vieille télé sans antenne, et le nettoie petit à petit jusqu'à révéler l'image demandée : c'est ce qu'on appelle la diffusion. Pour une vidéo, le défi en plus est le temps : il ne suffit pas de faire une belle image, il faut que toutes les images de la séquence s'enchaînent sans que les objets se déforment ou changent de couleur d'un instant à l'autre. Pour y arriver, des modèles comme Sora (OpenAI) ou Veo (Google) ne traitent pas chaque image isolément : ils découpent la vidéo en petits cubes d'« espace-temps » et les génèrent ensemble, en regardant à la fois ce qui se passe à côté et juste avant et après. C'est cette vision globale qui donne la cohérence : un chien reste le même chien quand il court, et une ombre bouge logiquement. Le revers, c'est le coût : une seule seconde de vidéo contient des dizaines d'images, chacune nettoyée des dizaines de fois, ce qui demande une puissance de calcul colossale. Voilà pourquoi quelques secondes de vidéo IA peuvent coûter autant que des centaines d'images fixes et tournent sur des fermes de processeurs graphiques très chers.

L'analogie

Imagine un sculpteur devant un bloc de neige granuleuse (le bruit). Pour une photo, il dégage une seule statue. Pour une vidéo, il doit sculpter une rangée de statues légèrement différentes, en s'assurant que, mises bout à bout, elles donnent l'illusion d'un seul personnage qui bouge en douceur. Et plus la séquence est longue, plus il y a de blocs à tailler, image après image : d'où l'effort énorme.

Creuser dans le cours →
Sources (3)

Comment l'IA comprend et imite la voix

En quelques secondes d'enregistrement, une machine peut aujourd'hui apprendre à parler avec votre voix — voici comment elle entend, et comment elle imite.

La voix par l'IA, ce sont deux trajets opposés. Pour COMPRENDRE (on dit « speech-to-text »), un modèle comme Whisper d'OpenAI transforme le son en une sorte d'image des fréquences (un « spectrogramme »), puis devine mot après mot ce qui a été dit — il a appris en écoutant 680 000 heures d'audio aspirées sur le web. Pour PARLER (« text-to-speech »), c'est l'inverse : l'IA fabrique d'abord cette image-son à partir du texte, puis un « vocodeur neuronal » (comme WaveNet) la retransforme en vraie onde sonore, avec un timbre naturel. Le clonage vocal ajoute une touche : on montre au modèle un court extrait d'une voix réelle, et il apprend à appliquer ce timbre à n'importe quelle phrase. C'est ce dernier point qui crée le danger : quelques secondes suffisent à imiter quelqu'un, et des escrocs s'en servent pour appeler en se faisant passer pour un proche en détresse — une fraude qui a explosé ces dernières années.

L'analogie

Comprendre la voix, c'est comme un musicien qui écoute un air et écrit les notes sur une partition. Parler, c'est l'inverse : un autre musicien lit la partition et rejoue l'air. Le clonage vocal, c'est quand ce second musicien a écouté votre façon de jouer pendant dix secondes et peut désormais rejouer n'importe quelle chanson exactement avec votre « son » à vous.

Creuser dans le cours →
Sources (3)

Ce qui distingue vraiment les grands LLM

Deux IA peuvent réciter la même réponse et pourtant ne pas jouer dans la même cour : la vraie différence se cache dans ce qu'on ne voit pas.

Un grand modèle de langage (LLM), c'est une IA qui a appris à manier le langage en lisant d'énormes quantités de textes. Quatre choses les séparent vraiment. D'abord la taille : on la mesure en "paramètres", les milliards de petits réglages internes du modèle ; plus il y en a, plus il peut retenir de nuances, mais ce qui compte aussi c'est la qualité des données lues, pas seulement leur quantité. Ensuite l'architecture : un modèle "dense" fait travailler tous ses paramètres à chaque mot, tandis qu'un modèle "Mixture-of-Experts" n'allume qu'une poignée de spécialistes selon la question, ce qui le rend plus rapide et moins coûteux à capacité égale. Vient la fenêtre de contexte : la quantité de texte que le modèle peut "garder sous les yeux" en même temps (mesurée en tokens, des petits morceaux de mots) ; plus elle est large, plus il peut lire un long document sans en oublier le début. Enfin, certains sont des modèles de "raisonnement" : avant de répondre, ils réfléchissent étape par étape en interne, ce qui les rend bien meilleurs en maths, en code et en logique, mais plus lents et plus chers. Résultat : il n'existe pas de "meilleur" modèle dans l'absolu, seulement le mieux adapté à votre usage.

L'analogie

Pensez à une équipe de cuisine. Le nombre de paramètres, c'est la taille de la brigade ; mais une petite brigade bien formée bat une grande mal entraînée (la qualité des données). Un modèle dense réveille tous les cuisiniers pour chaque plat ; un Mixture-of-Experts n'appelle que le pâtissier pour un dessert et le rôtisseur pour une viande, donc c'est plus rapide. La fenêtre de contexte, c'est la taille du plan de travail : trop petit, et on perd les ingrédients posés au début de la recette. Et un modèle de raisonnement, c'est le chef qui goûte et corrige avant d'envoyer l'assiette, au lieu de la servir d'un coup.

Creuser dans le cours →
Sources (3)

Pourquoi certains modèles « réfléchissent »

Et si la différence entre une bonne et une mauvaise réponse, c'était simplement quelques secondes de « réflexion » avant de parler ?

Un modèle d'IA classique répond du tac au tac : il crache le premier enchaînement de mots qui lui semble probable, sans s'arrêter. Les modèles dits « de raisonnement » (comme o1 et o3 d'OpenAI, ou DeepSeek-R1) font autre chose : avant de te donner leur réponse finale, ils écrivent pour eux-mêmes une longue suite d'étapes, un brouillon de pensée appelé « chaîne de raisonnement ». Ils posent le problème, testent une piste, se corrigent, vérifient, et ce n'est qu'ensuite qu'ils répondent. Ce brouillon est en grande partie caché, mais c'est lui qui fait la différence : sur les maths, le code ou la logique, ces modèles sont nettement plus justes. La contrepartie est réelle : « penser » prend du temps et coûte cher, car chaque étape de réflexion est du texte généré qu'il faut produire et facturer. Du coup on les réserve aux questions difficiles, et on garde les modèles rapides pour les tâches simples.

L'analogie

C'est la différence entre deux élèves face à un problème de maths. Le premier lève la main tout de suite et lance la première réponse qui lui passe par la tête. Le second prend son brouillon, écrit ses étapes, vérifie son calcul, rature, recommence, puis donne sa réponse. Le second est plus lent et use plus de papier, mais il se trompe beaucoup moins. Un modèle de raisonnement, c'est l'élève qui sort son brouillon.

Creuser dans le cours →
Sources (3)
Repere

Un nom de famille n'est pas une fiche technique

Dire 'Claude', 'GPT' ou 'Qwen' ne suffit pas. Il faut toujours regarder la version exacte, son rôle, sa date et son statut.

Repere

Le meilleur modèle du monde n'existe pas

Un modèle peut être excellent en code, moyen en image, très rapide mais moins profond, ou parfait pour un coût donné.

Repere

Le marché n'est pas seulement américain

La France, l'Europe et surtout la Chine pèsent lourd avec des familles comme Mistral, Qwen, GLM, DeepSeek, Kimi, MiniMax ou Hunyuan.

Repere

Une comparaison utile regarde le rôle, pas le buzz

On compare des sprinteurs entre eux, des cerveaux premium entre eux et des modèles visuels entre eux, pas des objets totalement différents.

Équivalences utiles

Comparer les modèles par rôle

Ces equivalences sont pedagogiques, pas absolues. Elles servent à comprendre à quoi ressemble chaque famille avant d'ouvrir les docs officielles et les benchmarks.

Les cerveaux premium

Quand on veut le plus de profondeur possible

C'est la grande table des modèles qu'on appelle pour les tâches difficiles, le raisonnement, les briefs complexes ou les produits haut de gamme.

  • OpenAI GPT-5.5
  • Anthropic Claude Fable 5 et Opus 4.8
  • Google Gemini 3.1 Pro
  • Mistral Medium 3.5
  • Qwen-Max
  • GLM-5.2
  • DeepSeek-V4-Pro
  • Grok 4.3
  • Kimi K2.6
  • MiniMax-M3
Les sprinteurs economiques

Quand on veut aller vite, souvent et sans trop depenser

Ce sont les modèles qu'on aime pour le volume, la latence basse, les assistants rapides, les premiers jets et les usages industriels à grande échelle.

  • GPT-5 mini et variantes rapides
  • Claude Haiku 4.5
  • Gemini 3.1 Flash-Lite
  • Qwen-Flash
  • GLM-4.7-FlashX
  • DeepSeek-V4-Flash
  • MiniMax-M2.7-HighSpeed
  • Doubao lite
Les chefs d'atelier du code

Quand le produit doit lire, ecrire, corriger et orchestrer du code

Ici, on cherche des familles solides en développement, agentic workflows, outils, refactorisation et exécution contrôlée de tâches techniques.

  • GPT-5.5
  • Claude Opus 4.8 et Sonnet 4.6
  • Gemini 3.1 Pro
  • Mistral Devstral 2 et Medium 3.5
  • Qwen-Max et la gamme Qwen Coder
  • GLM-5.2
  • Kimi K2.7 Code
  • Grok Build 0.1
  • DeepSeek-V4-Pro
Les studios visuels

Quand on parle image, video, voix ou live

Cette voie rappelle qu'un modèle texte n'est pas la même chose qu'un générateur d'image, de vidéo ou de voix en temps réel.

  • GPT Image 2 et GPT-Realtime-2
  • Gemini 3 Pro Image, Flash Image et Veo 3.1
  • Qwen-Image 2.0, Qwen-Omni et Wan 2.7
  • CogView-3-Flash et CogVideoX-3
  • Grok Imagine et Voice API
  • Seedream 5.0 et Seedance 2.0
  • MiniMax image, video, speech et music
  • Tencent Hunyuan image, multimodal et 3D
Atlas mondial

Les grandes familles d'IA dans le monde

Ce panorama est large mais reste volontairement lisible. Il sert à montrer qu'il existe plusieurs centres d'innovation, plusieurs philosophies produit et plusieurs façons de structurer une gamme.

Etats-Unis

Les grandes plateformes generalistes et produit

Ce bloc regroupe les familles qui structurent beaucoup d'outils grand public, d'API et de stacks produit à l'international.

OpenAI GPT-5.5, GPT-5.4, GPT-5 mini, GPT Image 2, GPT-Realtime-2

Très fort pour le produit généraliste, les agents, le code, la voix et l'image.

Anthropic Claude Fable 5, Opus 4.8, Sonnet 4.6, Haiku 4.5

Très lisible pour expliquer les étages premium, équilibre et vitesse.

Google Gemini 3.1 Pro, 2.5 Flash, 3.1 Flash-Lite, Image et Veo

Très utile pour enseigner la multimodalité, le live et les variantes à fort volume.

xAI Grok 4.3, Grok Build 0.1, Imagine, Voice

Bon repère pour voir un écosystème qui mélange chat, code, image et voix.

Europe et open-weight

Les familles qui comptent pour la souverainete et l'autonomie technique

Ici, on regarde les acteurs européens et les écosystèmes open-weight qui intéressent les équipes voulant plus de contrôle sur leur stack.

Mistral Large 3, Medium 3.5, Small 4, Devstral 2, Voxtral

Indispensable dans un projet français pour parler marché sans oublier la scène locale.

Meta Llama 4 Scout, Maverick et Behemoth preview

Très bon cas d'école pour comprendre ce que change un modèle open-weight.

Chine texte et raisonnement

Le coeur de la bataille mondiale ne se joue pas qu'en anglais

La Chine pousse des familles très importantes en texte, code, agents et raisonnement. Il faut absolument les enseigner dans un panorama sérieux.

Alibaba / Qwen Qwen3.7-Max, Qwen3.7-Plus, Qwen-Flash, Qwen-Omni

Très bonne famille pour expliquer l'étagement premium / rapide / omni.

Zhipu / GLM GLM-5.2, GLM-5.1, GLM-5, GLM-4.7-FlashX

Excellente famille pour montrer des variantes premium, agentiques et flash.

DeepSeek DeepSeek-V4-Pro, DeepSeek-V4-Flash, deepseek-reasoner

Très utile pour apprendre aussi la notion de migration et de remplacement de versions.

Moonshot / Kimi Kimi K2.7 Code, Kimi K2.6, Kimi K2.5, Moonshot v1

Très bon repère pour parler code, outils et assistants chinois haut de gamme.

MiniMax MiniMax-M3, M2.7, M2.5, M2.1

Montre qu'une famille peut couvrir à la fois texte, voix, musique, image et vidéo.

Tencent Hunyuan Hunyuan texte, multimodal, image, embeddings, translation, 3D

Important pour comprendre la profondeur des écosystèmes IA des grands clouds chinois.

Chine creative et multimodale

Image, video, scene et media generatif

Cette partie aide à enseigner que la bataille IA ne concerne pas seulement les chats textuels, mais aussi les usines à image, voix et vidéo.

Alibaba / Wan Wan 2.7 image et variantes pro

Bonne porte d'entrée pour parler génération visuelle côté Alibaba.

Zhipu CogVideoX-3 et CogView-3-Flash

Utile pour montrer que GLM n'est pas seulement un LLM texte.

Volcengine / Doubao Doubao, Seedream 5.0, Seedance 2.0

Très utile pour parler des modèles ByteDance côté image, vidéo et raisonnement.

MiniMax image, video, speech, music generation

Montre une stratégie très multimédia, pas seulement conversationnelle.

Lire un modele

Les axes de comparaison qu'on regarde vraiment

  • famille de modele vs version exacte
  • qualite de raisonnement
  • qualite de code
  • multimodalite
  • image / video / voix
  • latence
  • cout
  • contexte long
  • outils et agents
  • hebergement et open-weight
  • langues et localisation
  • controle, garde-fous et deprecations
Et ensuite

Aller plus loin : l'atlas détaillé, fournisseur par fournisseur

La page suivante descend d'un cran: famille par famille, rôle par rôle, avec les modèles premium, les variantes rapides, les blocs créatifs et les sources officielles à consulter.

Ouvrir l'atlas detaille