On part de bruit aléatoire, guidé par ta description (le prompt).
Comment l'IA génère des vidéos
Comprendre comment une IA crée une vidéo : la même idée que pour les images, mais avec le temps en plus — et pourquoi c'est si lourd, si cher et encore imparfait.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA réalisateur génial » — lire l'histoire →
On travaille dans un espace latent compressé pour que le calcul reste possible.
Le modèle débruite des patchs qui couvrent l'espace ET le temps, par étapes successives.
La diffusion d'images, mais avec le temps en plus
- On part de bruit aléatoire et on le « débruite » en suivant ton texte.
- La nouveauté : le modèle traite des petits volumes espace + temps, pas juste des images isolées.
- Le vrai défi, c'est la cohérence temporelle : que les objets restent stables et bougent de façon plausible.
Ce qu'il faut retenir : générer une vidéo, ce n'est pas coller des images, c'est les fabriquer ensemble pour qu'elles s'enchaînent.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
On commence avec du brouillard plein de neige
La machine ne part pas d'une feuille blanche : elle part d'une image toute pleine de neige de télé, comme quand la télé ne capte plus rien. C'est exprès ! Parce qu'à partir de ce brouillard, elle va pouvoir faire apparaître tout ce que tu lui demandes.
Elle efface le brouillard petit à petit
Ensuite elle nettoie, encore et encore, en suivant ta phrase. Si tu as demandé un dauphin, elle efface le brouillard juste comme il faut pour qu'un dauphin apparaisse. C'est comme gratter un ticket : au début on ne voit rien, et l'image se révèle peu à peu.
Elle fait toutes les images en même temps
Une vidéo, c'est plein d'images à la suite. La machine ne les fait pas une par une dans son coin : elle les fabrique toutes ensemble, en faisant attention à celle d'avant et à celle d'après. Comme ça, ton dauphin reste le MÊME dauphin et il nage pour de vrai, au lieu de se transformer en poisson au milieu.
Faire bouger, c'est un travail énorme
Imagine devoir colorier non pas un dessin, mais des centaines de dessins qui se suivent, tous pareils mais un peu différents. C'est ÉNORME de travail ! C'est pour ça que la machine met du temps et que ses petits films ne durent que quelques secondes. Et parfois, fatiguée, elle se trompe : l'âne IA, lui, jure qu'au milieu de la vidéo il s'est transformé en licorne… mais c'était juste un bug !
Du bruit qu'on transforme en images, étape par étape
À l'entraînement, on a appris au modèle à enlever du bruit : on prend de vraies images, on les couvre de neige, et le modèle apprend à faire le chemin inverse. Pour générer, on lui donne du bruit pur et il le « débruite » en plusieurs étapes, guidé par ton texte, jusqu'à obtenir une image nette. C'est ça, la diffusion.
Des patchs qui couvrent l'image ET le temps
La nouveauté de la vidéo, c'est le temps. Le modèle découpe la séquence en patchs : de petits morceaux qui couvrent à la fois une zone de l'image et une tranche de temps. En débruitant ces morceaux ensemble, chaque image « regarde » ses voisines avant et après. C'est ce lien qui empêche un objet de sauter ou de changer brutalement d'une image à l'autre.
On génère en version compressée pour que ça tienne
Une vidéo HD, c'est des dizaines de millions de pixels par seconde. Générer directement là-dedans serait impossible, même pour des serveurs puissants. Alors on compresse d'abord la vidéo dans un « espace latent » beaucoup plus petit, on fait toute la génération dans cette version réduite, puis on décompresse pour retrouver les vrais pixels à la fin. C'est comme travailler sur une maquette avant de construire en grand.
Pourquoi ça dérape (et comment le repérer)
Aucune loi physique n'est codée : le modèle imite juste ce qu'il a vu. Dès que la scène sort de ses exemples, les ratés arrivent — mains à six doigts, objets qui se traversent, texte affiché illisible, choses qui apparaissent ou disparaissent. C'est ton meilleur réflexe critique : pour repérer une vidéo générée, observe les mains, le texte dans l'image et la cohérence des objets dans le temps.
La même recette que les images, étendue au temps
La diffusion apprend à inverser l'ajout de bruit : on bruite des données à l'entraînement, le modèle apprend à débruiter. Pour la vidéo, on ne débruite pas des images isolées mais des volumes espace + temps, pour que les images successives soient liées dès leur fabrication.
On ne génère pas en pixels, sinon c'est trop lourd
Une seconde de vidéo en haute définition, c'est des dizaines de millions de pixels. Générer directement là-dedans serait inabordable. On compresse donc la vidéo dans un espace latent bien plus petit, on y fait toute la génération, puis on reconstruit les pixels à la fin.
Un transformeur de diffusion sur des patchs spatio-temporels
Les modèles récents découpent la vidéo latente en patchs couvrant une zone d'image et une tranche de temps, puis un transformeur de diffusion (DiT) les traite ensemble. C'est cette attention croisée entre patchs voisins dans l'espace et dans le temps qui crée la cohérence.
Le vrai défi : que rien ne « saute »
La difficulté n'est pas de faire une jolie image, c'est de garder un objet identique et stable image après image. Aucun moteur physique n'est codé : la gravité, l'inertie, la permanence des objets sont approchées à partir des exemples vus. D'où les ratés quand la scène sort de ce que le modèle a appris.
Pourquoi c'est cher, lent et court
Ajouter le temps multiplie le nombre de patchs à traiter à chaque étape de débruitage, et il faut de nombreuses étapes. Résultat : plusieurs minutes de calcul GPU pour quelques secondes de vidéo. C'est ce mur de calcul qui explique les clips courts et le prix élevé.
L'analogie qui aide à retenir
C'est comme le brouillard du matin qui se lève : au début on ne voit rien, puis l'image apparaît tout doucement.
C'est comme un sculpteur qui part d'un bloc de brouillard et l'efface pour révéler une scène — sauf que son bloc a une épaisseur en plus : le temps.
C'est un sculpteur qui révèle une scène en effaçant un bloc de brouillard — sauf que le bloc a une épaisseur temporelle : il faut sculpter toutes les images d'un coup pour qu'elles bougent ensemble.
Le coeur de l'idée
La machine efface le brouillard image après image, et garde le même personnage du début à la fin.
Générer une vidéo, c'est la diffusion d'images avec le temps en plus : on fabrique les images ensemble pour qu'elles s'enchaînent sans sauter.
La génération vidéo est de la diffusion étendue au temps : un DiT débruite des patchs espace + temps dans un espace latent, ce qui crée la cohérence — au prix d'un calcul colossal qui plafonne durée et réalisme.
Le mécanisme, découpé étape par étape
La machine commence par une image toute brouillée, comme de la neige de télé.
Elle nettoie petit à petit jusqu'à voir une vraie image.
Elle fait toutes les images en même temps pour raconter la même histoire.
Du coup, ton personnage reste le même quand il bouge.
On part d'un bruit aléatoire, comme de la neige, et on suit ta description.
Le modèle « débruite » par étapes jusqu'à obtenir des images nettes.
Il ne fait pas les images une par une : il traite des bouts d'espace ET de temps en même temps.
C'est ce qui garde un objet stable et un mouvement plausible d'une image à l'autre.
On part de bruit aléatoire conditionné par le prompt, dans un espace latent compressé.
Un transformeur de diffusion (DiT) débruite des patchs spatio-temporels par étapes successives.
Traiter espace et temps conjointement fait émerger la cohérence temporelle, sans moteur physique.
Un décodeur reconstruit les pixels à partir du latent généré.
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Tu demandes « un petit chien qui court dans l'herbe » et tu obtiens un mini film.
Tu lui donnes une photo de ton dessin et elle le fait bouger un peu.
Tu demandes une fusée qui décolle et tu vois quelques secondes de film.
Tu tapes « un skateur qui fait un kickflip au coucher du soleil » et tu obtiens un clip de quelques secondes.
Tu animes une photo fixe pour en faire un petit boomerang plus crédible.
Tu demandes un plan stylé pour une intro de vidéo, mais le texte affiché part souvent en charabia.
Générer un clip texte → vidéo de quelques secondes avec Sora, Veo, Kling ou Runway.
Animer une image de départ (image → vidéo) pour produire un court mouvement contrôlé.
Prolonger ou raccorder des plans, au prix d'une dérive progressive de la cohérence.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Les films qu'elle fait sont très courts.
Parfois un objet apparaît ou disparaît tout seul, c'est rigolo mais c'est une erreur.
Les mains et les doigts sont souvent bizarres.
Les clips sont courts : la qualité se dégrade dès qu'on allonge.
La physique dérape : objets qui se traversent, ombres ou liquides incohérents.
Mains, doigts, visages et texte écrit dans l'image restent instables.
Générer coûte cher en calcul, donc en temps d'attente.
Durée courte : plafonnement à quelques secondes, qualité qui chute si on étend.
Physique approximative : collisions, fluides, ombres et inertie souvent incohérents.
Mains, visages et texte intégré à l'image restent fragiles.
Objets qui apparaissent/disparaissent quand la cohérence temporelle lâche.
Coût de calcul élevé : plusieurs minutes de GPU pour quelques secondes générées.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que la machine filme pour de vrai avec une caméra.
Mais non : elle invente les images en effaçant du brouillard, il n'y a pas de caméra.
On croit qu'elle peut faire un film très long.
Mais non : c'est trop de travail, alors ses films sont tout petits, quelques secondes.
« L'IA filme une scène 3D dans sa tête. »
Non. Elle débruite des images plausibles ; elle ne simule pas un vrai monde, donc la physique peut déraper.
« Une vidéo IA, c'est juste des images collées une à une. »
Faux. Les images sont fabriquées ensemble pour rester cohérentes, sinon les objets changent en cours de route.
« Si c'est super réaliste, ça doit être vrai. »
Pas forcément. Un clip ultra net peut être 100 % généré : regarde les mains, le texte affiché et la physique pour douter.
« Le modèle est un simulateur de monde 3D. »
Non. Il produit des images plausibles par débruitage ; il n'évalue pas la gravité ni la permanence des objets, d'où les ratés de physique.
« Les images sont générées séquentiellement, une après l'autre. »
Faux. Le débruitage porte sur des patchs couvrant espace et temps conjointement : c'est ce qui assure la cohérence.
« Allonger un clip est trivial. »
Non. Le coût croît fortement avec la durée et la cohérence se dégrade : c'est une limite structurelle, pas un réglage.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Au début, c'est de la neige de télé.
Elle efface jusqu'à voir une vraie image.
Les images sont faites en même temps.
Ton personnage ne doit pas se transformer.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Même idée que les images, mais sur des bouts espace + temps.
Le vrai défi : que rien ne saute d'une image à l'autre.
Aucune règle codée : elle copie ce qu'elle a vu.
Beaucoup de calcul, donc des clips courts.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
On débruite des volumes espace + temps, pas des images isolées.
On génère compressé : les pixels bruts seraient inabordables.
Un transformeur de diffusion traite des patchs spatio-temporels.
Aucune loi codée : elle est approchée depuis les données.
Coût énorme : d'où clips courts, chers et lents.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
C'est la même chose que générer une image ?
Oui, c'est la même base — la diffusion — mais avec le temps en plus. Le modèle débruite des morceaux qui couvrent l'espace et le temps, pour que les images s'enchaînent de façon cohérente.
Pourquoi les vidéos IA sont-elles si courtes ?
Parce que le calcul est énorme : ajouter le temps multiplie le travail à chaque étape de débruitage. Plus c'est long, plus c'est cher et plus la cohérence se dégrade.
Pourquoi les mains et la physique dérapent-elles ?
Parce qu'aucune règle physique n'est codée : le modèle imite ce qu'il a vu. Dès que la scène sort de ses exemples, objets et mouvements deviennent incohérents.
Quels outils font ça en 2026 ?
Sora (OpenAI), Veo (Google DeepMind), Kling, Runway, entre autres. Tous reposent sur des principes proches : diffusion dans un espace latent et transformeur de diffusion.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.