Du bruit qui devient un film Intermédiaire

Comment l'IA génère des vidéos

Comprendre comment une IA crée une vidéo : la même idée que pour les images, mais avec le temps en plus — et pourquoi c'est si lourd, si cher et encore imparfait.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA réalisateur génial » — lire l'histoire →

11 min vidéodiffusiongénératif

Je commence Je teste ma compréhension

Pas de jargon Compréhensible vite

On part de bruit aléatoire, guidé par ta description (le prompt).

On travaille dans un espace latent compressé pour que le calcul reste possible.

Le modèle débruite des patchs qui couvrent l'espace ET le temps, par étapes successives.

1. Je découvre une version simple et imagée

2. Je comprends le vrai mécanisme sans jargon inutile

3. Je m'entraîne avec un mini quiz immédiat

4. Je retiens les points clés à réexpliquer

La diffusion d'images, mais avec le temps en plus

On part de bruit aléatoire et on le « débruite » en suivant ton texte.
La nouveauté : le modèle traite des petits volumes espace + temps, pas juste des images isolées.
Le vrai défi, c'est la cohérence temporelle : que les objets restent stables et bougent de façon plausible.

Ce qu'il faut retenir : générer une vidéo, ce n'est pas coller des images, c'est les fabriquer ensemble pour qu'elles s'enchaînent.

Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier

Le brouillard

On commence avec du brouillard plein de neige

La machine ne part pas d'une feuille blanche : elle part d'une image toute pleine de neige de télé, comme quand la télé ne capte plus rien. C'est exprès ! Parce qu'à partir de ce brouillard, elle va pouvoir faire apparaître tout ce que tu lui demandes.

On nettoie

Elle efface le brouillard petit à petit

Ensuite elle nettoie, encore et encore, en suivant ta phrase. Si tu as demandé un dauphin, elle efface le brouillard juste comme il faut pour qu'un dauphin apparaisse. C'est comme gratter un ticket : au début on ne voit rien, et l'image se révèle peu à peu.

Toutes ensemble

Elle fait toutes les images en même temps

Une vidéo, c'est plein d'images à la suite. La machine ne les fait pas une par une dans son coin : elle les fabrique toutes ensemble, en faisant attention à celle d'avant et à celle d'après. Comme ça, ton dauphin reste le MÊME dauphin et il nage pour de vrai, au lieu de se transformer en poisson au milieu.

C'est lourd

Faire bouger, c'est un travail énorme

Imagine devoir colorier non pas un dessin, mais des centaines de dessins qui se suivent, tous pareils mais un peu différents. C'est ÉNORME de travail ! C'est pour ça que la machine met du temps et que ses petits films ne durent que quelques secondes. Et parfois, fatiguée, elle se trompe : l'âne IA, lui, jure qu'au milieu de la vidéo il s'est transformé en licorne… mais c'était juste un bug !

Diffusion

Du bruit qu'on transforme en images, étape par étape

À l'entraînement, on a appris au modèle à enlever du bruit : on prend de vraies images, on les couvre de neige, et le modèle apprend à faire le chemin inverse. Pour générer, on lui donne du bruit pur et il le « débruite » en plusieurs étapes, guidé par ton texte, jusqu'à obtenir une image nette. C'est ça, la diffusion.

Espace + temps

Des patchs qui couvrent l'image ET le temps

La nouveauté de la vidéo, c'est le temps. Le modèle découpe la séquence en patchs : de petits morceaux qui couvrent à la fois une zone de l'image et une tranche de temps. En débruitant ces morceaux ensemble, chaque image « regarde » ses voisines avant et après. C'est ce lien qui empêche un objet de sauter ou de changer brutalement d'une image à l'autre.

Espace latent

On génère en version compressée pour que ça tienne

Une vidéo HD, c'est des dizaines de millions de pixels par seconde. Générer directement là-dedans serait impossible, même pour des serveurs puissants. Alors on compresse d'abord la vidéo dans un « espace latent » beaucoup plus petit, on fait toute la génération dans cette version réduite, puis on décompresse pour retrouver les vrais pixels à la fin. C'est comme travailler sur une maquette avant de construire en grand.

Limites

Pourquoi ça dérape (et comment le repérer)

Aucune loi physique n'est codée : le modèle imite juste ce qu'il a vu. Dès que la scène sort de ses exemples, les ratés arrivent — mains à six doigts, objets qui se traversent, texte affiché illisible, choses qui apparaissent ou disparaissent. C'est ton meilleur réflexe critique : pour repérer une vidéo générée, observe les mains, le texte dans l'image et la cohérence des objets dans le temps.

Diffusion + temps

La même recette que les images, étendue au temps

La diffusion apprend à inverser l'ajout de bruit : on bruite des données à l'entraînement, le modèle apprend à débruiter. Pour la vidéo, on ne débruite pas des images isolées mais des volumes espace + temps, pour que les images successives soient liées dès leur fabrication.

Espace latent

On ne génère pas en pixels, sinon c'est trop lourd

Une seconde de vidéo en haute définition, c'est des dizaines de millions de pixels. Générer directement là-dedans serait inabordable. On compresse donc la vidéo dans un espace latent bien plus petit, on y fait toute la génération, puis on reconstruit les pixels à la fin.

DiT et patchs

Un transformeur de diffusion sur des patchs spatio-temporels

Les modèles récents découpent la vidéo latente en patchs couvrant une zone d'image et une tranche de temps, puis un transformeur de diffusion (DiT) les traite ensemble. C'est cette attention croisée entre patchs voisins dans l'espace et dans le temps qui crée la cohérence.

Cohérence temporelle

Le vrai défi : que rien ne « saute »

La difficulté n'est pas de faire une jolie image, c'est de garder un objet identique et stable image après image. Aucun moteur physique n'est codé : la gravité, l'inertie, la permanence des objets sont approchées à partir des exemples vus. D'où les ratés quand la scène sort de ce que le modèle a appris.

Coût

Pourquoi c'est cher, lent et court

Ajouter le temps multiplie le nombre de patchs à traiter à chaque étape de débruitage, et il faut de nombreuses étapes. Résultat : plusieurs minutes de calcul GPU pour quelques secondes de vidéo. C'est ce mur de calcul qui explique les clips courts et le prix élevé.

L'image mentale

L'analogie qui aide à retenir

C'est comme le brouillard du matin qui se lève : au début on ne voit rien, puis l'image apparaît tout doucement.

C'est comme un sculpteur qui part d'un bloc de brouillard et l'efface pour révéler une scène — sauf que son bloc a une épaisseur en plus : le temps.

C'est un sculpteur qui révèle une scène en effaçant un bloc de brouillard — sauf que le bloc a une épaisseur temporelle : il faut sculpter toutes les images d'un coup pour qu'elles bougent ensemble.

À retenir

Le coeur de l'idée

La machine efface le brouillard image après image, et garde le même personnage du début à la fin.

Générer une vidéo, c'est la diffusion d'images avec le temps en plus : on fabrique les images ensemble pour qu'elles s'enchaînent sans sauter.

La génération vidéo est de la diffusion étendue au temps : un DiT débruite des patchs espace + temps dans un espace latent, ce qui crée la cohérence — au prix d'un calcul colossal qui plafonne durée et réalisme.

Comment ça marche

Le mécanisme, découpé étape par étape

La machine commence par une image toute brouillée, comme de la neige de télé.

Elle nettoie petit à petit jusqu'à voir une vraie image.

Elle fait toutes les images en même temps pour raconter la même histoire.

Du coup, ton personnage reste le même quand il bouge.

On part d'un bruit aléatoire, comme de la neige, et on suit ta description.

Le modèle « débruite » par étapes jusqu'à obtenir des images nettes.

Il ne fait pas les images une par une : il traite des bouts d'espace ET de temps en même temps.

C'est ce qui garde un objet stable et un mouvement plausible d'une image à l'autre.

On part de bruit aléatoire conditionné par le prompt, dans un espace latent compressé.

Un transformeur de diffusion (DiT) débruite des patchs spatio-temporels par étapes successives.

Traiter espace et temps conjointement fait émerger la cohérence temporelle, sans moteur physique.

Un décodeur reconstruit les pixels à partir du latent généré.

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu demandes « un petit chien qui court dans l'herbe » et tu obtiens un mini film.

Tu lui donnes une photo de ton dessin et elle le fait bouger un peu.

Tu demandes une fusée qui décolle et tu vois quelques secondes de film.

Tu tapes « un skateur qui fait un kickflip au coucher du soleil » et tu obtiens un clip de quelques secondes.

Tu animes une photo fixe pour en faire un petit boomerang plus crédible.

Tu demandes un plan stylé pour une intro de vidéo, mais le texte affiché part souvent en charabia.

Générer un clip texte → vidéo de quelques secondes avec Sora, Veo, Kling ou Runway.

Animer une image de départ (image → vidéo) pour produire un court mouvement contrôlé.

Prolonger ou raccorder des plans, au prix d'une dérive progressive de la cohérence.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Les films qu'elle fait sont très courts.

Parfois un objet apparaît ou disparaît tout seul, c'est rigolo mais c'est une erreur.

Les mains et les doigts sont souvent bizarres.

Les clips sont courts : la qualité se dégrade dès qu'on allonge.

La physique dérape : objets qui se traversent, ombres ou liquides incohérents.

Mains, doigts, visages et texte écrit dans l'image restent instables.

Générer coûte cher en calcul, donc en temps d'attente.

Durée courte : plafonnement à quelques secondes, qualité qui chute si on étend.

Physique approximative : collisions, fluides, ombres et inertie souvent incohérents.

Mains, visages et texte intégré à l'image restent fragiles.

Objets qui apparaissent/disparaissent quand la cohérence temporelle lâche.

Coût de calcul élevé : plusieurs minutes de GPU pour quelques secondes générées.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine filme pour de vrai avec une caméra.

Ce qu'il faut garder

Mais non : elle invente les images en effaçant du brouillard, il n'y a pas de caméra.

Ce qu'on imagine

On croit qu'elle peut faire un film très long.

Ce qu'il faut garder

Mais non : c'est trop de travail, alors ses films sont tout petits, quelques secondes.

Ce qu'on imagine

« L'IA filme une scène 3D dans sa tête. »

Ce qu'il faut garder

Non. Elle débruite des images plausibles ; elle ne simule pas un vrai monde, donc la physique peut déraper.

Ce qu'on imagine

« Une vidéo IA, c'est juste des images collées une à une. »

Ce qu'il faut garder

Faux. Les images sont fabriquées ensemble pour rester cohérentes, sinon les objets changent en cours de route.

Ce qu'on imagine

« Si c'est super réaliste, ça doit être vrai. »

Ce qu'il faut garder

Pas forcément. Un clip ultra net peut être 100 % généré : regarde les mains, le texte affiché et la physique pour douter.

Ce qu'on imagine

« Le modèle est un simulateur de monde 3D. »

Ce qu'il faut garder

Non. Il produit des images plausibles par débruitage ; il n'évalue pas la gravité ni la permanence des objets, d'où les ratés de physique.

Ce qu'on imagine

« Les images sont générées séquentiellement, une après l'autre. »

Ce qu'il faut garder

Faux. Le débruitage porte sur des patchs couvrant espace et temps conjointement : c'est ce qui assure la cohérence.

Ce qu'on imagine

« Allonger un clip est trivial. »

Ce qu'il faut garder

Non. Le coût croît fortement avec la durée et la cohérence se dégrade : c'est une limite structurelle, pas un réglage.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

On part du brouillard

Au début, c'est de la neige de télé.

On nettoie

Elle efface jusqu'à voir une vraie image.

Toutes ensemble

Les images sont faites en même temps.

Le même héros

Ton personnage ne doit pas se transformer.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Diffusion + temps

Même idée que les images, mais sur des bouts espace + temps.

Cohérence temporelle

Le vrai défi : que rien ne saute d'une image à l'autre.

Physique imitée

Aucune règle codée : elle copie ce qu'elle a vu.

Très gourmand

Beaucoup de calcul, donc des clips courts.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

Diffusion + temps

On débruite des volumes espace + temps, pas des images isolées.

Espace latent

On génère compressé : les pixels bruts seraient inabordables.

DiT sur patchs

Un transformeur de diffusion traite des patchs spatio-temporels.

Physique émergente

Aucune loi codée : elle est approchée depuis les données.

Mur de calcul

Coût énorme : d'où clips courts, chers et lents.

🫏 L'IA du Zéro🧑 Ado

Ma carte mémo

Comment l'IA génère des vidéos

À la fin, ce sont ces idées qui doivent rester

Diffusion + tempsMême idée que les images, mais sur des bouts espace + temps.
Cohérence temporelleLe vrai défi : que rien ne saute d'une image à l'autre.
Physique imitéeAucune règle codée : elle copie ce qu'elle a vu.
Très gourmandBeaucoup de calcul, donc des clips courts.

iaduzero.fr — Comprendre l'IA, de zéro à expert 🇫🇷

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

C'est la même chose que générer une image ?

Oui, c'est la même base — la diffusion — mais avec le temps en plus. Le modèle débruite des morceaux qui couvrent l'espace et le temps, pour que les images s'enchaînent de façon cohérente.

Pourquoi les vidéos IA sont-elles si courtes ?

Parce que le calcul est énorme : ajouter le temps multiplie le travail à chaque étape de débruitage. Plus c'est long, plus c'est cher et plus la cohérence se dégrade.

Pourquoi les mains et la physique dérapent-elles ?

Parce qu'aucune règle physique n'est codée : le modèle imite ce qu'il a vu. Dès que la scène sort de ses exemples, objets et mouvements deviennent incohérents.

Quels outils font ça en 2026 ?

Sora (OpenAI), Veo (Google DeepMind), Kling, Runway, entre autres. Tous reposent sur des principes proches : diffusion dans un espace latent et transformeur de diffusion.

Continuer le parcours

La suite, pensée comme une montée en compréhension

On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.

Voir la fiche

Le multimodal : texte, image, son

Pour voir comment image et son sont encodés — la brique sur laquelle s'appuie la vidéo.

Suite 1

Voir la fiche

Les formats de l'IA

Pour situer la vidéo parmi tout ce que l'IA peut comprendre et générer.

Suite 2

Voir la fiche

Latence, coût et cache

Parce que la vidéo est l'usage le plus gourmand en calcul : comprendre le coût (Niveau 3).

Suite 3