Une même idée, plusieurs matières Débutant

Les formats de l'IA : texte, image, son, code

Découvrir que l'IA peut lire et créer du texte, des images, du son, de la vidéo ou du code — avec le même principe.

🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA répond en chanson (alors qu'on a écrit) » — lire l'histoire →
8 min formatsusagesvulgarisation
Pas de jargon Compréhensible vite
Mascotte de L'IA du Zéro

On choisit un format d'entrée (texte, image, son, code…).

Il est transformé en nombres pour être calculé.

Le modèle repère des motifs et produit une sortie.

1. Je découvre une version simple et imagée
2. Je comprends le vrai mécanisme sans jargon inutile
3. Je m'entraîne avec un mini quiz immédiat
4. Je retiens les points clés à réexpliquer

Une même IA, plein de formats

  • Texte, image, son, vidéo, code : l'IA peut lire ces formats… mais aussi les créer.
  • Selon le format, elle « comprend » (reconnaître un chat sur une photo, transcrire un vocal) ou elle « crée » (écrire un texte, générer une image).
  • Le truc commun : peu importe le format, tout est transformé en nombres avant le calcul. Le format change, pas la logique de fond.
  • Un même outil multimodal peut combiner plusieurs formats : tu lui montres une photo et tu poses une question dessus.
Un exemple pour toi

Tu envoies un mémo vocal à un pote, l'appli le transforme en texte : c'est du « voix → texte ». Tu tapes une description et une appli te sort une image : c'est du « texte → image ». Même IA, formats différents.

Comme l'IA peut générer images, voix et vidéos très réalistes, tout ce que tu vois en ligne n'est pas forcément réel. Une voix ou un visage peuvent être fabriqués (deepfakes). Avant de partager ou de croire un contenu choc, demande-toi d'où il vient et recoupe avec une source fiable.

Repère mental : une seule cuisine, on change juste les ingrédients (texte, image, son) sans changer la façon de cuisiner.

Le déclic en mouvement

Texte, image, son, code : même principe

Choisis un format et suis l'entrée se transformer en nombres, puis en sortie. Le format change, pas la logique.

Choisis un format. Je peux lire et créer plein de choses différentes.
Format :
Une photo de chat

Format « image ». Même machine, on change juste ce qu'on lui donne.

Étape 1 / 3
Sous le capot

Pour les curieux : ce qui se passe à l'intérieur

Tape pour explorer Replier
1
Les mots

Ce qu'elle fait le plus

L'IA adore les mots ! Elle peut écrire une histoire, la raccourcir, ou la dire dans une autre langue. Pour elle, chaque petit bout de mot devient un nombre, comme si chaque lettre portait une étiquette secrète. C'est ce qu'elle fait quand tu lui parles.

2
Photos et sons

Voir et entendre

Une image, l'IA la coupe en plein de petits carrés, comme un puzzle. Un son, elle le coupe en petites tranches, comme une tarte. Après, elle peut dire ce qu'il y a sur la photo (un chat !) ou même dessiner une nouvelle image toute seule.

3
Le langage des robots

Des mots très rangés

Le code, c'est comme une recette pour les ordinateurs : il faut respecter les règles à la virgule près, sinon ça ne marche pas. L'IA peut aider à l'écrire, mais un grand doit toujours vérifier, comme un parent qui relit ton devoir.

4
Tout en même temps

Plusieurs talents à la fois

Certaines IA savent faire plusieurs choses d'un coup : lire des mots, regarder une photo et écouter un son. Du coup tu peux lui montrer une image de ton dessin et lui demander : c'est quoi ça ? Et elle répond !

1
Texte

Le format star

Écrire un résumé de cours, traduire des paroles, ranger des messages par thème : c'est le texte. L'IA le découpe en tokens (des morceaux de mots) qu'elle transforme en nombres pour calculer. C'est exactement ce qui se passe quand tu chattes avec un assistant comme ceux de tes applis.

2
Image & son

Reconnaître ou créer

Une image est découpée en patchs (de petits carrés de pixels), un son en tranches de temps. L'IA peut reconnaître le contenu (taguer une photo, transcrire un vocal en texte) ou le générer de zéro, comme les filtres et les images créées par IA que tu vois sur les réseaux.

3
Code

Du texte ultra rigoureux

Le code, c'est du texte qui suit des règles strictes : une virgule oubliée et le programme plante. L'IA peut t'aider à écrire ou corriger du code (genre pour un projet, un site ou un jeu), mais elle se trompe encore : une relecture humaine reste indispensable.

4
Multimodal

Plusieurs formats combinés

Multimodal veut dire « plusieurs formes ». Ces modèles mélangent texte, image et son dans un même espace de nombres. Tu peux donc leur montrer une photo et poser une question dessus, ou leur faire décrire une vidéo : ils croisent les infos des différents formats.

1
Texte

Le format le plus courant

Écrire, résumer, traduire, classer. Le texte est découpé en tokens puis transformé en nombres. C'est le cœur des assistants conversationnels.

2
Image & son

Reconnaître ou générer

Une image est découpée en petits carrés (patchs), un son en tranches de temps. L'IA peut les reconnaître (décrire, transcrire) ou les générer.

3
Code

Du texte très structuré

Le code est un texte avec des règles strictes. L'IA aide à le rédiger ou le corriger, mais une relecture humaine reste nécessaire.

4
Multimodal

Plusieurs formats à la fois

Certains modèles combinent texte, image et son. On peut alors leur montrer une photo et poser une question dessus.

L'image mentale

L'analogie qui aide à retenir

C'est comme une cuisine magique : tu changes les ingrédients, mais on cuisine toujours pareil.

C'est une seule appli polyvalente : tu changes le fichier d'entrée, mais le moteur tourne toujours pareil.

C'est une cuisine unique : on change les ingrédients (texte, image, son), mais la façon de cuisiner reste la même.

À retenir

Le coeur de l'idée

La machine peut écrire, dessiner, parler ou reconnaître : à chaque fois elle change tout en nombres, puis elle devine.

Texte, image, son, vidéo, code : l'IA gère plein de formats avec le même principe, tout est converti en nombres avant le calcul.

L'IA gère plusieurs modalités (texte, image, son, code) avec le même principe : tout est encodé en nombres, puis elle prédit une sortie.

Comment ça marche

Le mécanisme, découpé étape par étape

1

Tu choisis ce que tu lui donnes : des mots, un dessin ou un son.

2

La machine change tout ça en nombres, comme un code secret.

3

Elle se rappelle plein d'exemples et fabrique une réponse.

4

Parfois tu lui donnes une photo et elle te répond avec des mots !

1

Tu choisis ce que tu donnes à l'IA : un texte, une photo, un son ou du code.

2

Elle transforme ce format en nombres, parce qu'elle ne sait calculer que des nombres.

3

Elle repère les motifs appris et produit une sortie.

4

La sortie peut changer de format : tu envoies une photo, elle te répond en texte.

1

Tu choisis un format d'entrée : texte, image, son, vidéo ou code.

2

Ce format est encodé en représentations numériques (tokens pour le texte, patchs pour l'image, tranches pour l'audio).

3

Le modèle repère les motifs appris et produit une sortie probable.

4

La sortie peut être d'un format différent de l'entrée (image → texte, texte → image).

Exemples très concrets

Où tu retrouves ça dans le monde réel

Tape pour explorer Replier

Tu écris « raconte une histoire de dragon » et elle écrit l'histoire.

Tu montres la photo de ton chat et elle dit « c'est un chat ».

Tu dis « dessine un robot rigolo » et elle fait le dessin.

Tu tapes un sujet de dissert et l'IA te fait un plan ou un résumé.

Tu envoies une photo d'exercice de maths et elle te l'explique.

Tu décris une image et un générateur te sort un visuel pour ta story.

Texte → texte : résumer un compte rendu de réunion ou rédiger un mail.

Image → texte : prendre en photo un document et le faire décrire ou retranscrire.

Voix → texte : transcrire un mémo vocal en notes écrites.

Points de vigilance

Ce qu'il ne faut pas confondre

Tape pour explorer Replier

Toutes les machines ne savent pas tout faire.

Faire un dessin lui demande plus d'efforts qu'écrire des mots.

Bonne sur une chose ne veut pas dire bonne sur tout.

Tous les modèles ne gèrent pas tous les formats.

Les formats riches (image, vidéo) sont plus lourds et plus coûteux à traiter.

Le code généré reste à relire : une IA peut écrire un bug sans le voir.

Tous les modèles ne gèrent pas tous les formats.

Les formats riches (image, vidéo) coûtent plus cher à traiter.

Le code est un texte structuré que l'IA aide à écrire, mais une relecture humaine reste nécessaire.

Mythes vs réalité

Remplace les fausses idées par les bonnes

On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.

Ce qu'on imagine

On croit que la machine sait juste écrire des mots.

Ce qu'il faut garder

En vrai elle peut aussi dessiner, faire des voix et reconnaître les photos.

Ce qu'on imagine

On croit que si elle écrit bien, elle dessine bien aussi.

Ce qu'il faut garder

En vrai pas toujours : chaque machine a ce qu'elle sait bien faire.

Ce qu'on imagine

« L'IA, c'est juste un chatbot qui écrit du texte. »

Ce qu'il faut garder

Elle gère aussi les images, le son, la vidéo et le code : tout devient des nombres.

Ce qu'on imagine

« Une IA qui écrit super bien sait forcément générer des images. »

Ce qu'il faut garder

Pas forcément : beaucoup de modèles sont spécialisés sur un seul format.

Ce qu'on imagine

« Générer une image, c'est aussi rapide et gratuit que du texte. »

Ce qu'il faut garder

Non, les formats riches comme l'image ou la vidéo coûtent plus cher à produire.

Ce qu'on imagine

« L'IA, c'est seulement du texte. »

Ce qu'il faut garder

Non : elle gère aussi images, son, vidéo et code, en transformant tout en nombres.

Ce qu'on imagine

« Une IA qui écrit sait forcément dessiner. »

Ce qu'il faut garder

Pas forcément : certains modèles sont spécialisés et tous ne gèrent pas tous les formats.

Ce qu'on imagine

« Générer une image, c'est gratuit comme du texte. »

Ce qu'il faut garder

Non : les formats riches (image, vidéo) coûtent plus cher à produire et à traiter.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Plein de choses

Des mots, des dessins, des sons.

2
Le code secret

Elle change tout en nombres.

3
Lire ou créer

Elle reconnaît ou elle fabrique.

4
Pas douée partout

Bonne pour dessiner ne veut pas dire bonne pour chanter.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Plusieurs formats

Texte, image, son, vidéo, code.

2
Tout en nombres

Chaque format est converti pareil avant calcul.

3
Lire ou créer

Reconnaître (décrire, transcrire) ou générer.

4
Spécialisation

Forte sur un format ≠ forte sur tous.

Mémo final

À la fin, ce sont ces idées qui doivent rester

Si tu peux les redire sans relire la fiche, l'essentiel est acquis.

1
Plusieurs formats

Texte, image, son, vidéo, code.

2
Tout en nombres

Chaque format est encodé en représentations numériques.

3
Lire ou créer

Usages discriminatifs (reconnaître) ou génératifs (produire).

4
Spécialisation

Performant sur un format ≠ performant sur tous.

Questions fréquentes

Les questions qu'on se pose souvent

Des réponses courtes et claires, sans jargon, pour lever les doutes.

L'IA peut-elle créer des images ?

Oui, certains modèles génèrent des images à partir d'une description. D'autres savent plutôt les reconnaître.

Comment l'IA « comprend » une photo ?

Elle découpe l'image en petits carrés, les transforme en nombres, puis les compare à ce qu'elle a appris.

Le code, c'est quel format ?

Du texte très structuré. L'IA aide à l'écrire ou le corriger, mais il faut toujours le relire.

Un seul modèle peut-il tout faire ?

Les modèles multimodaux combinent plusieurs formats, mais aucun n'est parfait partout : ça se mesure.