On choisit un format d'entrée (texte, image, son, code…).
Les formats de l'IA : texte, image, son, code
Découvrir que l'IA peut lire et créer du texte, des images, du son, de la vidéo ou du code — avec le même principe.
🫏 Commence par la BD, c'est plus rigolo ! 🫏 Cette notion existe aussi en BD 🫏 Cette notion existe aussi en BD « IA répond en chanson (alors qu'on a écrit) » — lire l'histoire →
Il est transformé en nombres pour être calculé.
Le modèle repère des motifs et produit une sortie.
Une même IA, plein de formats
- Texte, image, son, vidéo, code : l'IA peut lire ces formats… mais aussi les créer.
- Selon le format, elle « comprend » (reconnaître un chat sur une photo, transcrire un vocal) ou elle « crée » (écrire un texte, générer une image).
- Le truc commun : peu importe le format, tout est transformé en nombres avant le calcul. Le format change, pas la logique de fond.
- Un même outil multimodal peut combiner plusieurs formats : tu lui montres une photo et tu poses une question dessus.
Tu envoies un mémo vocal à un pote, l'appli le transforme en texte : c'est du « voix → texte ». Tu tapes une description et une appli te sort une image : c'est du « texte → image ». Même IA, formats différents.
Comme l'IA peut générer images, voix et vidéos très réalistes, tout ce que tu vois en ligne n'est pas forcément réel. Une voix ou un visage peuvent être fabriqués (deepfakes). Avant de partager ou de croire un contenu choc, demande-toi d'où il vient et recoupe avec une source fiable.
Repère mental : une seule cuisine, on change juste les ingrédients (texte, image, son) sans changer la façon de cuisiner.
Texte, image, son, code : même principe
Choisis un format et suis l'entrée se transformer en nombres, puis en sortie. Le format change, pas la logique.
Format « image ». Même machine, on change juste ce qu'on lui donne.
Sous le capot Pour les curieux : ce qui se passe à l'intérieur
Tape pour explorer Replier
Ce qu'elle fait le plus
L'IA adore les mots ! Elle peut écrire une histoire, la raccourcir, ou la dire dans une autre langue. Pour elle, chaque petit bout de mot devient un nombre, comme si chaque lettre portait une étiquette secrète. C'est ce qu'elle fait quand tu lui parles.
Voir et entendre
Une image, l'IA la coupe en plein de petits carrés, comme un puzzle. Un son, elle le coupe en petites tranches, comme une tarte. Après, elle peut dire ce qu'il y a sur la photo (un chat !) ou même dessiner une nouvelle image toute seule.
Des mots très rangés
Le code, c'est comme une recette pour les ordinateurs : il faut respecter les règles à la virgule près, sinon ça ne marche pas. L'IA peut aider à l'écrire, mais un grand doit toujours vérifier, comme un parent qui relit ton devoir.
Plusieurs talents à la fois
Certaines IA savent faire plusieurs choses d'un coup : lire des mots, regarder une photo et écouter un son. Du coup tu peux lui montrer une image de ton dessin et lui demander : c'est quoi ça ? Et elle répond !
Le format star
Écrire un résumé de cours, traduire des paroles, ranger des messages par thème : c'est le texte. L'IA le découpe en tokens (des morceaux de mots) qu'elle transforme en nombres pour calculer. C'est exactement ce qui se passe quand tu chattes avec un assistant comme ceux de tes applis.
Reconnaître ou créer
Une image est découpée en patchs (de petits carrés de pixels), un son en tranches de temps. L'IA peut reconnaître le contenu (taguer une photo, transcrire un vocal en texte) ou le générer de zéro, comme les filtres et les images créées par IA que tu vois sur les réseaux.
Du texte ultra rigoureux
Le code, c'est du texte qui suit des règles strictes : une virgule oubliée et le programme plante. L'IA peut t'aider à écrire ou corriger du code (genre pour un projet, un site ou un jeu), mais elle se trompe encore : une relecture humaine reste indispensable.
Plusieurs formats combinés
Multimodal veut dire « plusieurs formes ». Ces modèles mélangent texte, image et son dans un même espace de nombres. Tu peux donc leur montrer une photo et poser une question dessus, ou leur faire décrire une vidéo : ils croisent les infos des différents formats.
Le format le plus courant
Écrire, résumer, traduire, classer. Le texte est découpé en tokens puis transformé en nombres. C'est le cœur des assistants conversationnels.
Reconnaître ou générer
Une image est découpée en petits carrés (patchs), un son en tranches de temps. L'IA peut les reconnaître (décrire, transcrire) ou les générer.
Du texte très structuré
Le code est un texte avec des règles strictes. L'IA aide à le rédiger ou le corriger, mais une relecture humaine reste nécessaire.
Plusieurs formats à la fois
Certains modèles combinent texte, image et son. On peut alors leur montrer une photo et poser une question dessus.
L'analogie qui aide à retenir
C'est comme une cuisine magique : tu changes les ingrédients, mais on cuisine toujours pareil.
C'est une seule appli polyvalente : tu changes le fichier d'entrée, mais le moteur tourne toujours pareil.
C'est une cuisine unique : on change les ingrédients (texte, image, son), mais la façon de cuisiner reste la même.
Le coeur de l'idée
La machine peut écrire, dessiner, parler ou reconnaître : à chaque fois elle change tout en nombres, puis elle devine.
Texte, image, son, vidéo, code : l'IA gère plein de formats avec le même principe, tout est converti en nombres avant le calcul.
L'IA gère plusieurs modalités (texte, image, son, code) avec le même principe : tout est encodé en nombres, puis elle prédit une sortie.
Le mécanisme, découpé étape par étape
Tu choisis ce que tu lui donnes : des mots, un dessin ou un son.
La machine change tout ça en nombres, comme un code secret.
Elle se rappelle plein d'exemples et fabrique une réponse.
Parfois tu lui donnes une photo et elle te répond avec des mots !
Tu choisis ce que tu donnes à l'IA : un texte, une photo, un son ou du code.
Elle transforme ce format en nombres, parce qu'elle ne sait calculer que des nombres.
Elle repère les motifs appris et produit une sortie.
La sortie peut changer de format : tu envoies une photo, elle te répond en texte.
Tu choisis un format d'entrée : texte, image, son, vidéo ou code.
Ce format est encodé en représentations numériques (tokens pour le texte, patchs pour l'image, tranches pour l'audio).
Le modèle repère les motifs appris et produit une sortie probable.
La sortie peut être d'un format différent de l'entrée (image → texte, texte → image).
Exemples très concrets Où tu retrouves ça dans le monde réel
Tape pour explorer Replier
Tu écris « raconte une histoire de dragon » et elle écrit l'histoire.
Tu montres la photo de ton chat et elle dit « c'est un chat ».
Tu dis « dessine un robot rigolo » et elle fait le dessin.
Tu tapes un sujet de dissert et l'IA te fait un plan ou un résumé.
Tu envoies une photo d'exercice de maths et elle te l'explique.
Tu décris une image et un générateur te sort un visuel pour ta story.
Texte → texte : résumer un compte rendu de réunion ou rédiger un mail.
Image → texte : prendre en photo un document et le faire décrire ou retranscrire.
Voix → texte : transcrire un mémo vocal en notes écrites.
Points de vigilance Ce qu'il ne faut pas confondre
Tape pour explorer Replier
Toutes les machines ne savent pas tout faire.
Faire un dessin lui demande plus d'efforts qu'écrire des mots.
Bonne sur une chose ne veut pas dire bonne sur tout.
Tous les modèles ne gèrent pas tous les formats.
Les formats riches (image, vidéo) sont plus lourds et plus coûteux à traiter.
Le code généré reste à relire : une IA peut écrire un bug sans le voir.
Tous les modèles ne gèrent pas tous les formats.
Les formats riches (image, vidéo) coûtent plus cher à traiter.
Le code est un texte structuré que l'IA aide à écrire, mais une relecture humaine reste nécessaire.
Remplace les fausses idées par les bonnes
On corrige les réflexes faux que beaucoup gardent, pour ancrer une image mentale juste et solide.
On croit que la machine sait juste écrire des mots.
En vrai elle peut aussi dessiner, faire des voix et reconnaître les photos.
On croit que si elle écrit bien, elle dessine bien aussi.
En vrai pas toujours : chaque machine a ce qu'elle sait bien faire.
« L'IA, c'est juste un chatbot qui écrit du texte. »
Elle gère aussi les images, le son, la vidéo et le code : tout devient des nombres.
« Une IA qui écrit super bien sait forcément générer des images. »
Pas forcément : beaucoup de modèles sont spécialisés sur un seul format.
« Générer une image, c'est aussi rapide et gratuit que du texte. »
Non, les formats riches comme l'image ou la vidéo coûtent plus cher à produire.
« L'IA, c'est seulement du texte. »
Non : elle gère aussi images, son, vidéo et code, en transformant tout en nombres.
« Une IA qui écrit sait forcément dessiner. »
Pas forcément : certains modèles sont spécialisés et tous ne gèrent pas tous les formats.
« Générer une image, c'est gratuit comme du texte. »
Non : les formats riches (image, vidéo) coûtent plus cher à produire et à traiter.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Des mots, des dessins, des sons.
Elle change tout en nombres.
Elle reconnaît ou elle fabrique.
Bonne pour dessiner ne veut pas dire bonne pour chanter.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Texte, image, son, vidéo, code.
Chaque format est converti pareil avant calcul.
Reconnaître (décrire, transcrire) ou générer.
Forte sur un format ≠ forte sur tous.
À la fin, ce sont ces idées qui doivent rester
Si tu peux les redire sans relire la fiche, l'essentiel est acquis.
Texte, image, son, vidéo, code.
Chaque format est encodé en représentations numériques.
Usages discriminatifs (reconnaître) ou génératifs (produire).
Performant sur un format ≠ performant sur tous.
Les questions qu'on se pose souvent
Des réponses courtes et claires, sans jargon, pour lever les doutes.
L'IA peut-elle créer des images ?
Oui, certains modèles génèrent des images à partir d'une description. D'autres savent plutôt les reconnaître.
Comment l'IA « comprend » une photo ?
Elle découpe l'image en petits carrés, les transforme en nombres, puis les compare à ce qu'elle a appris.
Le code, c'est quel format ?
Du texte très structuré. L'IA aide à l'écrire ou le corriger, mais il faut toujours le relire.
Un seul modèle peut-il tout faire ?
Les modèles multimodaux combinent plusieurs formats, mais aucun n'est parfait partout : ça se mesure.
La suite, pensée comme une montée en compréhension
On monte d'un cran à chaque étape, toujours avec la même promesse de clarté.