📘 Blog Pédagogique · ELI5

L'IA Générative en Vision par Ordinateur

Comment une machine peut-elle inventer des images ? Découvre GAN, VAE et les Diffusion Models — simplement.

🧠 Débutant friendly · ⏱ ~10 min de lecture · 🎨 Computer Vision
▼   Défiler pour lire

Comment une machine peut-elle créer des images ?

Tu as sûrement vu des deepfakes — ces vidéos où un visage est remplacé par un autre. Ou encore des outils comme Midjourney ou DALL·E qui transforment une phrase en image en quelques secondes. Mais comment est-ce possible ?

Jusqu'à récemment, les ordinateurs ne pouvaient qu'analyser des images : reconnaître un chat, détecter une voiture, lire un texte. Aujourd'hui, grâce à l'IA Générative, ils peuvent aussi en créer — des visages qui n'existent pas, des paysages imaginaires, des œuvres d'art entières.

Dans ce blog, on va tout décortiquer ensemble. Pas besoin d'être ingénieur : juste de la curiosité 🙂

La grande question : Un humain apprend à dessiner en regardant des milliers d'images. Une IA fait-elle la même chose ? La réponse est… oui, mais à sa manière !

C'est quoi l'IA Générative en Computer Vision ?

L'IA générative en vision par ordinateur, c'est une famille de modèles d'intelligence artificielle capables de créer de nouvelles images — pas juste de les analyser.

Concrètement, voici ce que ces modèles savent faire :

🧑

Génération de visages

Créer des personnes qui n'ont jamais existé (ex : thispersondoesnotexist.com)

✍️

Texte → Image

"Un chat astronaute sur la lune" → Image réaliste en quelques secondes

🔍

Super-résolution

Améliorer une image floue et la rendre nette et détaillée

🎨

Style Transfer

Transformer une photo en peinture style Van Gogh ou Picasso

🎨
Analogie : Imagine un artiste peintre qui observe des millions de tableaux. Au bout d'un moment, il comprend les règles : comment dessiner un visage, comment représenter la lumière… et il peut créer ses propres œuvres. L'IA générative fait exactement cela — mais en mathématiques.

Pourquoi utiliser l'IA générative ?

Créer des images par IA, c'est bien plus qu'un gadget. Les applications réelles sont immenses :

🏥

Médecine

Générer des images médicales pour entraîner des diagnostics sans données patients

🎮

Jeux Vidéo

Créer automatiquement des textures, personnages et environnements

🎬

Cinéma

Effets spéciaux, deepfakes pour le doublage, rajeunissement d'acteurs

🛍️

E-commerce

Générer des photos produit sans séance photo physique

🏗️

Architecture

Visualiser un bâtiment avant qu'il soit construit, en rendu réaliste

🎭

Art & Design

Générer des affiches, logos, personnages sur demande

💡
En résumé : Avant, si tu voulais une image d'un dragon bleu sous l'eau, tu devais chercher un photographe ou un illustrateur. Maintenant, tu tapes la phrase — et l'image apparaît. L'IA crée ce qui n'existe pas encore.

Les 3 grandes architectures

Il existe plusieurs manières de "construire" une IA générative. Voici les trois familles les plus importantes, expliquées simplement.

🟥 GAN — Generative Adversarial Network

Le Duel

Un GAN met en compétition deux réseaux de neurones qui s'entraînent l'un contre l'autre :

  • Le Générateur — il crée de fausses images à partir de bruit aléatoire
  • Le Discriminateur — il essaie de distinguer les vraies images des fausses
🎭
Analogie du faussaire : Imagine un faussaire qui fabrique de faux billets, et un policier qui essaie de les détecter. Le faussaire s'améliore à chaque tentative ratée, et le policier devient plus vigilant. À force de jouer ce jeu, les faux billets deviennent parfaits !
🎲 Bruit aléatoire Générateur crée une image 🖼️ Image générée Discrimina- teur vrai / faux ? feedback → amélioration
✅ Avantages
  • Images très réalistes
  • Rapide à générer une fois entraîné
  • Efficace pour les visages, textures
⚠️ Limites
  • Entraînement instable (mode collapse)
  • Difficile à contrôler précisément
  • Peut "bloquer" sur certains styles

🟩 VAE — Variational AutoEncoder

La Compression

Le VAE fonctionne en deux étapes : il compresse d'abord une image en une représentation compacte, puis la reconstruit (ou en crée une nouvelle).

  • L'Encodeur — il "résume" une image en un code compact (vecteur latent)
  • Le Décodeur — il recrée une image à partir de ce code
📦
Analogie de la valise : Imagine que tu dois résumer un roman de 500 pages en seulement 10 mots-clés. L'encodeur fait ce "résumé". Ensuite, le décodeur essaie de réécrire le roman à partir de ces 10 mots — il ne sera pas identique, mais il capturera l'essentiel.
🖼️ Image réelle Encodeur compresse z-space [ μ, σ ] code compact Décodeur reconstruit 🌅
Avantages
  • Entraînement stable et simple
  • Espace latent structuré et interprétable
  • Bon pour interpoler entre images
Limites
  • Images souvent un peu floues
  • Moins réaliste que GAN ou Diffusion
  • Compression = perte de détails fins

🟪 Diffusion Models

Le Débruitage

Les modèles de diffusion fonctionnent à l'inverse des autres : ils apprennent à nettoyer une image progressivement, en partant du bruit pur pour arriver à une image nette.

  • Phase d'entraînement — on ajoute du bruit à des images réelles, étape par étape, jusqu'à n'avoir plus que du bruit
  • Phase de génération — on part d'un bruit aléatoire et on "nettoie" progressivement jusqu'à obtenir une image
🌫️
Analogie de la photo brouillée : Imagine une photo de chat recouverte de brouillard, couche par couche. Le modèle apprend à enlever chaque couche de brouillard pour retrouver la photo originale. Une fois qu'il sait faire ça, il peut partir de brouillard pur et "inventer" un nouveau chat !
→ ajout de bruit (entraînement) 🐱 x₀ 🐱 x₁ 🐱 x_t noise ← débruitage (génération) Réseau U-Net prédit le bruit à enlever à chaque étape t
Avantages
  • Qualité d'image exceptionnelle
  • Très précis et contrôlable (texte → image)
  • Base de Stable Diffusion, DALL·E, Midjourney
Limites
  • Génération lente (nombreuses étapes)
  • Coûteux en calcul (GPU nécessaire)
  • Plus complexe à entraîner

Quel modèle choisir ?

Chaque architecture a ses forces. Voici un résumé visuel pour choisir la bonne selon ton besoin :

Modèle Idée centrale Qualité image Vitesse Stabilité Cas d'usage idéal
GAN Duel faussaire/policier Très bonne Rapide Instable Visages, deepfakes, super-résolution
VAE Compression → reconstruction Correcte Rapide Très stable Interpolation, représentations latentes
Diffusion Débruitage progressif Excellente Lent Très stable Texte → image, art génératif

2014 — GAN inventé par Ian Goodfellow

Révolution dans la génération d'images réalistes. Les premiers deepfakes apparaissent.

2013 — VAE proposé par Kingma & Welling

Approche probabiliste et stable, fondement de nombreux systèmes d'encodage.

2020-2022 — Diffusion Models dominent

Stable Diffusion, DALL·E 2, Midjourney : la qualité atteint un niveau sans précédent.

Stable Diffusion en action

Stable Diffusion est un modèle de diffusion open-source qui combine plusieurs composants pour transformer un texte en image :

✍️ "Un chat astronaute" CLIP Encodeur texte → vecteur 768D U-Net Diffusion guidée par le texte 50 étapes de débruitage VAE Décodeur latent → image 🚀🐱 Stable Diffusion combine CLIP (texte), U-Net (diffusion) et VAE (décodage) — 3 architectures en 1 !
🚀
Fun fact : Stable Diffusion combine en réalité les 3 architectures qu'on a vues ! CLIP pour encoder le texte (comme un VAE), U-Net pour le débruitage (Diffusion), et un VAE pour le décodage final. Les meilleures IA modernes sont des combinaisons intelligentes de ces blocs.

Ce qu'il faut retenir

L'IA générative en Computer Vision repose sur trois grandes familles d'architectures :

⚔️
GAN
Duel → Réalisme
📦
VAE
Compression → Stabilité
🌫️
Diffusion
Débruitage → Qualité

Chacune a ses forces : GAN pour la vitesse et le réalisme, VAE pour la stabilité, Diffusion pour la qualité ultime. Les meilleurs systèmes (Stable Diffusion, DALL·E 3) combinent ces architectures.

Et demain ? Le futur s'annonce encore plus impressionnant 👇

🎥 Génération vidéo (Sora) 🗣️ Texte → 3D 🧬 IA médicale générative 🌐 Mondes virtuels IA 🤖 Agents visuels autonomes