- L’illusion de la maîtrise : Les IA génératives produisent facilement des images esthétiques, donnant à tort l’impression d’une compréhension profonde du monde.
- Le vrai défi, c’est le contrôle : Obtenir une image précise, cohérente et qui correspond exactement aux demandes de l’utilisateur reste extrêmement complexe, même avec des outils avancés comme ControlNet.
- Le langage est trop pauvre : Un prompt textuel ne suffit pas pour transmettre une vision artistique riche — trop peu d’information, trop d’ambiguïté.
- La création comme communication : L’acte artistique est un canal de transmission d’informations. Plus la création est précise, plus le canal doit être riche — une idée centrale en cybernétique.
- Un futur ouvert ou verrouillé : Si les outils restent fermés, les créateurs dépendront des grandes entreprises. Le logiciel libre et les modèles open-weight est essentiel pour garantir un accès démocratique à l’IA créative.
Depuis la fin de 2022, l’intelligence artificielle a connu une accélération spectaculaire dans le domaine de la création visuelle. Midjourney, Stable Diffusion, puis plus récemment Sora, ont fait émerger une nouvelle génération d’outils capables de produire des images bluffantes à partir de simples descriptions. En parallèle, des modèles comme ChatGPT ont montré qu’ils pouvaient générer des textes cohérents et répondre à une multitude de questions avec une aisance déconcertante.
Face à ces avancées, une question revient sans cesse : est-ce la fin des métiers créatifs ? Les artistes, illustrateurs, animateurs 3D ou graphistes vont-ils être remplacés par des algorithmes ?
C’est une inquiétude légitime — surtout lorsqu’on observe ces outils de loin, sans forcément comprendre ce qui se passe sous le capot. Et pourtant, malgré les apparences, je pense que non : les créateurs ne sont pas près de disparaître. Leur rôle va évoluer, profondément, mais leur disparition n’est ni inévitable ni même probable.
Dans cet article, je ne vais pas entrer dans les débats juridiques ou éthiques sur l’usage des œuvres existantes pour entraîner ces modèles — c’est un sujet essentiel, mais que je préfère traiter à part. Ce que je veux explorer ici, ce sont des raisons plus structurelles, plus techniques, et peut-être moins souvent évoquées : pourquoi, même à l’ère de l’IA générative, le geste créatif reste irremplaçable.
Ce sont des arguments qu’on entend encore peu, que ce soit sur YouTube ou dans les débats publics. Et pourtant, ils sont fondamentaux pour comprendre ce que signifie vraiment « créer » — et pourquoi cela ne peut pas se résumer à entrer un prompt dans une boîte magique.
Comprendre les modèles génératifs
Le fonctionnement des modèles de diffusion
Imaginez un verre d’eau. Vous y ajoutez une goutte d’encre noire. Petit à petit, l’encre se dilue, se disperse jusqu’à disparaître dans l’eau. Maintenant, imaginez qu’on essaie de faire l’inverse : reconstituer la goutte à partir de toutes les molécules dispersées.
C’est exactement le principe des modèles de diffusion, la technologie aujourd’hui au cœur de la génération d’images par intelligence artificielle.
Ces modèles fonctionnent en deux étapes :
- Dégradation (processus de diffusion avant) : on prend une image réelle et on y ajoute du bruit progressivement jusqu’à obtenir une sorte de « brouillard » visuel, un bruit aléatoire.
- Restauration (processus de diffusion inversé) : on apprend à un modèle à inverser ce processus, c’est-à-dire à deviner petit à petit comment « retirer » le bruit pour recréer une image plausible à partir d’un pur chaos.
Cette reconstruction n’est pas déterministe : elle dépend du point de départ (le bruit initial), et chaque petit changement peut mener à une image finale différente. On parle d’un processus stochastique, donc fondamentalement aléatoire — ce qui explique pourquoi un même prompt peut générer des images très variées.

Autrement dit, générer une image, c’est suivre un chemin depuis un état de bruit vers une zone de l’espace des images qu’on considère comme crédible — réaliste, cohérente, acceptable visuellement.
Comment évaluer un modèle génératif ?
Lorsque l’on évalue un modèle de génération d’images, deux critères reviennent systématiquement : la qualité et la diversité.
Qualité
La qualité, d’abord, fait référence au réalisme visuel des images produites. Est-ce qu’elles ressemblent à de « vraies » photos ou à des œuvres humaines ? Est-ce que l’œil est trompé ? Comme juger ça subjectivement serait trop lent (et trop coûteux), on utilise généralement un autre modèle, appelé discriminateur, entraîné pour détecter si une image est « fausse » (générée) ou « vraie » (issue du monde réel). Si ce discriminateur se laisse berner, alors l’image est considérée comme convaincante.

Diversité
La diversité, ensuite, mesure la capacité du modèle à produire un large éventail d’images différentes. Un bon modèle ne doit pas juste générer la même image avec de petites variations. Il doit pouvoir passer d’un paysage urbain brumeux à un portrait surréaliste, d’un chat assis dans un fauteuil à un dragon dans une grotte dans un style peinture. Là encore, c’est un autre réseau qui évalue cela, souvent en regardant si les images couvrent une grande variété de classes visuelles.
Ces deux dimensions — qualité et diversité — ne vont pas forcément de pair. Pendant des années, les meilleurs modèles étaient les GANs (Generative Adversarial Networks), qui fonctionnaient déjà sur ce principe de duo : un générateur qui crée des images, et un discriminateur qui tente de les démasquer. Les deux réseaux s’affrontent dans une sorte de jeu du chat et de la souris, jusqu’à ce que le générateur parvienne à créer des images indétectables.
Les GANs ont produit des images de haute qualité bien avant 2022, et certains de leurs résultats sont encore bluffants. Mais ils avaient un gros défaut : ils avaient du mal à explorer toute la richesse de l’espace visuel. En clair, ils avaient tendance à se spécialiser dans des types d’images bien précis, souvent liés à leur jeu d’entraînement. C’est pour cela, par exemple, que le site thispersondoesnotexist.com ne génère que des visages. Et uniquement des visages. Le modèle derrière est excellent… mais dans un domaine très restreint.

Avec l’arrivée des modèles de diffusion, tout a changé. Ces modèles, grâce à leur méthode de génération plus souple et leur capacité à explorer de nombreux chemins possibles à partir d’un bruit aléatoire, sont beaucoup plus doués pour la diversité. Ils peuvent générer à peu près n’importe quoi : un personnage de jeu vidéo, une fresque médiévale, une publicité fictive pour une boisson imaginaire… et tout cela, souvent, avec un niveau de qualité visuelle très élevé.
C’est cette combinaison — haute qualité et grande diversité — qui a propulsé les modèles de diffusion sur le devant de la scène. Et qui a permis à des plateformes comme Midjourney ou Stable Diffusion de devenir les outils incontournables de l’IA générative actuelle.

La figure ci-dessus illustre le principe fondamental de la génération d’images par diffusion. On commence à partir d’un état initial totalement aléatoire — un bruit pur, comme une image de neige télévisuelle. Le modèle va ensuite progressivement transformer ce bruit en une image crédible, en suivant une trajectoire dans l’espace latent. Les images « crédibles », c’est-à-dire reconnaissables par l’œil humain comme appartenant au monde réel (visage, chien, montgolfière…), sont représentées dans la zone bleue. À chaque étape du processus, le modèle affine son échantillon pour s’éloigner du chaos initial et se rapprocher de cet espace visuel crédible. Ce qui rend les modèles de diffusion si puissants, c’est leur capacité à explorer de nombreuses trajectoires différentes, à partir de multiples points de départ, et à générer une grande variété d’images plausibles — sans se contenter de rester coincés dans une catégorie unique comme le faisaient les GANs plus anciens.
De la génération simple à la génération conditionnelle
Créer une image réaliste, c’est bien. Créer l’image qu’on veut, c’est mieux. C’est là qu’entre en jeu la génération conditionnelle.
L’idée est simple : au lieu de laisser le modèle partir au hasard, on lui donne une condition, une consigne. Au début, ces conditions étaient très simples : générer une « voiture », un « chien ». Puis on a essayé quelque chose de plus subtil : décrire l’image en texte.
C’est le fameux prompt : une description en langage naturel, transformée en vecteurs numériques que le modèle peut utiliser pour orienter la génération. Mais cette méthode a ses limites. D’abord, les descriptions utilisées pour entraîner ces modèles viennent de légendes d’images récupérées sur internet. Elles sont souvent pauvres, ambiguës, voire absurdes. Ensuite, le texte ne contient tout simplement pas assez d’information pour décrire précisément ce qu’on veut (on y reviendra dans la seconde partie de l’article).

Pour visualiser le problème : dans la génération simple, on part d’un bruit et on vise toutes les images réalistes. Dans la génération conditionnelle, on vise une toute petite zone de cet espace : les images réalistes qui correspondent au prompt. On contraint donc les trajectoires de génération. Et c’est là que réside le vrai défi pour l’IA : contrôler le processus de génération. Pas juste produire de belles images, mais produire les images qu’on imagine. Des images cohérentes avec une intention. C’est précisément ce qu’on développera dans la suite de cet article.
Le piège de la satisfaction esthétique
Une illusion de complexité
Quand MidJourney, DALL·E ou Stable Diffusion sont arrivés, beaucoup ont été sidérés par la qualité esthétique des images générées. Les premiers essais début 2022 étaient encore balbutiants, mais en quelques mois, les résultats sont devenus bluffants.
Et il faut le reconnaître : ces modèles parviennent aujourd’hui à générer des images visuellement très satisfaisantes. Des images qui activent directement notre système perceptif, comme une musique bien composée ou un plan de cinéma bien éclairé.
Mais est-ce que cela veut dire qu’il y a une véritable compréhension artistique derrière ? Non.
Ce qui ressemble à de la « vision » ou à de la « profondeur » n’est souvent qu’un miroir trompeur. Les modèles sont simplement entraînés à générer des images qui ressemblent à des images crédibles, en apprenant les motifs visuels les plus fréquents. Et cela suffit — hélas ou heureusement — à produire un choc esthétique.
Ce phénomène est comparable à ce que j’expliquais dans le premier épisode Des Chroniques des Mondes Synthétiques : un chatbot peut produire une réponse cohérente et fluide, sans aucune véritable compréhension. Il en va de même pour l’image : ce n’est pas parce que c’est beau que c’est signifiant.
Le vrai défi : le contrôle
Mais générer une image agréable à l’œil ne suffit pas. Ce qui fait un artiste, ce n’est pas juste le goût — c’est la capacité à diriger une intention. Et c’est là que les IA génératives montrent leurs limites : dans leur incapacité à être dirigées finement. Prenons un exemple très concret : si je veux créer une bande dessinée ou une animation, je dois pouvoir maintenir une cohérence narrative et visuelle :
- Un personnage doit rester identique d’une case à l’autre.
- Les lieux, les tenues, la lumière doivent garder une continuité.
- Et surtout, je dois pouvoir spécifier précisément ce que je veux.
Or, c’est précisément ce que les modèles de génération ont encore beaucoup de mal à faire. Le contrôle précis est aujourd’hui bien plus difficile que la création d’images esthétiquement satisfaisantes. Depuis l’apparition des modèles text2image, toute une panoplie de méthodes a été développée pour affiner la génération, dont voici des exemples :
- Image-to-image : on part d’une image existante pour en générer une nouvelle variante.
- Inpainting / Outpainting : on peut régénérer seulement une zone spécifique de l’image (pratique pour réparer des mains bizarres).
- Paint with Words : on « peint » une zone de l’image, puis on lui attribue un texte qui sert de prompt localisé.
Mais une grande avancée dans ce domaine a été ControlNet : un réseau neuronal supplémentaire qui permet de guider la génération avec des conditions visuelles — comme une pose, une carte de profondeur, des bords, etc. Grâce à ControlNet, on peut conditionner une génération avec une silhouette de personnage… ou même un simple contour au trait.

Mais là encore, malgré tous ces outils, le contrôle reste limité. On ne peut pas encore guider une image avec la précision et la subtilité d’un artiste. Et plus les contraintes deviennent complexes (cohérence, narration, direction artistique), plus l’écart avec les IA se creuse. Même dans le texte, on observe les mêmes difficultés : les LLMs comme ChatGPT sont bons pour générer du texte crédible, mais ils peuvent aussi halluciner, confabuler ou dériver — et les tentatives de les aligner (avec des méthodes comme RLHF) ressemblent parfois plus à du colmatage qu’à un contrôle réel.
Les limites du langage : une barrière infranchissable ?
« Si vous pouviez le dire avec des mots, il n’y aurait aucune raison de le peindre. » — Edward Hopper
On pourrait croire que le principal danger pour les artistes serait que l’intelligence artificielle produise des images trop belles, trop réalistes, trop bluffantes. En réalité, ce n’est pas la beauté des images qui menace les créateurs, mais le contrôle sur le processus de génération.
Aujourd’hui, la plupart des images générées par IA sont utilisées pour créer des illustrations génériques, des vignettes de vidéos ou des images d’ambiance — des cas où le niveau de contrôle requis est faible. Mais dans un projet artistique exigeant comme une BD, un manga ou un film d’animation, les contraintes sont nombreuses : il faut maintenir la cohérence des personnages, des décors, des postures, des expressions, image après image. Et c’est précisément là que réside la valeur ajoutée d’un artiste : dans sa capacité à projeter une idée précise dans un média, à imprimer son imagination dans la matière. Or, pour guider une génération IA avec précision, il faut pouvoir transmettre beaucoup d’information à la machine. Et le problème, c’est que les capacités de transmission d’information du langage sont très limitées.

On entend souvent : « oui, mais vu la vitesse à laquelle ça évolue, on pourra bientôt tout faire avec un prompt ». C’est une idée séduisante, mais profondément erronée. Et pour comprendre pourquoi, il faut faire un détour par la cybernétique — ce champ de recherche fondamental des années 40 à 60, à l’origine de l’intelligence artificielle, de l’informatique, et même de certaines approches en psychologie.
La cybernétique voit la création comme un acte de communication. Et comme dans toute communication, plus le message est précis, plus il faut de bande passante pour le transmettre. Dans l’art, chaque coup de pinceau, chaque clic de souris, chaque geste de sculpteur transmet de l’information. Dans l’art numérique, ce n’est même pas une métaphore : les mouvements, les clics, la pression, la durée, tout est codé en signaux envoyés à la machine.
Plus l’artiste a de liberté de choix, plus le canal entre lui et l’outil doit être large. Et inversement, si ce canal est étroit, il est impossible de transmettre toutes les nuances nécessaires à la création d’une œuvre complexe. C’est exactement ce qui se passe avec le prompt textuel. Un prompt est un petit bloc de texte — une ou deux phrases, parfois un paragraphe. Et même bien écrit, il transporte très peu d’information. Bien trop peu pour guider la génération d’une image avec précision.
On dit souvent qu’une image vaut mille mots. Et c’est littéralement vrai dans ce contexte. Pour demander une image spécifique à la machine — disons, un chat roux faisant du vélo sur la Lune — il faut spécifier beaucoup de choses : couleur, race, posture, style visuel, luminosité, composition, perspective… Tout ça, en une ou deux phrases ? Impossible. Et si on veut aller plus loin — cohérence entre images, progression narrative, subtilité stylistique — c’est encore plus irréaliste.
Le langage humain, en tant que système symbolique et discret, a été optimisé pour résister au bruit : il compresse beaucoup d’idées dans un petit nombre de mots. Il est parfait pour discuter, raconter, convaincre. Mais pas pour peindre. Ce n’est pas moi qui le dis : dans un article fondamental intitulé AI and the Limits of Language, Yann LeCun et le philosophe Jacob Browning expliquent qu’un système entraîné uniquement sur du texte ne pourra jamais atteindre une compréhension du monde comparable à celle d’un humain. Parce que le texte ne transmet pas assez d’information.
Ce n’est donc pas une question de puissance de calcul, ni de taille de modèle. C’est une limite structurelle du canal utilisé. Est-ce à dire qu’on ne pourra jamais faire d’art avec l’IA ? Évidemment non. Mais ce que l’on appelle aujourd’hui « prompting textuel » ne suffit pas. Tant qu’on se contente d’écrire quelques lignes de texte et de voir ce que la machine nous propose, on ne crée pas vraiment. On accepte. Et c’est toute la différence. Cela dit, les choses évoluent. Des outils comme ControlNet, Paint with Words, l’inpainting, ou les interfaces de dessin assisté comme Canvas d’Nvidia permettent d’augmenter ce fameux canal de communication. On peut guider l’IA avec des images, des contours, des poses, des cartes de profondeur, voire bientôt avec des signaux audio ou des gestes.
Ces méthodes ne sont pas là pour remplacer l’artiste, mais pour lui offrir de nouveaux moyens d’expression. Elles exigent une maîtrise, une culture visuelle, une capacité à faire des choix créatifs cohérents et pertinents. Bref, du talent. Les artistes de demain ne seront pas ceux qui auront les meilleurs prompts. Ce seront ceux qui sauront dompter la machine, composer avec ses forces et ses limites, et utiliser ces nouveaux outils pour donner forme à leurs idées — avec encore plus de liberté, encore plus de puissance.
Et ça, aucune IA ne pourra le faire à leur place.
Pour une IA créative libre et partagée
Une IA libre contre la centralisation du pouvoir
Pour tirer pleinement parti des outils de génération d’images par IA, il faut que tout le monde puisse participer à leur élaboration. Et cela nous amène au vrai problème : celui de la gouvernance des outils numériques. Depuis longtemps, les logiciels que nous utilisons — traitement de texte, outils de dessin, réseaux sociaux — sont majoritairement développés par des grandes entreprises. Ce sont elles qui décident ce que leurs outils peuvent faire, quelles fonctionnalités seront ajoutées ou supprimées, et surtout comment nos données sont utilisées.
Lorsqu’un logiciel utilise un format fermé, l’utilisateur perd le contrôle : même s’il possède ses fichiers localement, leur accès dépend du bon vouloir de l’éditeur. Et même si un logiciel est soi-disant ouvert, si la compétence reste concentrée dans une seule entité, c’est encore elle qui décide de l’orientation du projet. À l’ère de l’IA, ce verrouillage s’étend jusqu’à ce que nous avons le droit de créer. Car ces entreprises peuvent désormais censurer les sorties des modèles pour qu’elles soient conformes à leurs valeurs politiques ou commerciales.

Face à cela, le logiciel libre et les modèles open-weight offre une alternative. Un développement distribué, collaboratif, démocratique — souvent plus sécurisé et plus performant. Mais dans le monde artistique, ce modèle a été largement ignoré. Par habitude ou manque d’intérêt, la création numérique s’est construite autour de logiciels propriétaires, chers, fermés, qui rendent l’utilisateur dépendant. Une dépendance encore renforcée avec l’arrivée de l’IA générative : ces outils accélèrent la création, mais enferment les artistes dans des plateformes qu’ils ne contrôlent pas. Et ceux qui refusent ces outils risquent de ne plus être compétitifs du tout.
Pourquoi les artistes ne vont pas disparaître (si on fait les choses bien)
Le vrai danger n’est pas l’IA générative en elle-même, mais la concentration de son contrôle entre les mains de quelques acteurs. Et pour asseoir leur domination, ces acteurs ont intérêt à imposer des régulations qui freinent l’émergence d’alternatives libres. Des régulations qui, sous prétexte de protéger les artistes, rendent impossible le développement communautaire d’outils open source. Car oui, entraîner un modèle coûte déjà très cher. Mais si on ajoute des barrières légales sur les données ou les usages, les seules entités capables de suivre seront celles qui ont déjà tout le pouvoir.
Voilà pourquoi les positions qui dénoncent l’IA générative comme « volant le travail des artistes » peuvent se retourner contre les artistes eux-mêmes — du moins ceux qui voudraient s’émanciper de ces grandes plateformes. Les vraies solutions résident dans l’ouverture. Pour construire les outils de demain, il faut réunir développeurs, artistes, chercheurs, penseurs. Il faut créer ensemble des IA transparentes, testables, modifiables. Une IA libre.
Et non, les artistes ne vont pas disparaître. Parce que la compétence centrale, ce n’est pas la génération d’images : c’est le contrôle. C’est la capacité à guider, à façonner, à transformer une idée en œuvre. Le langage ne suffira jamais à cela. C’est pour cela que l’appropriation collective des outils n’est pas un luxe. C’est une nécessité.
Retrouvez cette article en vidéo:
Laisser un commentaire