De l’art de déstabiliser : créer avec une IA

Par Valentine Cuenot

Par Valentine Cuenot, Master en histoire de l’art et en humanités numériques, UNIL

La série Chimères (2023) du photographe romand Matthieu Gafsou offre des images fascinantes et intrigantes. Ses œuvres, aux ambiances oniriques, semblent suspendre les figures, objets et paysages, dans un futur inquiétant (fig.1). À y regarder de plus près, ces images s’éloignent du rendu photographique, les formes s’immergent dans le paysage, les contours s’imbriquent les uns aux autres.

Les œuvres de la série n’ont pas été réalisées avec un appareil photographique, mais à l’aide d’un autre procédé qui se démocratise : l’intelligence artificielle (IA). Depuis 2022, plusieurs logiciels de génération d’images envahissent internet, parmi lesquels Dall-e 2, Stable Diffusion et Midjourney. Leur qualité esthétique parfois indiscernable entre réalisation humaine et numérique invite à questionner le statut de ces productions dans le champ des arts visuels. Chimères aborde cette question. Premièrement, il est important de comprendre comment fonctionnent ces logiciels de génération d’images utilisant une intelligence artificielle. Deuxièmement, il s’agit de réfléchir aux problématiques soulevées par les caractéristiques des images produites par des IA, à partir de l’œuvre réalisée par Matthieu Gafsou pour l’exposition Techno-mondes.

Fig. 1. Matthieu Gafsou, Chimère 09, série Chimères, 2023

Logiques des logiciels de génération d’images

En qualifiant sa série Chimères de « série photographique », Matthieu Gafsou l’inscrit dans sa pratique de photographe et se positionne ouvertement en tant qu’auteur de ses images. Or, l’intelligence artificielle est impliquée dans la création des images, ce qui leur confère un statut particulier. Ce système défini comme un « processus d’imitation de l’intelligence humaine » (RAGOT, MARTIN, COJEAN, 2020, p. 2), a un potentiel d’autonomie créative qui rend ambivalente la qualification de simple outil. Il convient dès lors d’analyser son fonctionnement.

La forme la plus répandue d’art génératif par une intelligence artificielle consiste à passer du texte à l’image. Une ligne de texte, qui est appelé prompt, est entrée par l’utilisateur ou l’utilisatrice dans le système, lequel l’interprète pour créer des images. Ce processus nécessite plusieurs étapes réalisées par des systèmes d’apprentissage automatique (machine learning) spécifiques qui interagissent ensemble. Le machine learning se distingue de la programmation « classique » par sa capacité d’apprentissage à partir de données qu’il analyse et non à partir d’instructions explicites. Ainsi, le premier programme encode les mots de l’utilisateur ou de l’utilisatrice, c’est-à-dire qu’il les transforme en chiffres interprétables par l’ordinateur. Les mots sont encodés sous la forme de vecteurs positionnés selon leur proximité sémantique (SAHARIA et al., 2022, p. 5) (fig. 2).

Fig. 2. Visualisation du plongement lexical (word embedding) en 2D
(reproduit in : ROZADO 2020, p. 18)

Le texte ainsi encodé sert de guide à la génération d’images. Pour cette deuxième étape, les nouveaux générateurs d’images utilisent le modèle dit de « diffusion ». Ce modèle est entraîné à partir d’un large corpus d’images existantes. Des pixels aléatoires appelés « bruit blanc » ou « bruit gaussien » sont ajoutés aux images. Cette action est répétée un nombre X de fois. Lorsque X=1, il y a très peu de bruit parasite, mais plus X est grand, moins l’image initiale est reconnaissable (HO, JAIN, ABBEEL, 2020, p. 2). Le modèle doit apprendre à supprimer ce bruit pour recréer l’image d’origine. Concrètement, la machine calcule quelle pourrait être la quantité d’informations aléatoires qui brouille une image inconnue, puis une fois identifiée, la retire étape par étape, jusqu’à ce que X=0 (fig. 3). Ce modèle permet uniquement de créer des images aléatoires. Il est alors couplé à un troisième algorithme qui intègre le prompt de l’utilisateur ou l’utilisatrice. Prenons une image de chat et le mot « chat ». Pour associer le texte à l’image, cet algorithme transforme l’image du chat en un vecteur de même dimension que le texte « chat » qui la légende, afin qu’ils soient interprétables ensemble (SAHARIA et al., 2022, p. 3). Cet algorithme est introduit dans le processus principal de génération d’images afin de guider la suppression du bruit en fonction du texte proposé. L’image ainsi générée est de très basse résolution, car il est plus simple de travailler à partir d’un nombre réduit de pixels (DHARIWAL, NICHOL, 2021, p. 7). Le recours à un ultime programme permet d’obtenir la haute définition finale de l’image : l’ouput.

Fig. 3 Exemples d’entraînement (256 x 256 pixels) dont le niveau de bruit gaussien augmente de gauche (x = 200) à droite (x = 1000)
Reproduit in : HO, JAIN, ABEEL, 2020, p. 7)

La décomposition de ce processus met en évidence que la génération d’images est dépendante d’un grand nombre de procédures qui sont préalablement conceptualisées et développées hors de la portée de l’artiste. On peut en effet identifier trois structures principales qui influencent les résultats du logiciel : le corpus initial d’images, le corpus de textes dont émergent les associations de mots, et l’architecture des algorithmes codés par les développeurs et développeuses. Cette pluralité de sources agissantes sur l’image finale questionne la part de contrôle de Matthieu Gafsou et in fine son statut d’auteur (AUDRY, IPPOLITO, 2019, p. 2). La prise en charge de l’exécution par l’algorithme a d’ailleurs provoqué chez Gafsou une réticence initiale à exposer ses images. Malgré les centaines d’essais et d’heures de travail investies par le photographe, la difficulté pour lui a été d’apprécier ces images générées de manière si immédiate, si facile, et de les considérer comme des œuvres abouties (CUENOT, ONESTI, HAVRILOVA, 2023).

Il est ici important de préciser que l’intelligence artificielle n’est pas le premier système tiers auquel on a pu recourir pour réaliser des créations artistiques (MAGRINI, 2017, p. 23). Le lien privilégié entre un artiste et son œuvre a déjà été remis en question par le passé. Durant le XXe siècle, de multiples approches artistiques ont participé à reconsidérer la notion de contrôle sur les œuvres, dont, notamment, l’art conceptuel dès les années 1960. Cette pratique se focalise non sur l’objet, mais sur le processus, sur le système qui permet de la créer (BURNHAM, 1968, p. 32). L’œuvre est ainsi moins définie par l’objet, que par la procédure qui la réalise. Celle-ci se compose de règles définies qui laissent une importante latitude à l’aléatoire et qui, de plus, peut être réalisée par un tiers (MAGRINI, 2017, p.33). On pourrait, dès lors, inscrire la génération par IA dans la continuité de ces mouvements artistiques, dont l’art conceptuel est un exemple, où un système extérieur est impliqué pour générer des motifs aléatoires. L’IA correspondrait à une évolution de la pratique artistique vers des degrés d’autonomie plus élevés des systèmes (MANOVICH, 2019 p. 5).

La nouveauté des intelligences artificielles tient, cependant, au fait qu’il s’agit de plateformes à usage tout public qui s’autoproclament comme des techniques permettant de créer des œuvres d’art. Tel est le cas de la description sur la page d’accueil de Dall-e 2 : « Dall-e 2 est un système IA qui peut créer des images réalistes et de l’art depuis une description en langage naturel » (OPENIA.com, 2023). Cette technologie n’est pas codée par les artistes mais mise à disposition, de sorte que le travail créatif se développe dès lors sous la forme d’un apprentissage empirique de son fonctionnement. Chez Matthieu Gafsou, la fabrication, ou la prise de contrôle, de l’image se concentre dans la construction d’une phrase, à la genèse de chaque image, et dans la sélection de l’image finale. Le processus créatif prend la forme d’un va-et-vient entre prompt et output visuel en affinant continuellement sa demande au logiciel. Sa phrase doit, en effet, comporter le minimum de mots possibles pour ne pas submerger l’IA qui traite encore mal les demandes trop longues. Un enjeu du travail de Gafsou était dès lors de trouver l’équilibre entre l’envie de contrôler le résultat, pour qu’il corresponde à sa vision artistique, et laisser au logiciel un espace aléatoire (fig. 4).

Fig. 4. Matthieu Gafsou, Chimères n°07, série Chimères, 2023

Caractéristiques des images produites par des IA

L’aléatoire, dans la génération d’images par intelligence artificielle, n’est toutefois pas à considérer comme l’équivalent d’une forme d’originalité ou d’inattendu. Un modèle génératif est avant tout un système probabiliste. Étant donné que l’algorithme apprend à reconstituer le visuel le plus probable par rapport aux modèles existants, il opère ainsi une moyenne des représentations. Cette logique, qui n’est pas celle qui vise à créer de l’originalité, met en exergue, au contraire, le caractère intrinsèquement reproductif de l’art génératif. L’art par IA est en effet complètement dépendant de l’échantillon d’images disponibles aux développeurs et développeuses. Lev Manovich, professeur en informatique et art numérique, tend à considérer ces productions d’abord comme une « simulation historique » (MANOVICH, 2019, p. 5). En travaillant avec Dall-e 2, Matthieu Gafsou s’est trouvé confronté aux imaginaires actuels de la science-fiction cinématographique. Ses prompts ont régulièrement généré des références aux saga Star Wars (1977-2022) et Gardiens de la Galaxie (2014-2017) qu’il a systématiquement écartées pour éviter les représentations trop stéréotypées. Gafsou a ainsi développé un vocabulaire peu précis et polysémique pour pousser la machine à produire des glitchs, des erreurs de génération, et ainsi faire émerger une autre esthétique (CUENOT, ONESTI, HAVRILOVA, 2023).

Par ailleurs, selon Manovich, le corpus initial de la plupart des IA actuelles est basé sur une vision restreinte de l’art, principalement issu du « langage visuel occidental » (MANOVICH, 2022, p.62). En effet, non seulement l’IA n’a accès qu’à un échantillon limité des cultures visuelles, mais son fonctionnement mathématique, privilégiant les traits prévalents d’un corpus, fait émerger une esthétique unifiée et normalisée. Kate Crawford, spécialiste des intelligences artificielles, insiste sur le fait que toute classification est « un acte de pouvoir », puisqu’il est décidé ce qui est mis en avant et ce qui est exclu (CRAWFORD, 2021, p.127). Cette esthétique lissée est même devenue, dans certains contextes, un critère pour définir le style de l’IA. En 2022, ce style a notamment été utilisé comme motif d’exclusion d’un canal consacré à l’art du réseau social Reddit (CHEN, 2023). Ce canal ayant pour règle interne de ne pas partager de l’art IA, les modérateurs et modératrices ont retiré un post illustré, « A Muse in the Warzone », dont l’esthétique était jugée trop similaire à l’IA (fig. 5). Malgré les réclamations de l’utilisateur qui a fourni des fichiers Photoshop pour prouver son statut d’auteur, les modérateurs et modératrices du canal ne sont pas entrés en matière, jugeant la paternité de l’œuvre trop difficile à déterminer. Leur réponse sans appel, « You need to find a different style », (CHEN, 2023), est révélatrice d’une esthétique dominante qui est assimilée aux productions IA.

Dans son travail, Matthieu Gafsou a développé des stratégies pour contourner cette sorte d’hégémonie stylistique véhiculée par l’IA. À l’aide d’indications formelles, telles que « clair-obscur », il a ciblé des images au sein du corpus de l’IA qui correspondaient davantage à sa vision pour sa série Chimères (CUENOT, ONESTI, HAVRILOVA, 2023) (fig. 6). Gafsou a ainsi insufflé sa sensibilité dans ses images et affiné ses instructions pour amener l’algorithme à créer des combinaisons originales dans la direction qu’il souhaitait. Ainsi, son travail artistique a consisté, dans ce projet, à apporter une narration autre que celle produite par défaut.

Par ailleurs, selon Manovich, le corpus initial de la plupart des IA actuelles est basé sur une vision restreinte de l’art, principalement issu du « langage visuel occidental » (MANOVICH, 2022, p.62). En effet, non seulement l’IA n’a accès qu’à un échantillon limité des cultures visuelles, mais son fonctionnement mathématique, privilégiant les traits prévalents d’un corpus, fait émerger une esthétique unifiée et normalisée. Kate Crawford, spécialiste des intelligences artificielles, insiste sur le fait que toute classification est « un acte de pouvoir », puisqu’il est décidé ce qui est mis en avant et ce qui est exclu (CRAWFORD, 2021, p.127). Cette esthétique lissée est même devenue, dans certains contextes, un critère pour définir le style de l’IA. En 2022, ce style a notamment été utilisé comme motif d’exclusion d’un canal consacré à l’art du réseau social Reddit (CHEN, 2023). Ce canal ayant pour règle interne de ne pas partager de l’art IA, les modérateurs et modératrices ont retiré un post illustré, « A Muse in the Warzone », dont l’esthétique était jugée trop similaire à l’IA (fig. 5). Malgré les réclamations de l’utilisateur qui a fourni des fichiers Photoshop pour prouver son statut d’auteur, les modérateurs et modératrices du canal ne sont pas entrés en matière, jugeant la paternité de l’œuvre trop difficile à déterminer. Leur réponse sans appel, « You need to find a different style », (CHEN, 2023), est révélatrice d’une esthétique dominante qui est assimilée aux productions IA.

Dans son travail, Matthieu Gafsou a développé des stratégies pour contourner cette sorte d’hégémonie stylistique véhiculée par l’IA. À l’aide d’indications formelles, telles que « clair-obscur », il a ciblé des images au sein du corpus de l’IA qui correspondaient davantage à sa vision pour sa série Chimères (CUENOT, ONESTI, HAVRILOVA, 2023) (fig. 6). Gafsou a ainsi insufflé sa sensibilité dans ses images et affiné ses instructions pour amener l’algorithme à créer des combinaisons originales dans la direction qu’il souhaitait. Ainsi, son travail artistique a consisté, dans ce projet, à apporter une narration autre que celle produite par défaut.

Fig. 5. Ben Moran, A Muse in the Warzone, 2022
Source: Reddit, https://news.artnet.com/art-world/artist-ben-moran-banned-from-subreddit-ai-art-2240795

Conclusion

L’intelligence artificielle a la particularité de se trouver au carrefour de plusieurs problématiques contemporaines essentielles. L’examen de son fonctionnement actuel révèle deux aspects fondamentaux de ces programmes : la simplification et la reproduction. En effet, étant complètement dépendants de la base de données initiale, les logiciels de génération d’images tendent à reproduire la culture dominante ou à renforcer certains stéréotypes. Cela incite à la prudence quant à l’utilisation de ces images et à considérer avec attention les choix des développeurs et développeuses qui déterminent les corpus d’images et de mots conditionnant l’IA. L’usage tout public de ces logiciels favorise la standardisation d’une esthétique.

Le rendu visuel de Chimères, à la fois photoréaliste et imparfait par ses glitchs, produit un effet déstabilisant sur les spectateurs et spectatrices, qui traduit l’indécision actuelle quant au statut de ce type d’images par IA. Pour les artistes tels que Matthieu Gafsou, l’enjeu est dès lors de contourner le fonctionnement actuel reproductif de l’IA pour insuffler une vision et une sensibilité singulière dans ces images générées par les algorithmes.

Fig. 6. Matthieu Gafsou, Chimères n°03, série Chimères, 2023

Bibliographie

AUDRY Sofian, IPPOLITO Jon, « Can Artificial Intelligence Make Art without Artists ? Ask the Viewer », Arts, n°8, 2019, pp. 1-8, doi.org/10.3390/arts8010035

BURNHAM Jack, « Systems Esthetics », Artforum, vol. 7, n°1, septembre 1968, pp. 30-35.

CUENOT Valentine, ONESTI Rebecca, HAVRILOVA Marcela, Entretien avec Matthieu Gafsou, 26 janvier 2023.

CRAWFORD, Kate, « Classification », Atlas of AI, Yale University Press, 2021, pp. 123-149.

CHEN, Min, « In an Ironic Twist, an Illustrator Was Banned From a Reddit Forum for Posting Art That Looked Too Much Like an A.I.-Generated Image », ARTNET, 10 janvier 2023, https://news.artnet.com/art-world/artist-ben-moran-banned-from-subreddit-ai-art-2240795

DHARIWAL Prafulla, NICHOL Alexander, « Diffusion Models Beat GANs on Image Synthesis », Advances in Neural Information Processing Systems, vol. 34, 2021, pp. 1‑15, https://papers.nips.cc/paper/2021/hash/49ad23d1ec9fa4bd8d77d02681df5cfa-Abstract.html

HO Jonathan, JAIN Ajay, ABBEEL Pieter, « Denoising Diffusion Probabilistic Models », Advances in Neural Information Processing Systems, n°33, 2020, https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html

KINSELLA Eileen, « The First AI-Generated Portrait Ever Sold at Auction Shatters Expectations, Fetching $432,500 – 43 Times Its Estimate », Artnet News, 25 octobre 2018, https://news.artnet.com/market/first-ever-artificial-intelligence-portrait-painting-sells-at-christies-1379902

MAGRINI, Boris. Confronting the Machine : an Enquiry into the Subversive Drives of Computer-Generated Art. Berlin: De Gruyter, 2017.

MANOVICH Lev, « AI and Myths of Creativity », Architectural Design, vol. 92, no 3, 2022, pp. 60‑65, doi.org/10.1002/ad.2814

MANOVICH Lev, « Defining AI arts : Three proposals », AI and dialog of cultures, cat. d’expo., 2019, pp. 1‑9, https://www.academia.edu/40382918/Defining_AI_Arts_Three_Proposals

MAZZONE Marian, ELGAMMAL Ahmed, « Art, Creativity, and the Potential of Artificial Intelligence », Arts, vol.8, 2019, pp. 1-9, https://www.mdpi.com/2076-0752/8/1/26

OPENIA, https://openai.com/product/dall-e-2, consulté en avril 2023.

RAGOT Martin, MARTIN Nicolas, COJEAN Salomé, « AI-Generated vs. Human Artworks. A Perception Bias Towards Artificial Intelligence ? », Extended Abstracts of the 2020 CHI Conference on Human Factors in Computing Systems, Honolulu HI USA : ACM, 2020, pp. 1‑10, doi.org/10.1145/3334480.3382892

ROZADO, David. « Wide range screening of algorithmic bias in word embedding models using large sentiment lexicons reveals underreported bias types », PLOS ONE, Vol.15, 21 avril 2020, pp.18.

SAHARIA Chitwan, CHAN William, SAXENA Saurabh, et al., « Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding », arXiv, 23 mai 2022, doi.org/10.48550/arXiv.2205.11487

TAYLOR, Grant D., When the Machine Made Art : the Troubled History of Computer Art. New York : Bloomsbury, 2014.