Intelligences artificielles génératives et synthèse d’images

Tribune libre
Publié le 5 juillet 2024

Au cours des mois passés, j’ai fait de nombreuses expériences avec les IAG de textes : Bard/Gemini « expérimental », ChatGPT 3.5 et Le Chat -version bêta-.

Elles avaient toutes montré d’une part que ces IAG étaient capables d’une imagination débridée et d’autre part qu’il n’était en général pas possible de leur faire confiance lors de la recherche d’informations fiables (je rappelle à ce propos les hallucinations et élucubrations mathématiques de ChatGPT 3.5 et autres…).

Avec l’arrivée des IAG d’images, il était tentant de refaire de telles expériences : on peut en voir les résultats dans un « Musée virtuel du vingt-et-unième siècle ». Les conclusions qui en furent tirées sont de même nature : là-aussi, d’une part une imagination « inimaginable », d’autre part la difficulté, voire l’impossibilité d’obtenir exactement les représentations demandées les plus simples et enfin celle de générer deux fois de suite la même image.

Trois critiques m’ont été adressées suite à la mise en place de ce Musée. D’une part, il ne peut s’agir d’Art car celui-ci ne peut naître que du vécu (et de la souffrance ?). D’autre part, il ne peut être question de créativité s’agissant de machines. Enfin, on ne peut pas confondre ces images avec des œuvres « originales ».

Evacuons immédiatement le problème des artefacts : en effet, un problème semble-t-il connu des concepteurs, perturbe les mains, les membres ou encore le visage des éventuels personnages lorsque leur taille est petite par rapport au cadre de l’image. Cela permet de faire le tri entre les œuvres « classiques » et celles venues des IAG, bien que certains artistes tels Jean-Michel Basquiat, Paul Rebeyrolle ou encore Egon Schiele n’ont pas hésité à en faire de même volontairement.

Maintenant, pour répondre à ces objections, examinons quelques images extraites de cette collection :

 

Une image à la façon de Jerôme Bosch.

 

Une image à la façon de Rembrandt.

 

Une image à la façon de Jean-Baptiste Camille Corot.

 

Une image à la façon de Salvador Dali.

 

The Library of Babel in the style of Hans Ruedi Giger -Courtesy of 'www.bing.com'- (La bibliothèque de Babel à la façon de Hans Ruedi Giger -Remerciements à 'www.bing.com'-)

La bibliothèque de Babel à la façon de Hans Ruedi Giger (en réfèrence à la nouvelle éponyme de Jorge Luis Borges).

 

Ces quelques images obtenues quasi-instantanément en « évoquant » les noms de Jerôme Bosch, Rembrandt, Jean-Baptiste Camille Corot, Salvador Dali  et Hans Ruedi Giger sont évidemment associables aisément à ces artistes. Cela signifie au passage que l’IAG, lors de son apprentissage, a été capable de formaliser le style (et les cauchemars en ce qui concerne Hans Ruedi Giger…) des artistes rencontrés, lui permettant de créer des images à la manière de par la suite. Ces dernières ne sont pas de simples copies d’œuvres originales avec quelques altérations, ou encore des copier-coller. Non, il s’agit bien d’images (prudemment je ne dis pas « œuvres ») nouvelles ressemblant dans leur style, leurs couleurs, leurs lumières,… à des images anciennes, voire très anciennes.

Si l’on regarde attentivement, par exemple, l’image faite dans le style de Rembrandt, il me semble qu’il faudrait être de très mauvaise foi pour ne pas y retrouver le style du peintre de Leyde dans l’usage de la lumière, les personnages et leurs costumes, le décor et les mets, l’ambiance,… alors qu’elle ne figure pas dans le catalogue raisonné de l’artiste ! Comment cela est-il possible ?

 

Une locomotive à la façon de Botticelli

 

Un avion à la façon de Botticelli

Ces deux images qui font référence à Botticelli montrent clairement les capacités créatives de l’IAG. La locomotive, même si elle n’est pas fonctionnelle, présente des décorations tridimensionnelles typiques de la Renaissance italienne, mais surtout son panache de fumée rappelle évidemment l’une des œuvres majeures de l’artiste : « La Naissance de Vénus »… Quant à l’avion, il montre que l’IAG a appris ce qu’était un avion : une machine destinée à transporter des personnes (d’où le carrosse) dans les airs (d’où les ailes d’oiseau) et disposant de moyens de propulsion (d’où le cheval). Il me semble que peu de créateurs auraient imaginé un tel équipage et alors, si l’IAG a produit cette image tridimensionnelle cohérente, n’a-t-elle pas fait preuve de créativité ? La réponse me parait évidente et du coup, il nous faut nous interroger sur ce qu’est notre imagination : ne serait-elle pas « simplement » issue du brassage incessant du contenu de notre mémoire alimentée en permanence par nos sens et du coup ne serions-nous pas plus prévisibles qu’on le croit ?

Cette IAG, comme la plupart des autres, repose sur les notions :

  • de neurone formel,
  • de descente de gradient (lors des phases d’apprentissage),
  • d’espace sémantique ES de grande dimension contenant des tokens (des morceaux de mots), des mots isolés ou encore des groupes de mots rangés de façon à ce que la distance géométrique corresponde à une certaine distance sémantique,
  • d’espace iconographique EI de très grande dimension contenant des images encodées et rangées de façon à ce que des images qui se ressemblent soient proches l’une de l’autre,
  • de réseaux de neurones formels mettant en évidence les « liens » entre ES et EI,
  • de processus aléatoires de choix, de bruitage/débruitage et de diffusion,
  • de réseaux antagonistes destinés à juger les résultats, voire à les invalider en cas, par exemple, de non respect des convenances,
  • etc.

Tout cela peut aider à comprendre comment une image inédite spécifiée par un prompt simple tel un chat peut être obtenue. Mais qu’en est-il d’un prompt plus subtil tel un avion à la façon de Botticelli ou l’on voit une sorte de « réécriture » de « avion » en {carrosse,oiseau,cheval}. Cela malheureusement ne me suffit pas non plus pour expliquer :

  • la possibilité d’avoir dans un même prompt plusieurs notions très différentes,
  • la cohérence dans les interactions des objets et des personnages entre-eux,
  • l’homogénéité et l’unité,
  • la lumière et les ombres portées,
  • la tridimensionnalité,
  • sans oublier la rapidité des processus (quelques dizaines de secondes pour un groupe de quatre images voisines, alors que nombreux doivent être ceux qui font les mêmes expériences à un instant donné),
  • etc.

Et enfin, qu’en est-il des concepteurs de cette IAG ? Sont-ils eux-mêmes surpris par les merveilles obtenues ? Et finalement n’y aurait-il pas émergence non pas d’une Intelligence Artificielle (IA), mais d’une Intelligence Nouvelle (IN) ?

 

Crédits images

Images générées par l’IAG accessible sur le site www.bing.com/images/create.

ÉCRIT PAR

Jean-François Colonna

Chercheur - Centre de Mathématiques Appliquées, École Polytechnique

Partager

Commentaires

  1. Nicolas Rave
    juillet 23, 2024
    16h33

    Je ne doute pas que les notions évoquées dans votre antépénultième paragraphe (en ne comptant pas les listes comme des paragraphes) soient dignes d’intérêt, et nécessitent, pour leur approche et maîtrise satisfaisante, de longues heures de concentration et de travail.

    C’est d’ailleurs à travers elles que se laisse entrevoir l’intelligence – un certain type d’intelligence- de ceux qui les conçoivent et les manient.

    Mais pour ce qui est des programmes qui permettent, à partir d’ensembles de couples (entrée-sortie) – ensembles dit « d’entraînement » – passés à travers les rouages de ces programmes, de faire correspondre à des ensembles d’entrées nouvelles, des ensembles de couples (entrée-sortie générée), n’est-ce pas un peu enflé, quelque peu fantasmagorique, fractale-ment clopinant, déficient en sérieux sans aucun humour Dali-en, de dérouler l’expression d’intelligence artificielle ?
    Et ce, en réalité, quelle que soit les sur-structures logicielles que s’usent à susurrer au Ciel les plus joli(e)s mathématicien(ne)s ?

    Machine Learning, Deep Learning, voilà des expressions qui préservent l’honneur des contributeurs au Savoir, aux Techniques, et le cas échéant et choisi, au Bien-être des humains, et autres Primates, et autres Mammifères, et Autres.
    Sur ce point, gloire aux Anglois; que Jeanne d’Arc et Sir Isaac Newton se joignent saintement les mains au bord de la Fontaine, téléportés dans le jardin d’Eden!

    Ceci n’est pas cuistre satire, mais au-delà de la remarque de langage, tend à exprimer le doute sur l’innocence de l’emploi abusif du terme « intelligence » à l’endroit des techniques informatiques ici évoquées.
    Dans une société qui depuis un certain temps semble freiner des quatre fers, sinon des deux palmes, ou encore du corps rampant, en matière de préoccupations et d’investissements pour la simple transmission, théorique et pratique (ce deuxième aspect ayant tendance à faire encore plus défaut qu’avant), des connaissances techniques et scientifiques, n’y aurait-il pas, ….par hasard, des tentatives d’opérations de prédation de fonds publics, de la part de certains acteurs du monde logiciel, en faisant virevolter aux yeux de décideurs politiques souvent en quête de popularité, postérité, ou légitimation par des grands esprits de notre Temps, les plumes aux couleurs magiques de l’expression « Intelligence artificielle » ?

    Dans la clinique de mes songes, c’est un oui qui apparaît à l’échographie de cette question.

    Ne voyez aucune offense, aucune infraction au deuxième des Commandements dont dépend toute la Loi, mais plutôt une facétie dénuée de toute chaîne

    -comme du type de celle d’un pompeux, mais autre bien sûr, professeur de mathématiques supérieures qui comprit « pauvres d’esprit » pour esprits limités, au lieu de le comprendre pour « ayant l’esprit de pauvreté », erreur générée dans un élan caractéristique de se vouloir plus spirituel que son naturel, comme la grenouille qui se voulait faire plus grosse que le bœuf, mais ne réussissant qu’à se faire réellement méchant en plus de bêtement mordant-

    dans l’ordre de génération suivant :

    « La bibliothèque de Babel à la façon d’un mathématicien n’ayant aucune intelligence spirituelle »,

    ordre ayant donné la peu avenante image ci-jointe, et ma Foi glacialement interrogeante… :

    https://www.bing.com/images/create/la-bibliothc3a8que-de-babel-c3a0-la-fac3a7on-d27un-mathc3a9mati/1-669fab4718364863be5e1fc8580f415a?id=5MeDloY0Mq3WlZJK3um1Bw%3d%3d&view=detailv2&idpp=genimg&thId=OIG4.V_RSkYq3w79s98649K7r&FORM=GCRIDP&mode=overlay