5 choses avec lesquelles les générateurs d'images AI ont encore du mal

Générateurs d'images AI comme Dall-E, Diffusion stable, À mi-parcours, et Créateur d'images Bing produire des résultats étonnants, mais parfois ils peuvent être incroyablement frustrants. Avec des invites simples contenant seulement quelques mots, une IA peut produire des images impressionnantes qui semblent être des photographies professionnelles et des œuvres d'art convaincantes dans différents styles. Cependant, la même invite créera occasionnellement une créature horrible ou un rendu hilarant.

Contenu

  • Salade de main et boules de doigts
  • Texte et écriture troublants
  • Les yeux ne l'ont pas
  • Outils gênants
  • Dents de cauchemar
  • L'art de l'IA s'améliore rapidement

Les invites négatives peuvent aider à réduire la probabilité de ces erreurs, mais la complexité ne peut pas toujours vous sauver. Même les experts en intelligence artificielle sont aux prises avec des créatures difformes et des scènes hors du monde, nécessitant de longues heures d'affinement des invites ou de retouches d'images avec un éditeur de photos traditionnel. Pour le moment, si vous regardez attentivement dans les bonnes zones d'une image, il y a de fortes chances que vous puissiez identifier si elle a été réalisée par une machine.

Vidéos recommandées

Salade de main et boules de doigts

Les développeurs d'IA ont fait des progrès dans la lutte pour enseigner aux outils d'intelligence artificielle à quoi devraient ressembler les mains humaines, mais il y a beaucoup de place pour l'amélioration. Si les doigts ne sont pas mis en évidence, il est facile de manquer des erreurs, mais c'est un problème permanent.

En rapport

  • Stable Diffusion vise à résoudre son problème de génération de doigts
  • Les vidéos générées par l'IA sont arrivées et elles évoluent rapidement
  • Bing Image Creator apporte des images générées par DALL-E AI à votre navigateur
Dall-E était l'un des premiers leaders de l'IA, mais les mains ne sont pas son truc.
Dall-E était l'un des premiers leaders de l'IA, mais les mains ne sont pas son truc.Dall-E invité par Alan Truly

L'un des premiers et des meilleurs générateurs d'images AI disponibles au public, Dall-E d'OpenAI, a créé ces images de personnes se tenant la main. À première vue, cela peut sembler bien. En y regardant de plus près, certains problèmes deviennent apparents. Méfiez-vous des doigts supplémentaires, des ongles étranges et des chiffres fusionnés.

Les prises compliquées et les doigts entrelacés sont encore plus difficiles. Ne soyez pas surpris si vos images d'IA reviennent avec des problèmes classiques appelés "salade de main" ou "boulettes de doigts".

Les mains entrelacées de Dall-E dérangent.
Les mains entrelacées de Dall-E dérangent.Dall-E invité par Alan Truly

Texte et écriture troublants

Vous pourriez vous attendre à ce que le texte soit facile à générer pour un ordinateur. Vous voyez quotidiennement des preuves de mots sur les écrans lorsque vous décrochez le téléphone ou ouvrez un navigateur. Les premiers ordinateurs, contrairement les meilleurs PC de jeu d'aujourd'hui, ne pouvait pas afficher de graphiques d'aucune sorte. Tout était texte ou chiffres.

Leonardo AI connaît les styles, mais le texte imprimé est un défi.
Leonardo AI connaît les styles, mais le texte imprimé est un défi.Leonardo AI incité par Alan Truly

Pourtant, afficher des lettres et des symboles réels sous forme de mots imprimés ou écrits est étonnamment délicat pour un Générateur d'images IA. Cela peut sembler être un problème facile à résoudre, mais ce n'est pas le cas. Une application ne peut pas simplement superposer du texte brut. Pour être convaincant, le style de texte, l'ombrage, l'angle et la perspective doivent correspondre au reste de la scène.

Dans l'exemple, un générateur d'images AI relativement nouveau, Leonardo AI, a fait un vaillant effort avec un panneau d'affichage vintage pour le restaurant de Jack Rabbit Slim. Après plusieurs essais, l'IA a réussi à épeler "Jack Rabbit's", ce qui est assez proche de la demande. Le style de photographie vintage était parfait dans chaque image, mais les lettres et les mots étaient pour la plupart imparfaits.

Leonardo AI a failli obtenir du texte dans l'un de ces rendus.
Leonardo AI a failli obtenir un texte correct dans le rendu de gauche.Leonardo AI rend les rendus à l'instigation d'Alan Truly

Les yeux ne l'ont pas

Bing Image Creator a du mal avec les yeux.
Bing Image Creator invité par Alan Truly

On dit souvent que les yeux sont les fenêtres de l'âme. Nous comptons tellement sur le contact visuel que cela pourrait être le détail le plus critique dans la création d'un portrait réaliste. Mais de nombreux outils d'IA ont du mal à rendre les yeux humains.

Bing Image Creator a fait un travail décent avec l'arrière-plan du studio et a posé une photo de famille multigénérationnelle. Cependant, presque tout le monde a des yeux bizarres qui semblent avoir été insérés par des extraterrestres, ou peut-être que ces personnes souriantes sont en train de se transformer en créatures surnaturelles.

Deux exemples plus proches des problèmes oculaires de Bing Image Creator.
Deux exemples plus proches des problèmes oculaires inquiétants de Bing Image Creator.Bing Image Creator invité par Alan Truly

Outils gênants

Les humains sont doués avec les outils et pas seulement avec la variété numérique comme l'IA. Nous maîtrisons rapidement tout outil physique à notre portée. Une IA, en revanche, a du mal à comprendre ce qu'ils sont et comment ils sont utilisés.

Midjourney comprend les mains mais est intrigué par les clés.
Midjourney comprend les mains, mais est intrigué par les clés. C'est une ampoule en bas à gauche ?Midjourney incité par Alan Truly

Midjourney est un générateur d'images d'IA qui fait des progrès fantastiques dans la résolution de problèmes avec des visages et des mains humains. Cependant, lorsqu'il est invité à montrer un mécanicien serrant un boulon avec une clé, l'outil est totalement absent. Les ongles sont ajoutés aux gants dans un cas, et une ampoule apparaît d'une manière ou d'une autre dans un autre.

Les ciseaux sont trop compliqués pour Bing Image Creator dans ce rendu en gros plan de cheveux coupés. Ils ne sont ouverts que sur une seule image et ne semblent jamais être en train de couper.

Bing Image Creator ne comprend pas les ciseaux.
Bing Image Creator ne comprend pas comment fonctionnent les ciseaux.Bing Image Creator invité par Alan Truly

Dents de cauchemar

Les rendus de diffusion stable des sourires ont parfois trop de dents.
Diffusion stable via Leonardo AI, invité par Alan Truly

Lorsque les gens sourient et rient, cela améliore généralement une image, la rendant agréable et amusante. Lorsqu'on lui donne une simple invite comme deux étudiants souriant et riant, une IA peut transformer cela en carburant cauchemardesque avec plusieurs rangées de dents et d'autres distorsions étranges.

Leonardo AI vous permet de choisir entre plusieurs modèles, et certains gèrent bien les dents. La populaire Modèle Stable Diffusion 2.1 besoin d'aide pour avoir de bonnes dents. Avec quelques incitations négatives, le problème a été résolu. Il existe des solutions à ces problèmes d'image AI, mais il faut encore du travail pour obtenir de bons résultats.

Les sourires à diffusion stable bénéficient des invites négatives.
Les sourires à diffusion stable bénéficient d'invites négatives pour retirer les « dents bizarres » et la « bouche déformée ».Diffusion stable via Leonardo AI, invité par Alan Truly

L'art de l'IA s'améliore rapidement

Aux débuts de l'art de l'IA, les résultats étaient étranges et merveilleux, créant la beauté et l'horreur avec le même abandon. Les erreurs deviennent moins perceptibles à chaque nouvelle mise à jour, et de nombreux problèmes peuvent être surmontés avec un peu de raffinement.

Avec autant d'outils d'IA disponibles, il est facile d'essayer un autre système. De nombreux générateurs d'images AI permettent des invites négatives ou d'autres options pour ajuster l'algorithme et obtenir de meilleurs résultats.

Vous devrez peut-être effectuer plusieurs tentatives pour obtenir une image utilisable, en particulier si l'accent est mis sur les visages ou les mains. Lorsque vous souhaitez inclure des mots imprimés ou écrits, soyez prêt à passer du temps dans un éditeur d'images à effacer les lettres absurdes de l'IA et à mélanger le texte correct.

La bonne nouvelle est que de nombreux générateurs d'images AI sont gratuits et que les modèles d'abonnement sont relativement peu coûteux. En un an, ces problèmes persistants pourraient être résolus, vous permettant d'utiliser un rendu AI comme une œuvre d'art finie ou un remplacement pour une photographie.

Recommandations des éditeurs

  • La nouvelle fonctionnalité de zoom arrière de Midjourney devient la prochaine grande sensation d'IA
  • La mise à jour de Bing Chat dépasse ChatGPT de 6 nouvelles façons importantes
  • Cette image d'IA virale a trompé le monde, et vous l'avez peut-être déjà vue
  • Le nouveau générateur d'IA de type ChatGPT de Grammarly peut faire bien plus que relire votre écriture
  • J'ai vu l'avenir (lointain) de la recherche sur le Web par IA - voici où c'est incroyable et où ça se débat

Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde trépidant de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.