Time lapse de formation T2F
Le programmeur Animesh Karnewar voulait savoir comment les personnages décrits dans les livres apparaîtraient dans la réalité. Il s'est donc tourné vers l'intelligence artificielle pour voir si elle pouvait restituer correctement ces personnages fictifs. Appelé T2F, le projet de recherche utilise un réseau contradictoire génératif (GAN) pour coder du texte et synthétiser des images faciales.
En termes simples, un GAN consiste en deux réseaux de neurones qui se disputent pour produire les meilleurs résultats. Par exemple, le travail du réseau n°1 consiste à tromper le réseau n°2 en lui faisant croire qu'une image rendue est une vraie photographie, tandis que le réseau n°2 vise à prouver que la prétendue photo n'est qu'une image rendue. Ce processus de va-et-vient affine le processus de rendu jusqu'à ce que le réseau n°2 soit finalement trompé.
Vidéos recommandées
Karnewar a démarré le projet en utilisant un ensemble de données appelé Face2Text fourni par des chercheurs de l'Université de Copenhague
, qui contient des descriptions en langage naturel pour 400 images aléatoires.« Les descriptions sont nettoyées pour supprimer les légendes réticentes et non pertinentes fournies aux personnes présentes dans les images », écrit-il. "Certaines descriptions décrivent non seulement les traits du visage, mais fournissent également des informations implicites tirées des images."
Même si les résultats du projet T2F de Karnewar ne sont pas exactement photoréalistes, c’est un début. La vidéo intégrée ci-dessus montre une vue accélérée de la façon dont le GAN a été formé pour restituer des illustrations. à partir du texte, en commençant par des blocs de couleur unis et en terminant par des pixels bruts mais identifiables rendus.
"J'ai découvert que les échantillons générés à des résolutions plus élevées (32 x 32 et 64 x 64) présentaient plus de bruit de fond que les échantillons générés à des résolutions plus faibles", explique Karnewar. "Je le perçois en raison de la quantité insuffisante de données (seulement 400 images)."
La technique utilisée pour entraîner les réseaux contradictoires s’appelle «Croissance progressive des GAN», ce qui améliore la qualité et la stabilité dans le temps. Comme le montre la vidéo, le générateur d'images démarre à partir d'une résolution extrêmement basse. De nouvelles couches sont lentement introduites dans le modèle, augmentant les détails à mesure que la formation progresse au fil du temps.
"La croissance progressive des GAN est une technique phénoménale pour former les GAN plus rapidement et de manière plus stable", ajoute-t-il. "Cela peut être associé à diverses contributions novatrices provenant d'autres articles."
Dans un exemple fourni, la description textuelle illustre une femme d'une vingtaine d'années avec de longs cheveux bruns glissés sur le côté, des traits du visage doux et sans maquillage. Elle est « décontractée » et « détendue ». Une autre description illustre un homme dans la quarantaine avec un visage allongé, un nez proéminent, des yeux bruns, une racine des cheveux dégarnie et une moustache courte. Bien que les résultats finaux soient extrêmement pixellisés, les rendus finaux montrent de grands progrès dans la façon dont l'IA. peut générer des visages à partir de zéro.
Karnewar dit qu'il prévoit d'étendre le projet pour intégrer des ensembles de données supplémentaires tels que les sous-titres Flicker8K et Coco. À terme, T2F pourrait être utilisé dans le domaine répressif pour identifier les victimes et/ou les criminels sur la base de descriptions textuelles, entre autres applications. Il est ouvert aux suggestions et aux contributions au projet.
Pour accéder au code et contribuer, dirigez-vous vers le référentiel de Karnewar sur Github ici.
Recommandations des rédacteurs
- Les scientifiques utilisent l’IA. créer un code génétique humain artificiel
- Revisiter l’essor de l’IA: où en est l’intelligence artificielle depuis 2010?
- Intel et Facebook s'associent pour donner à Cooper Lake un coup de pouce en matière d'intelligence artificielle
Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde en évolution rapide de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.