Programador entrena inteligencia artificial para dibujar caras a partir de texto

Lapso de tiempo de entrenamiento T2F

El programador Animesh Karnewar quería saber cómo se verían en la realidad los personajes descritos en los libros, por lo que recurrió a la inteligencia artificial para ver si podía representar adecuadamente a estas personas ficticias. Llamado T2F, el proyecto de investigación utiliza una red generativa adversarial (GAN) para codificar texto y sintetizar imágenes faciales.

En pocas palabras, una GAN consta de dos redes neuronales que discuten entre sí para producir los mejores resultados. Por ejemplo, el trabajo de la red No. 1 es engañar a la red No. 2 haciéndole creer que una imagen renderizada es una fotografía real, mientras que la red No. 2 se propone demostrar que la supuesta foto es solo una imagen renderizada. Este proceso de ida y vuelta afina el proceso de renderizado hasta que finalmente se engaña a la red número 2.

Vídeos recomendados

Karnewar inició el proyecto utilizando un conjunto de datos llamado Face2Text proporcionado por investigadores de la Universidad de Copenhague

, que contiene descripciones en lenguaje natural para 400 imágenes aleatorias.

"Las descripciones se limpian para eliminar leyendas reticentes e irrelevantes proporcionadas a las personas en las imágenes", escribe. "Algunas de las descripciones no sólo describen los rasgos faciales, sino que también proporcionan información implícita de las imágenes".

Si bien los resultados derivados del proyecto T2F de Karnewar no son exactamente fotorrealistas, es un comienzo. El vídeo incrustado arriba muestra una vista en intervalos de tiempo de cómo se entrenó la GAN para representar ilustraciones. del texto, comenzando con bloques sólidos de color y terminando con pixelados toscos pero identificables. representaciones.

"Descubrí que las muestras generadas con resoluciones más altas (32 x 32 y 64 x 64) tienen más ruido de fondo en comparación con las muestras generadas con resoluciones más bajas", explica Karnewar. “Lo percibo por la cantidad insuficiente de datos (sólo 400 imágenes).”

La técnica utilizada para entrenar las redes adversarias se llama “Crecimiento progresivo de las GAN”, lo que mejora la calidad y la estabilidad en el tiempo. Como muestra el vídeo, el generador de imágenes parte de una resolución extremadamente baja. Lentamente se introducen nuevas capas en el modelo, aumentando los detalles a medida que el entrenamiento avanza con el tiempo.

"El crecimiento progresivo de GAN es una técnica fenomenal para entrenar GAN de forma más rápida y estable", añade. "Esto se puede combinar con varias contribuciones novedosas de otros artículos".

En un ejemplo proporcionado, la descripción del texto ilustra a una mujer de veintitantos años con cabello largo y castaño peinado hacia un lado, rasgos faciales suaves y sin maquillaje. Ella es "informal" y "relajada". Otra descripción ilustra a un hombre de unos 40 años con rostro alargado, nariz prominente, ojos marrones, entradas y bigote corto. Aunque los resultados finales están extremadamente pixelados, los renders finales muestran un gran progreso en cómo funciona la IA. Puede generar caras desde cero.

Karnewar dice que planea ampliar el proyecto para integrar conjuntos de datos adicionales como Flicker8K y Coco captions. Con el tiempo, T2F podría usarse en el campo de aplicación de la ley para identificar víctimas y/o delincuentes basándose en descripciones de texto, entre otras aplicaciones. Está abierto a sugerencias y contribuciones al proyecto.

Para acceder al código y contribuir, dirígete al repositorio de Karnewar en Github aquí.

Recomendaciones de los editores

Los científicos están utilizando A.I. crear un código genético humano artificial
Revisando el auge de la IA: ¿Hasta dónde ha llegado la inteligencia artificial desde 2010?
Intel y Facebook se unen para darle a Cooper Lake un impulso de inteligencia artificial

Mejora tu estilo de vidaDigital Trends ayuda a los lectores a mantenerse al tanto del vertiginoso mundo de la tecnología con las últimas noticias, reseñas divertidas de productos, editoriales interesantes y adelantos únicos.

Programador entrena inteligencia artificial para dibujar caras a partir de texto

Recomendaciones de los editores

Categorías

Reciente

Sprint: LTE y fusionarse con T-Mobile podrían tener sentido

La prueba de la nave espacial SpaceX termina nuevamente con una espectacular explosión

Características de Harmonix Riffs en Rock Band 3