Programador treina inteligência artificial para desenhar rostos de texto

Lapso de tempo de treinamento T2F

O programador Animesh Karnewar queria saber como os personagens descritos nos livros apareceriam na realidade, então ele recorreu à inteligência artificial para ver se ela conseguiria representar adequadamente essas pessoas fictícias. Chamado de T2F, o projeto de pesquisa usa uma rede adversária generativa (GAN) para codificar texto e sintetizar imagens faciais.

Simplificando, um GAN consiste em duas redes neurais que discutem entre si para produzir os melhores resultados. Por exemplo, o trabalho da rede nº 1 é enganar a rede nº 2, fazendo-a acreditar que uma imagem renderizada é uma fotografia real, enquanto a rede nº 2 se propõe a provar que a suposta foto é apenas uma imagem renderizada. Esse processo de vaivém ajusta o processo de renderização até que a rede nº 2 seja eventualmente enganada.

Vídeos recomendados

Karnewar iniciou o projeto usando um conjunto de dados chamado Face2Text fornecido por pesquisadores da Universidade de Copenhague, que contém descrições em linguagem natural para 400 imagens aleatórias.

“As descrições são limpas para remover legendas relutantes e irrelevantes fornecidas às pessoas nas imagens”, escreve ele. “Algumas das descrições não apenas descrevem as características faciais, mas também fornecem algumas informações implícitas nas fotos.”

Embora os resultados decorrentes do projeto T2F de Karnewar não sejam exatamente fotorrealistas, é um começo. O vídeo incorporado acima mostra uma visão temporal de como o GAN foi treinado para renderizar ilustrações do texto, começando com blocos sólidos de cores e terminando com pixels granulados, mas identificáveis renderizações.

“Descobri que as amostras geradas em resoluções mais altas (32 x 32 e 64 x 64) apresentam mais ruído de fundo em comparação com as amostras geradas em resoluções mais baixas”, explica Karnewar. “Percebo isso pela quantidade insuficiente de dados (apenas 400 imagens).”

A técnica usada para treinar as redes adversárias é chamada de “Crescimento progressivo de GANs”, o que melhora a qualidade e a estabilidade ao longo do tempo. Como mostra o vídeo, o gerador de imagens parte de uma resolução extremamente baixa. Novas camadas são introduzidas lentamente no modelo, aumentando os detalhes à medida que o treinamento avança ao longo do tempo.

“O crescimento progressivo de GANs é uma técnica fenomenal para treinar GANs de forma mais rápida e estável”, acrescenta. “Isso pode ser associado a várias novas contribuições de outros artigos.”

Em um exemplo fornecido, a descrição do texto ilustra uma mulher de quase 20 anos com longos cabelos castanhos penteados para o lado, traços faciais suaves e sem maquiagem. Ela é “casual” e “relaxada”. Outra descrição ilustra um homem na casa dos 40 anos com rosto alongado, nariz proeminente, olhos castanhos, linha do cabelo recuada e bigode curto. Embora os resultados finais sejam extremamente pixelizados, as renderizações finais mostram um grande progresso na forma como a I.A. pode gerar rostos do zero.

Karnewar diz que planeja expandir o projeto para integrar conjuntos de dados adicionais, como legendas Flicker8K e Coco. Eventualmente, o T2F poderia ser usado no campo da aplicação da lei para identificar vítimas e/ou criminosos com base em descrições de texto, entre outras aplicações. Ele está aberto a sugestões e contribuições para o projeto.

Para acessar o código e contribuir, acesse o repositório de Karnewar no Github aqui.

Recomendações dos Editores

  • Os cientistas estão usando IA. para criar código genético humano artificial
  • Revisitando a ascensão da IA: Até onde avançou a inteligência artificial desde 2010?
  • Intel e Facebook se unem para dar a Cooper Lake um impulso de inteligência artificial

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.