Programmer træner kunstig intelligens til at tegne ansigter fra tekst

T2F træning time lapse

Programmøren Animesh Karnewar ønskede at vide, hvordan karakterer beskrevet i bøger ville fremstå i virkeligheden, så han henvendte sig til kunstig intelligens for at se, om den korrekt kunne gengive disse fiktive mennesker. Kaldet T2F, forskningsprojektet bruger et generativt adversarialt netværk (GAN) til at kode tekst og syntetisere ansigtsbilleder.

Kort sagt består en GAN af to neurale netværk, der diskuterer med hinanden at producere de bedste resultater. For eksempel er opgaven for netværk nr. 1 at narre netværk nr. 2 til at tro, at et gengivet billede er et rigtigt fotografi, mens netværk nr. 2 forsøger at bevise, at det påståede billede kun er et gengivet billede. Denne frem og tilbage-proces finjusterer gengivelsesprocessen, indtil netværk nr. 2 til sidst bliver narre.

Anbefalede videoer

Karnewar startede projektet ved hjælp af en datasæt kaldet Face2Text leveret af forskere ved Københavns Universitet, som indeholder naturlige sprogbeskrivelser for 400 tilfældige billeder.

"Beskrivelserne er renset for at fjerne modvillige og irrelevante billedtekster til personerne på billederne," skriver han. "Nogle af beskrivelserne beskriver ikke kun ansigtstrækkene, men giver også nogle underforståede oplysninger fra billederne."

Selvom resultaterne fra Karnewars T2F-projekt ikke ligefrem er fotorealistiske, er det en start. Videoen indlejret ovenfor viser en tidsforskudt visning af, hvordan GAN blev trænet til at gengive illustrationer fra tekst, startende med solide farveblokke og slutter med ru, men identificerbar pixileret gengivelser.

"Jeg fandt ud af, at de genererede samples ved højere opløsninger (32 x 32 og 64 x 64) har mere baggrundsstøj sammenlignet med samples genereret ved lavere opløsninger," forklarer Karnewar. "Jeg opfatter det på grund af den utilstrækkelige mængde data (kun 400 billeder)."

Teknikken, der bruges til at træne de modstridende netværk, kaldes "Progressiv vækst af GAN'er, hvilket forbedrer kvalitet og stabilitet over tid. Som videoen viser, starter billedgeneratoren fra en ekstrem lav opløsning. Nye lag introduceres langsomt i modellen, hvilket øger detaljerne, efterhånden som træningen skrider frem over tid.

"Den progressive vækst af GAN'er er en fænomenal teknik til at træne GAN'er hurtigere og på en mere stabil måde," tilføjer han. "Dette kan kombineres med forskellige nye bidrag fra andre aviser."

I et givet eksempel illustrerer tekstbeskrivelsen en kvinde i slutningen af ​​20'erne med langt brunt hår trukket over til den ene side, blide ansigtstræk og ingen make-up. Hun er "afslappet" og "afslappet". En anden beskrivelse illustrerer en mand i 40'erne med et aflangt ansigt, en fremtrædende næse, brune øjne, en vigende hårgrænse og et kort overskæg. Selvom slutresultaterne er ekstremt pixelerede, viser de endelige gengivelser store fremskridt i, hvordan A.I. kan generere ansigter fra bunden.

Karnewar siger, at han planlægger at skalere projektet ud for at integrere yderligere datasæt såsom Flicker8K og Coco billedtekster. Til sidst kunne T2F bruges inden for retshåndhævelsesområdet til at identificere ofre og/eller kriminelle baseret på tekstbeskrivelser, blandt andre applikationer. Han er åben for forslag og bidrag til projektet.

For at få adgang til koden og bidrage, gå til Karnewars repository på Github her.

Redaktørens anbefalinger

  • Forskere bruger A.I. at skabe kunstig menneskelig genetisk kode
  • Gensyn med fremkomsten af ​​A.I.: Hvor langt er kunstig intelligens kommet siden 2010?
  • Intel og Facebook går sammen for at give Cooper Lake et boost af kunstig intelligens

Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.