Programmerer trener kunstig intelligens til å tegne ansikter fra tekst

T2F trening time lapse

Programmerer Animesh Karnewar ønsket å vite hvordan karakterer beskrevet i bøker ville fremstå i virkeligheten, så han henvendte seg til kunstig intelligens for å se om den kunne gjengi disse fiktive menneskene på riktig måte. Forskningsprosjektet, kalt T2F, bruker et generativt adversarialt nettverk (GAN) for å kode tekst og syntetisere ansiktsbilder.

Enkelt sagt består en GAN av to nevrale nettverk som krangler med hverandre for å gi de beste resultatene. For eksempel er jobben til nettverk nr. 1 å lure nettverk nr. 2 til å tro at et gjengitt bilde er et ekte fotografi, mens nettverk nr. 2 tar sikte på å bevise at det påståtte bildet bare er et gjengitt bilde. Denne frem-og-tilbake-prosessen finjusterer gjengivelsesprosessen til nettverk nr. 2 til slutt blir lurt.

Anbefalte videoer

Karnewar startet prosjektet ved å bruke en datasett kalt Face2Text levert av forskere ved Københavns Universitet, som inneholder naturlige språkbeskrivelser for 400 tilfeldige bilder.

"Beskrivelsene er renset for å fjerne motvillige og irrelevante bildetekster gitt for personene på bildene," skriver han. "Noen av beskrivelsene beskriver ikke bare ansiktstrekkene, men gir også noe underforstått informasjon fra bildene."

Selv om resultatene fra Karnewars T2F-prosjekt ikke akkurat er fotorealistiske, er det en start. Videoen som er innebygd ovenfor viser en tidsforløpt visning av hvordan GAN ble opplært til å gjengi illustrasjoner fra tekst, som starter med solide fargeblokker og slutter med grov, men identifiserbar pixilated gjengivelser.

"Jeg fant ut at de genererte prøvene med høyere oppløsninger (32 x 32 og 64 x 64) har mer bakgrunnsstøy sammenlignet med prøvene generert ved lavere oppløsninger," forklarer Karnewar. "Jeg oppfatter det på grunn av den utilstrekkelige mengden data (bare 400 bilder)."

Teknikken som brukes for å trene de motstridende nettverkene kalles "Progressiv vekst av GAN-er", som forbedrer kvalitet og stabilitet over tid. Som videoen viser, starter bildegeneratoren fra en ekstremt lav oppløsning. Nye lag introduseres sakte i modellen, og øker detaljene etter hvert som treningen skrider frem over tid.

"Den progressive veksten av GAN-er er en fenomenal teknikk for å trene GAN-er raskere og på en mer stabil måte," legger han til. "Dette kan kombineres med forskjellige nye bidrag fra andre artikler."

I et gitt eksempel illustrerer tekstbeskrivelsen en kvinne i slutten av 20-årene med langt brunt hår sveipet over til den ene siden, milde ansiktstrekk og uten sminke. Hun er «tilfeldig» og «avslappet». En annen beskrivelse illustrerer en mann i 40-årene med et langstrakt ansikt, en fremtredende nese, brune øyne, en vikende hårfeste og en kort bart. Selv om sluttresultatene er ekstremt pikselerte, viser de endelige gjengivelsene stor fremgang i hvordan A.I. kan generere ansikter fra bunnen av.

Karnewar sier at han planlegger å skalere ut prosjektet for å integrere flere datasett som Flicker8K og Coco bildetekster. Etter hvert kan T2F brukes i rettshåndhevelsesfeltet for å identifisere ofre og/eller kriminelle basert på tekstbeskrivelser, blant andre applikasjoner. Han er åpen for forslag og bidrag til prosjektet.

For å få tilgang til koden og bidra, gå til Karnewars depot på Github her.

Redaktørenes anbefalinger

  • Forskere bruker A.I. å lage kunstig menneskelig genetisk kode
  • Revisiting the rise of A.I.: Hvor langt har kunstig intelligens kommet siden 2010?
  • Intel og Facebook slår seg sammen for å gi Cooper Lake en kunstig intelligens-boost

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.