Programer usposablja umetno inteligenco za risanje obrazov iz besedila

Časovni zamik vadbe T2F

Programer Animesh Karnewar je želel vedeti, kako bi bili liki, opisani v knjigah, videti v resnici, zato se je obrnil na umetno inteligenco, da bi ugotovil, ali lahko pravilno upodablja te izmišljene ljudi. Raziskovalni projekt, imenovan T2F, uporablja generativno kontradiktorno omrežje (GAN) za kodiranje besedila in sintetiziranje podob obraza.

Preprosto povedano, GAN je sestavljen iz dve nevronski mreži, ki se med seboj prepirata za najboljše rezultate. Naloga omrežja št. 1 je na primer preslepiti omrežje št. 2, da verjame, da je upodobljena slika prava fotografija, medtem ko se omrežje št. 2 trudi dokazati, da je domnevna fotografija samo upodobljena slika. Ta povratni proces natančno prilagaja postopek upodabljanja, dokler omrežje št. 2 na koncu ni preslepljeno.

Priporočeni videoposnetki

Karnewar je projekt začel z uporabo a nabor podatkov, imenovan Face2Text, ki so ga zagotovili raziskovalci na Univerzi v Kopenhagnu, ki vsebuje opise v naravnem jeziku za 400 naključnih slik.

»Opisi so očiščeni, da odstranimo nenaklonjene in nepomembne napise za ljudi na slikah,« piše. "Nekateri opisi ne opisujejo le obraznih potez, ampak nudijo tudi nekaj impliciranih informacij s slik."

Čeprav rezultati, ki izhajajo iz Karnewarjevega projekta T2F, niso ravno fotorealistični, je to začetek. Zgornji videoposnetek prikazuje časovno pretečen pogled na to, kako je bil GAN ​​usposobljen za upodabljanje ilustracij iz besedila, začenši s trdnimi barvnimi bloki in konča s grobo, a prepoznavno slikovno sliko upodobitve.

»Ugotovil sem, da imajo ustvarjeni vzorci pri višjih ločljivostih (32 x 32 in 64 x 64) več šuma v ozadju v primerjavi z vzorci, ustvarjenimi pri nižjih ločljivostih,« pojasnjuje Karnewar. “To zaznavam zaradi premajhne količine podatkov (samo 400 slik).”

Tehnika, ki se uporablja za urjenje kontradiktornih mrež, se imenuje "Progresivna rast GAN-jev,« ki sčasoma izboljša kakovost in stabilnost. Kot kaže videoposnetek, se generator slike začne pri izjemno nizki ločljivosti. V model se počasi uvajajo nove plasti, ki povečujejo podrobnosti, ko usposabljanje sčasoma napreduje.

»Progresivna rast GAN-jev je fenomenalna tehnika za hitrejše in stabilnejše usposabljanje GAN-jev,« dodaja. "To je mogoče povezati z različnimi novimi prispevki iz drugih časopisov."

V navedenem primeru besedilni opis ponazarja žensko v poznih 20-ih z dolgimi rjavimi lasmi, spuščenimi na eno stran, nežnimi potezami obraza in brez ličil. Je "ležerna" in "sproščena". Drugi opis ponazarja moškega v 40-ih letih s podolgovatim obrazom, izrazitim nosom, rjavimi očmi, upadlo linijo las in kratkimi brki. Čeprav so končni rezultati izjemno pikselizirani, končni upodobitve kažejo velik napredek pri tem, kako A.I. lahko ustvari obraze iz nič.

Karnewar pravi, da namerava razširiti projekt, da bi integriral dodatne nabore podatkov, kot so napisi Flicker8K in Coco. Sčasoma bi lahko T2F med drugimi aplikacijami uporabili na področju kazenskega pregona za identifikacijo žrtev in/ali kriminalcev na podlagi besedilnih opisov. Odprt je za predloge in prispevke k projektu.

Za dostop do kode in prispevanje pojdite na Karnewarjevo skladišče na Githubu tukaj.

Priporočila urednikov

  • Znanstveniki uporabljajo A.I. ustvariti umetno človeško genetsko kodo
  • Ponovni pregled vzpona AI: Kako daleč je umetna inteligenca prišla od leta 2010?
  • Intel in Facebook se združujeta, da bi Cooper Lake okrepila umetno inteligenco

Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.