Programer obučava umjetnu inteligenciju da crta lica iz teksta

T2F trening vremenski odmak

Programer Animesh Karnewar želio je znati kako bi se likovi opisani u knjigama pojavili u stvarnosti, pa se obratio umjetnoj inteligenciji da vidi može li pravilno prikazati te izmišljene ljude. Nazvan T2F, istraživački projekt koristi generativnu kontradiktornu mrežu (GAN) za kodiranje teksta i sintetiziranje slika lica.

Jednostavno rečeno, GAN se sastoji od dvije neuronske mreže koje se međusobno svađaju za postizanje najboljih rezultata. Na primjer, posao mreže br. 1 je prevariti mrežu br. 2 da povjeruje da je renderirana slika prava fotografija, dok mreža br. 2 pokušava dokazati da je navodna fotografija samo renderirana slika. Ovaj proces naprijed-natrag fino podešava proces renderiranja sve dok mreža br. 2 na kraju ne bude prevarena.

Preporučeni videozapisi

Karnewar je započeo projekt koristeći a skup podataka nazvan Face2Text koji su osigurali istraživači sa Sveučilišta u Kopenhagenu, koji sadrži opise prirodnog jezika za 400 nasumičnih slika.

“Opisi su pročišćeni kako bi se uklonili neželjeni i irelevantni naslovi za ljude na slikama”, piše. "Neki od opisa ne samo da opisuju crte lica, već također pružaju neke implicirane informacije sa slika."

Iako rezultati koji proizlaze iz Karnewarovog T2F projekta nisu baš fotorealistični, to je početak. Gornji ugrađeni videozapis pokazuje vremenski isprekidan prikaz kako je GAN obučen za prikaz ilustracija od teksta, počevši s čvrstim blokovima boje i završavajući s grubim, ali prepoznatljivim pikseliranim prikazi.

"Otkrio sam da generirani uzorci na višim razlučivostima (32 x 32 i 64 x 64) imaju više pozadinske buke u usporedbi s uzorcima generiranim na nižim razlučivostima", objašnjava Karnewar. “Opažam to zbog nedovoljne količine podataka (samo 400 slika).”

Tehnika koja se koristi za treniranje suparničkih mreža zove se "Progresivni rast GAN-ova”, što poboljšava kvalitetu i stabilnost tijekom vremena. Kao što video prikazuje, generator slike počinje od iznimno niske rezolucije. Novi slojevi se polako uvode u model, povećavajući detalje kako obuka napreduje tijekom vremena.

"Progresivni rast GAN-ova je fenomenalna tehnika za brže i stabilnije treniranje GAN-ova", dodaje. "Ovo se može povezati s raznim novim doprinosima iz drugih novina."

U navedenom primjeru tekstualni opis ilustrira ženu u kasnim 20-ima s dugom smeđom kosom zabačenom na jednu stranu, nježnih crta lica i bez šminke. Ona je "ležerna" i "opuštena". Drugi opis ilustrira muškarca u 40-im godinama s izduženim licem, istaknutim nosom, smeđim očima, opuštenom linijom kose i kratkim brkovima. Iako su krajnji rezultati izrazito pikselizirani, konačni renderi pokazuju veliki napredak u tome kako A.I. može generirati lica od nule.

Karnewar kaže da planira proširiti projekt kako bi integrirao dodatne skupove podataka kao što su Flicker8K i Coco opisi. Na kraju, T2F bi se mogao koristiti u području provedbe zakona za identifikaciju žrtava i/ili kriminalaca na temelju tekstualnih opisa, između ostalih aplikacija. Otvoren je za prijedloge i doprinose projektu.

Za pristup kodu i doprinos, idite do Karnewarovog repozitorija na Githubu ovdje.

Preporuke urednika

  • Znanstvenici koriste A.I. stvoriti umjetni ljudski genetski kod
  • Ponovno razmatranje uspona umjetne inteligencije: Koliko je daleko stigla umjetna inteligencija od 2010.?
  • Intel i Facebook udružuju se kako bi Cooper Lakeu dali poticaj umjetnoj inteligenciji

Nadogradite svoj životni stilDigitalni trendovi pomažu čitateljima da prate brzi svijet tehnologije sa svim najnovijim vijestima, zabavnim recenzijama proizvoda, pronicljivim uvodnicima i jedinstvenim brzim pregledima.