Programmeerija treenib tehisintellekti tekstist nägude joonistamiseks

T2F treeningu ajavahe

Programmeerija Animesh Karnewar tahtis teada, kuidas raamatutes kirjeldatud tegelased tegelikkuses välja näevad, mistõttu pöördus ta tehisintellekti poole, et näha, kas see suudab neid väljamõeldud inimesi õigesti renderdada. T2F-nimelises uurimisprojektis kasutatakse teksti kodeerimiseks ja näopiltide sünteesimiseks generatiivset võistlevat võrku (GAN).

Lihtsamalt öeldes koosneb GAN kaks närvivõrku, mis vaidlevad omavahel parimate tulemuste saavutamiseks. Näiteks võrgustiku nr 1 ülesanne on petta võrk nr 2 nii, et see peaks uskuma, et renderdatud pilt on tõeline foto, samas kui võrk nr 2 püüab tõestada, et väidetav foto on lihtsalt renderdatud pilt. See edasi-tagasi protsess täpsustab renderdusprotsessi, kuni võrk nr 2 lõpuks lolliks läheb.

Soovitatud videod

Karnewar alustas projekti kasutades a Kopenhaageni ülikooli teadlaste andmestik nimega Face2Text, mis sisaldab loomuliku keele kirjeldusi 400 juhusliku pildi jaoks.

"Kirjeldused puhastatakse, et eemaldada piltidel olevate inimeste jaoks tõrksad ja ebaolulised pealdised," kirjutab ta. "Mõned kirjeldused ei kirjelda mitte ainult näojooni, vaid annavad ka piltidelt kaudset teavet."

Kuigi Karnewari T2F projekti tulemused ei ole täpselt fotorealistlikud, on see algus. Ülaltoodud video näitab ajavahemikku GAN-i illustratsioonide renderdamise koolitamisest tekstist, alustades kindlatest värviplokkidest ja lõpetades jämedate, kuid tuvastatavate pikslitega renderdusi.

„Leidsin, et kõrgema eraldusvõimega (32 x 32 ja 64 x 64) loodud proovidel on rohkem taustmüra võrreldes madalama eraldusvõimega genereeritud proovidega,“ selgitab Karnewar. "Ma tajun seda ebapiisava andmemahu tõttu (ainult 400 pilti)."

Konkurentsivõrgustike koolitamiseks kasutatud tehnikat nimetatakse "GAN-ide järkjärguline kasv”, mis aja jooksul parandab kvaliteeti ja stabiilsust. Nagu video näitab, käivitub pildigeneraator ülimadala eraldusvõimega. Uued kihid lisatakse mudelisse aeglaselt, suurendades aja jooksul treeningu edenedes detaile.

"GAN-ide järkjärguline kasvatamine on fenomenaalne tehnika GAN-ide kiiremaks ja stabiilsemaks treenimiseks," lisab ta. "Seda saab kombineerida erinevate uudsete panustega teistest paberitest."

Esitatud näites illustreerib tekstikirjeldus hilistes 20ndates aastates naist, kellel on pikad pruunid juuksed ühele küljele pühitud, näojooned on õrnad ja meigita. Ta on "juhuslik" ja "lõdvestunud". Teine kirjeldus illustreerib 40ndates eluaastates meest, kellel on piklik nägu, silmatorkav nina, pruunid silmad, taanduv juuksepiir ja lühikesed vuntsid. Kuigi lõpptulemused on äärmiselt pikslitud, näitavad lõplikud renderdused suuri edusamme selles, kuidas A.I. võib luua nägusid nullist.

Karnewar ütleb, et kavatseb projekti laiendada, et integreerida täiendavad andmekogumid, nagu Flicker8K ja Coco pealdised. Lõpuks võiks T2F-i kasutada õiguskaitsevaldkonnas ohvrite ja/või kurjategijate tuvastamiseks tekstikirjelduste ja muude rakenduste põhjal. Ta on avatud ettepanekutele ja panustele projekti.

Koodile juurdepääsuks ja panustamiseks minge Karnewari hoidlasse Githubis siin.

Toimetajate soovitused

  • Teadlased kasutavad A.I. luua inimese kunstlik geneetiline kood
  • A.I tõusu uuesti läbivaatamine: kui kaugele on tehisintellekt alates 2010. aastast jõudnud?
  • Intel ja Facebook teevad koostööd, et anda Cooper Lake'ile tehisintellekti tõuge

Uuenda oma elustiiliDigitaalsed suundumused aitavad lugejatel hoida silma peal kiirel tehnikamaailmal kõigi viimaste uudiste, lõbusate tooteülevaadete, sisukate juhtkirjade ja ainulaadsete lühiülevaadetega.