Ohjelmoija kouluttaa tekoälyä piirtämään kasvot tekstistä

T2F-harjoittelun aikaviive

Ohjelmoija Animesh Karnewar halusi tietää, miltä kirjoissa kuvatut hahmot näyttäisivät todellisuudessa, joten hän kääntyi tekoälyn puoleen nähdäkseen, voisiko se hahmontaa nämä kuvitteelliset ihmiset oikein. T2F-niminen tutkimusprojekti käyttää GAN-verkkoa (Generative Adversarial Network) tekstin koodaamiseen ja kasvojen kuvien syntetisoimiseen.

Yksinkertaisesti sanottuna GAN koostuu kaksi hermoverkkoa, jotka riitelevät keskenään tuottaaksesi parhaat tulokset. Esimerkiksi verkon nro 1 tehtävänä on huijata verkkoa nro 2 uskomaan, että renderöity kuva on todellinen valokuva, kun taas verkko nro 2 pyrkii todistamaan väitetyn valokuvan olevan vain renderöity kuva. Tämä edestakaisin tapahtuva prosessi hienosäätää renderöintiprosessia, kunnes verkko nro 2 lopulta huijataan.

Suositellut videot

Karnewar aloitti projektin käyttämällä a Kööpenhaminan yliopiston tutkijoiden tuottama tietoaineisto nimeltä Face2Text, joka sisältää luonnollisen kielen kuvaukset 400 satunnaiselle kuvalle.

"Kuvaukset puhdistetaan kuvissa oleville ihmisille tarjottujen vastahakoisten ja asiaankuulumattomien tekstitysten poistamiseksi", hän kirjoittaa. "Jotkut kuvauksista eivät vain kuvaa kasvojen piirteitä, vaan tarjoavat myös kuvista oletettuja tietoja."

Vaikka Karnewarin T2F-projektin tulokset eivät ole aivan fotorealistisia, se on alku. Yllä upotettu video näyttää aikarajan näkymän siitä, kuinka GAN on koulutettu renderöimään kuvia tekstistä alkaen yhtenäisillä värilohkoilla ja päättyen karkeaan, mutta tunnistettavaan piksiloituun renderöinnit.

"Huomasin, että suuremmilla resoluutioilla (32 x 32 ja 64 x 64) luoduissa näytteissä on enemmän taustakohinaa kuin pienemmillä resoluutioilla luoduissa näytteissä", Karnewar selittää. "Ymmärrän sen riittämättömän datamäärän vuoksi (vain 400 kuvaa)."

Vastakkaisten verkostojen kouluttamiseen käytetty tekniikka on nimeltään "GANien asteittainen kasvu”, mikä parantaa laatua ja vakautta ajan myötä. Kuten video näyttää, kuvageneraattori käynnistyy erittäin alhaisesta resoluutiosta. Uusia kerroksia tuodaan malliin hitaasti, mikä lisää yksityiskohtia koulutuksen edetessä ajan myötä.

"GANien progressiivinen kasvattaminen on ilmiömäinen tekniikka GANien kouluttamiseen nopeammin ja vakaammin", hän lisää. "Tämä voidaan yhdistää erilaisiin uusiin panoksiin muista papereista."

Esitetyssä esimerkissä tekstikuvaus havainnollistaa 20-vuotiaana naista, jolla on pitkät ruskeat hiukset sivulle pyyhkäisyllä, kasvonpiirteet hellästi ja ilman meikkiä. Hän on "rento" ja "rento". Toinen kuvaus havainnollistaa 40-vuotiasta miestä, jolla on pitkänomainen kasvot, näkyvä nenä, ruskeat silmät, väistyvä hiusraja ja lyhyet viikset. Vaikka lopputulokset ovat erittäin pikselöityjä, lopulliset renderöinnit osoittavat suurta edistystä siinä, miten A.I. voi luoda kasvoja tyhjästä.

Karnewar sanoo aikovansa laajentaa projektia integroidakseen lisätietojoukkoja, kuten Flicker8K- ja Coco-tekstit. Lopulta T2F: ää voitaisiin käyttää lainvalvonta-alalla uhrien ja/tai rikollisten tunnistamiseen muun muassa tekstikuvausten perusteella. Hän on avoin ehdotuksille ja panoksille projektiin.

Jotta pääset käyttämään koodia ja osallistumaan, Siirry Karnewarin arkistoon Githubissa täällä.

Toimittajien suositukset

  • Tutkijat käyttävät A.I. keinotekoisen ihmisen geneettisen koodin luomiseksi
  • Tarkastellaan uudelleen A.I: n nousua: Kuinka pitkälle tekoäly on edennyt vuoden 2010 jälkeen?
  • Intel ja Facebook tekevät yhteistyötä antaakseen Cooper Lakelle lisäpotkua tekoälylle

Päivitä elämäntapasiDigital Trends auttaa lukijoita pysymään tekniikan nopeatempoisessa maailmassa uusimpien uutisten, hauskojen tuotearvostelujen, oivaltavien toimitusten ja ainutlaatuisten kurkistusten avulla.