Programátor trénuje umelú inteligenciu na kreslenie tvárí z textu

Časový odstup tréningu T2F

Programátor Animesh Karnewar chcel vedieť, ako by postavy opísané v knihách vyzerali v skutočnosti, a tak sa obrátil na umelú inteligenciu, aby zistil, či dokáže správne vykresliť týchto fiktívnych ľudí. Výskumný projekt s názvom T2F využíva generatívnu adversariálnu sieť (GAN) na kódovanie textu a syntetizovanie obrázkov tváre.

Jednoducho povedané, GAN pozostáva z dve neurónové siete, ktoré sa navzájom hádajú dosiahnuť čo najlepšie výsledky. Napríklad úlohou siete č. 1 je oklamať sieť č. 2, aby uverila, že vykreslený obrázok je skutočná fotografia, zatiaľ čo sieť č. 2 sa snaží dokázať, že údajná fotografia je len vykreslený obrázok. Tento spätný proces dolaďuje proces vykresľovania, až kým nebude sieť č. 2 nakoniec oklamaná.

Odporúčané videá

Karnewar začal projekt pomocou a súbor údajov s názvom Face2Text, ktorý poskytli výskumníci z Kodanskej univerzity, ktorá obsahuje popisy v prirodzenom jazyku pre 400 náhodných obrázkov.

„Popisy sú vyčistené, aby sa odstránili neochotné a irelevantné titulky poskytnuté ľuďom na obrázkoch,“ píše. "Niektoré popisy nielen popisujú črty tváre, ale poskytujú aj niektoré implicitné informácie z obrázkov."

Aj keď výsledky pochádzajúce z Karnewarovho projektu T2F nie sú úplne fotorealistické, je to len začiatok. Video vložené vyššie ukazuje časozberný pohľad na to, ako bol GAN ​​trénovaný na vykresľovanie ilustrácií od textu, počnúc plnými blokmi farieb a končiac hrubými, ale identifikovateľnými pixilovanými stvárnenia.

„Zistil som, že vzorky generované vo vyšších rozlíšeniach (32 x 32 a 64 x 64) majú viac šumu na pozadí v porovnaní so vzorkami generovanými pri nižších rozlíšeniach,“ vysvetľuje Karnewar. "Vnímam to kvôli nedostatočnému množstvu údajov (iba 400 obrázkov)."

Technika používaná na trénovanie protichodných sietí sa nazýva „Progresívny rast GAN”, čo časom zlepšuje kvalitu a stabilitu. Ako ukazuje video, generátor obrázkov začína od extrémne nízkeho rozlíšenia. Do modelu sa pomaly zavádzajú nové vrstvy, ktoré postupom času zvyšujú detaily.

„Progresívny rast GAN je fenomenálna technika na trénovanie GAN rýchlejšie a stabilnejšie,“ dodáva. "To môže byť spojené s rôznymi novými príspevkami z iných dokumentov."

V poskytnutom príklade textový popis zobrazuje ženu vo veku okolo 20 rokov s dlhými hnedými vlasmi prehodenými na jednu stranu, jemnými črtami tváre a bez make-upu. Je „príležitostná“ a „uvoľnená“. Ďalší popis ilustruje muža vo veku 40 rokov s predĺženou tvárou, výrazným nosom, hnedými očami, ustupujúcou líniou vlasov a krátkymi fúzmi. Aj keď sú konečné výsledky extrémne pixelované, konečné rendery ukazujú veľký pokrok v tom, ako A.I. môže vytvárať tváre od začiatku.

Karnewar hovorí, že plánuje rozšíriť projekt na integráciu ďalších súborov údajov, ako sú titulky Flicker8K a Coco. Nakoniec by sa T2F mohol použiť v oblasti presadzovania práva na identifikáciu obetí a/alebo zločincov na základe textových popisov, okrem iných aplikácií. Je otvorený návrhom a príspevkom k projektu.

Ak chcete získať prístup ku kódu a prispieť, zamierte do Karnewarovho úložiska na Github tu.

Odporúčania redaktorov

  • Vedci používajú A.I. vytvoriť umelý ľudský genetický kód
  • Opätovná návšteva vzostupu AI: Ako ďaleko zašla umelá inteligencia od roku 2010?
  • Intel a Facebook sa spojili, aby Cooper Lake zvýšili umelú inteligenciu

Zlepšite svoj životný štýlDigitálne trendy pomáhajú čitateľom mať prehľad o rýchlo sa rozvíjajúcom svete technológií so všetkými najnovšími správami, zábavnými recenziami produktov, užitočnými úvodníkmi a jedinečnými ukážkami.