Programátor učí umělou inteligenci kreslit obličeje z textu

Časová prodleva tréninku T2F

Programátor Animesh Karnewar chtěl vědět, jak by postavy popsané v knihách vypadaly ve skutečnosti, a tak se obrátil na umělou inteligenci, aby zjistil, zda dokáže správně vykreslit tyto fiktivní lidi. Výzkumný projekt s názvem T2F využívá generativní adversariální síť (GAN) ke kódování textu a syntéze obrázků obličeje.

Jednoduše řečeno, GAN se skládá z dvě neuronové sítě, které se mezi sebou hádají pro dosažení nejlepších výsledků. Úkolem sítě č. 1 je například oklamat síť č. 2, aby uvěřila, že vykreslený obrázek je skutečná fotografie, zatímco síť č. 2 se snaží dokázat, že údajná fotografie je pouze vykreslený obrázek. Tento proces tam a zpět dolaďuje proces vykreslování, dokud není síť č. 2 nakonec oklamána.

Doporučená videa

Karnewar zahájil projekt pomocí a datový soubor nazvaný Face2Text poskytnutý výzkumníky z Kodaňské univerzity, který obsahuje popisy přirozeného jazyka pro 400 náhodných obrázků.

„Popisy jsou vyčištěny, aby se odstranily neochotné a irelevantní popisky poskytnuté lidem na obrázcích,“ píše. "Některé popisy nejen popisují rysy obličeje, ale také poskytují některé implicitní informace z obrázků."

I když výsledky pocházející z Karnewarova projektu T2F nejsou úplně fotorealistické, je to začátek. Video vložené výše ukazuje časosběrný pohled na to, jak byl GAN ​​trénován k vykreslování ilustrací od textu, počínaje plnými bloky barev a konče hrubými, ale rozpoznatelnými pixilovanými omítky.

„Zjistil jsem, že vzorky generované ve vyšším rozlišení (32 x 32 a 64 x 64) mají více šumu na pozadí ve srovnání se vzorky generovanými s nižším rozlišením,“ vysvětluje Karnewar. "Vnímám to kvůli nedostatečnému množství dat (pouze 400 snímků)."

Technika používaná k trénování nepřátelských sítí se nazývá „Progresivní růst GAN”, což v průběhu času zlepšuje kvalitu a stabilitu. Jak ukazuje video, generátor obrázků začíná od extrémně nízkého rozlišení. Do modelu jsou pomalu zaváděny nové vrstvy, které s postupem času zvyšují podrobnosti.

„Progresivní růst GAN je fenomenální technika pro rychlejší a stabilnější trénování GAN,“ dodává. "To může být spojeno s různými novými příspěvky z jiných dokumentů."

V uvedeném příkladu textový popis znázorňuje ženu kolem 20 let s dlouhými hnědými vlasy sčesanými na jednu stranu, jemnými rysy obličeje a bez make-upu. Je „neformální“ a „uvolněná“. Jiný popis znázorňuje muže kolem 40 let s protáhlým obličejem, výrazným nosem, hnědýma očima, ustupující linií vlasů a krátkým knírem. Přestože jsou konečné výsledky extrémně pixelované, konečné rendery ukazují velký pokrok v tom, jak A.I. může generovat tváře od nuly.

Karnewar říká, že plánuje rozšířit projekt o integraci dalších datových sad, jako jsou titulky Flicker8K a Coco. Nakonec by T2F mohl být použit v oblasti vymáhání práva k identifikaci obětí a/nebo zločinců na základě textových popisů, mimo jiné aplikace. Je otevřený návrhům a příspěvkům k projektu.

Chcete-li získat přístup ke kódu a přispět, zamiřte do Karnewarova úložiště na Github zde.

Doporučení redakce

  • Vědci používají A.I. vytvořit umělý lidský genetický kód
  • Revisiting the vzestup A.I.: Jak daleko umělá inteligence pokročila od roku 2010?
  • Intel a Facebook se spojily, aby Cooper Lake posílily umělou inteligenci

Upgradujte svůj životní stylDigitální trendy pomáhají čtenářům mít přehled o rychle se měnícím světě technologií se všemi nejnovějšími zprávami, zábavnými recenzemi produktů, zasvěcenými úvodníky a jedinečnými náhledy.