Programmētājs apmāca mākslīgo intelektu, lai no teksta uzzīmētu sejas

T2F apmācības laika nobīde

Programmētājs Animešs Karnevārs vēlējās uzzināt, kā grāmatās aprakstītie varoņi izskatīsies patiesībā, tāpēc viņš pievērsās mākslīgajam intelektam, lai noskaidrotu, vai tas var pareizi atveidot šos izdomātos cilvēkus. Pētniecības projekts, ko sauc par T2F, izmanto ģeneratīvo pretrunīgo tīklu (GAN), lai kodētu tekstu un sintezētu sejas attēlus.

Vienkārši sakot, GAN sastāv no divi neironu tīkli, kas strīdas savā starpā lai sasniegtu vislabākos rezultātus. Piemēram, tīkla Nr. 1 uzdevums ir maldināt tīklu Nr. 2, lai noticētu, ka atveidotais attēls ir īsta fotogrāfija, savukārt tīkls Nr. 2 cenšas pierādīt, ka iespējamais fotoattēls ir tikai renderēts attēls. Šis turp un atpakaļ process precīzi noregulē renderēšanas procesu, līdz tīkls Nr. 2 galu galā tiek apmānīts.

Ieteiktie videoklipi

Karnewar sāka projektu, izmantojot a datu kopa ar nosaukumu Face2Text, ko nodrošina Kopenhāgenas universitātes pētnieki, kurā ir dabiskās valodas apraksti 400 nejaušiem attēliem.

"Apraksti ir notīrīti, lai noņemtu nevēlamos un neatbilstošos parakstus, kas paredzēti attēlos redzamajiem cilvēkiem," viņš raksta. "Daži apraksti ne tikai apraksta sejas vaibstus, bet arī sniedz netiešu informāciju no attēliem."

Lai gan rezultāti, kas izriet no Karnewar T2F projekta, nav īsti fotoreālistiski, tas ir sākums. Iepriekš iegultajā videoklipā ir parādīts laika perioda skatījums par to, kā GAN tika apmācīts atveidot ilustrācijas no teksta, sākot ar vienkrāsainiem blokiem un beidzot ar aptuvenu, bet identificējamu piksilu apmetumi.

"Es atklāju, ka ģenerētajiem paraugiem ar augstāku izšķirtspēju (32 x 32 un 64 x 64) ir vairāk fona trokšņu, salīdzinot ar paraugiem, kas ģenerēti ar zemāku izšķirtspēju, " skaidro Karnewar. "Es to uztveru nepietiekamā datu apjoma dēļ (tikai 400 attēli)."

Paņēmienu, ko izmanto, lai apmācītu pretinieku tīklus, sauc par "Progresīva GAN audzēšana”, kas laika gaitā uzlabo kvalitāti un stabilitāti. Kā redzams video, attēlu ģenerators sāk darboties ar ārkārtīgi zemu izšķirtspēju. Jauni slāņi tiek lēnām ieviesti modelī, palielinot detaļas, apmācības gaitā laika gaitā.

"GAN progresīvā audzēšana ir fenomenāls paņēmiens, lai ātrāk un stabilāk apmācītu GAN," viņš piebilst. "To var apvienot ar dažādiem jauniem ieguldījumiem no citiem dokumentiem."

Norādītajā piemērā teksta aprakstā ir ilustrēta sieviete, kurai ir 20 gadi ar gariem, brūniem matiem, kas pārvilkti uz vienu sānu, maigi sejas vaibsti un bez grima. Viņa ir “gadījuma rakstura” un “atvieglota”. Cits apraksts ilustrē vīrieti ap 40 gadiem ar iegarenu seju, izteiktu degunu, brūnām acīm, atkāpīgu matu līniju un īsām ūsām. Lai gan gala rezultāti ir ārkārtīgi pikseļoti, galīgie renderējumi liecina par lielu progresu, kā A.I. var radīt sejas no nulles.

Karnewar saka, ka viņš plāno paplašināt projektu, lai integrētu papildu datu kopas, piemēram, Flicker8K un Coco parakstus. Galu galā T2F varētu izmantot tiesībaizsardzības jomā, lai citu lietojumprogrammu starpā identificētu upurus un/vai noziedzniekus, pamatojoties uz teksta aprakstiem. Viņš ir atvērts priekšlikumiem un ieguldījumiem projektā.

Lai piekļūtu kodam un sniegtu ieguldījumu, dodieties uz Karnewar krātuvi vietnē Github šeit.

Redaktoru ieteikumi

Zinātnieki izmanto A.I. radīt mākslīgu cilvēka ģenētisko kodu
Pārskatot A.I. pieaugumu: cik tālu mākslīgais intelekts ir ticis kopš 2010. gada?
Intel un Facebook sadarbojas, lai sniegtu Cooper Lake mākslīgā intelekta stimulu

Uzlabojiet savu dzīvesveiduDigitālās tendences palīdz lasītājiem sekot līdzi steidzīgajai tehnoloģiju pasaulei, izmantojot visas jaunākās ziņas, jautrus produktu apskatus, ieskatu saturošus rakstus un unikālus ieskatus.

Programmētājs apmāca mākslīgo intelektu, lai no teksta uzzīmētu sejas

Redaktoru ieteikumi

Kategorijas

Nesen

Fujifilm tagad ir traks 46x tālummaiņas objektīvs — no 9,5 mm līdz 437 mm — priekš 4K

Gaisa dusmas pār Knee Defender sīkrīku izraisa lidojumu novirzīšanu

Chefling partneri ar Home Connect, lai uzlabotu mājas gatavošanu