Programmeur traint kunstmatige intelligentie om gezichten uit tekst te tekenen

T2F-training time-lapse

Programmeur Animesh Karnewar wilde weten hoe personages die in boeken worden beschreven er in werkelijkheid uit zouden zien, dus wendde hij zich tot kunstmatige intelligentie om te zien of deze deze fictieve mensen op de juiste manier kon weergeven. Het onderzoeksproject, genaamd T2F, maakt gebruik van een generatief vijandig netwerk (GAN) om tekst te coderen en gezichtsbeelden te synthetiseren.

Simpel gezegd bestaat een GAN uit twee neurale netwerken die met elkaar in discussie gaan om de beste resultaten te bereiken. De taak van netwerk nr. 1 is bijvoorbeeld om netwerk nr. 2 voor de gek te houden door te geloven dat een gerenderde afbeelding een echte foto is, terwijl netwerk nr. 2 probeert te bewijzen dat de vermeende foto slechts een gerenderde afbeelding is. Dit heen-en-weer-proces verfijnt het weergaveproces totdat netwerk nr. 2 uiteindelijk voor de gek wordt gehouden.

Aanbevolen video's

Karnewar startte het project met behulp van een dataset genaamd Face2Text, verstrekt door onderzoekers van de Universiteit van Kopenhagen

, dat beschrijvingen in natuurlijke taal bevat voor 400 willekeurige afbeeldingen.

“De beschrijvingen zijn opgeschoond om onwillige en irrelevante bijschriften voor de mensen op de afbeeldingen te verwijderen”, schrijft hij. “Sommige beschrijvingen beschrijven niet alleen de gelaatstrekken, maar geven ook impliciete informatie uit de foto’s.”

Hoewel de resultaten van Karnewars T2F-project niet bepaald fotorealistisch zijn, is het een begin. De hierboven ingesloten video toont een time-lapse-weergave van hoe de GAN werd getraind om illustraties weer te geven uit tekst, beginnend met stevige kleurblokken en eindigend met ruwe maar herkenbare pixels weergaven.

"Ik ontdekte dat de gegenereerde samples met hogere resoluties (32 x 32 en 64 x 64) meer achtergrondruis hebben vergeleken met de samples die met lagere resoluties zijn gegenereerd", legt Karnewar uit. “Ik constateer dit vanwege de onvoldoende hoeveelheid gegevens (slechts 400 afbeeldingen).”

De techniek die wordt gebruikt om de vijandige netwerken te trainen heet “Progressieve groei van GAN's”, wat de kwaliteit en stabiliteit in de loop van de tijd verbetert. Zoals de video laat zien, begint de beeldgenerator met een extreem lage resolutie. Er worden langzaam nieuwe lagen in het model geïntroduceerd, waardoor de details toenemen naarmate de training in de loop van de tijd vordert.

“Het progressief kweken van GAN’s is een fenomenale techniek om GAN’s sneller en op een stabielere manier te trainen”, voegt hij eraan toe. "Dit kan worden gecombineerd met verschillende nieuwe bijdragen van andere kranten."

In een gegeven voorbeeld illustreert de tekstbeschrijving een vrouw van eind twintig met lang bruin haar dat naar één kant is geveegd, zachte gelaatstrekken en geen make-up. Ze is ‘casual’ en ‘ontspannen’. Een andere beschrijving illustreert een man van in de veertig met een langwerpig gezicht, een prominente neus, bruine ogen, een terugwijkende haarlijn en een korte snor. Hoewel de eindresultaten extreem korrelig zijn, laten de uiteindelijke weergaven een grote vooruitgang zien in de manier waarop A.I. kan vanaf het begin gezichten genereren.

Karnewar zegt dat hij van plan is het project uit te breiden om aanvullende datasets zoals Flicker8K en Coco-onderschriften te integreren. Uiteindelijk zou T2F op het gebied van wetshandhaving kunnen worden gebruikt om slachtoffers en/of criminelen te identificeren op basis van onder meer tekstbeschrijvingen. Hij staat open voor suggesties en bijdragen aan het project.

Om toegang te krijgen tot de code en bij te dragen, ga hier naar de repository van Karnewar op Github.

Aanbevelingen van de redactie

  • Wetenschappers gebruiken A.I. om kunstmatige menselijke genetische code te creëren
  • Opnieuw kijken naar de opkomst van AI: hoe ver is kunstmatige intelligentie gekomen sinds 2010?
  • Intel en Facebook werken samen om Cooper Lake een kunstmatige intelligentie-boost te geven

Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.