T2F träning time lapse
Programmeraren Animesh Karnewar ville veta hur karaktärer som beskrivs i böcker skulle se ut i verkligheten, så han vände sig till artificiell intelligens för att se om den korrekt kunde återge dessa fiktiva människor. Forskningsprojektet kallas T2F och använder ett generativt motståndsnätverk (GAN) för att koda text och syntetisera ansiktsbilder.
Enkelt uttryckt består ett GAN av två neurala nätverk som argumenterar med varandra för att ge bästa resultat. Till exempel är uppgiften för nätverk nr 1 att lura nätverk nr 2 att tro att en renderad bild är ett riktigt fotografi medan nätverk nr 2 försöker bevisa att det påstådda fotot bara är en renderad bild. Denna fram och tillbaka-process finjusterar renderingsprocessen tills nätverk nr 2 så småningom luras.
Rekommenderade videor
Karnewar startade projektet med en datauppsättning kallad Face2Text tillhandahållen av forskare vid Köpenhamns universitet, som innehåller naturliga språkbeskrivningar för 400 slumpmässiga bilder.
"Beskrivningarna är rensade för att ta bort motvilliga och irrelevanta bildtexter för personerna på bilderna", skriver han. "Några av beskrivningarna beskriver inte bara ansiktsdragen, utan ger också en del underförstådd information från bilderna."
Även om resultaten från Karnewars T2F-projekt inte är exakt fotorealistiska, är det en början. Videon som är inbäddad ovan visar en tidsförskjuten vy av hur GAN tränades för att återge illustrationer från text, som börjar med solida färgblock och slutar med grov men identifierbar pixilerad renderingar.
"Jag fann att de genererade samplingarna vid högre upplösningar (32 x 32 och 64 x 64) har mer bakgrundsbrus jämfört med de samplingar som genereras vid lägre upplösningar," förklarar Karnewar. "Jag uppfattar det på grund av den otillräckliga mängden data (endast 400 bilder)."
Tekniken som används för att träna de kontradiktoriska nätverken kallas "Progressiv odling av GAN, vilket förbättrar kvalitet och stabilitet över tid. Som videon visar startar bildgeneratorn från en extremt låg upplösning. Nya lager introduceras långsamt i modellen, vilket ökar detaljerna allt eftersom träningen fortskrider över tiden.
"Den progressiva tillväxten av GAN är en fenomenal teknik för att träna GAN snabbare och på ett mer stabilt sätt", tillägger han. "Detta kan kombineras med olika nya bidrag från andra tidningar."
I ett medföljt exempel illustrerar textbeskrivningen en kvinna i sena 20-årsåldern med långt brunt hår svept över åt sidan, milda ansiktsdrag och utan smink. Hon är "avslappnad" och "avslappnad". En annan beskrivning illustrerar en man i 40-årsåldern med ett avlångt ansikte, en framträdande näsa, bruna ögon, ett vikande hårfäste och en kort mustasch. Även om slutresultaten är extremt pixlade, visar de slutliga renderingarna stora framsteg i hur A.I. kan generera ansikten från grunden.
Karnewar säger att han planerar att skala ut projektet för att integrera ytterligare datauppsättningar som Flicker8K och Coco bildtexter. Så småningom skulle T2F kunna användas inom det brottsbekämpande området för att identifiera offer och/eller brottslingar baserat på bland annat textbeskrivningar. Han är öppen för förslag och bidrag till projektet.
För att komma åt koden och bidra, gå till Karnewars arkiv på Github här.
Redaktörens rekommendationer
- Forskare använder A.I. att skapa artificiell mänsklig genetisk kod
- Återbesök till uppkomsten av A.I.: Hur långt har artificiell intelligens kommit sedan 2010?
- Intel och Facebook samarbetar för att ge Cooper Lake en boost med artificiell intelligens
Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.