Programuotojas lavina dirbtinį intelektą, kad nupieštų veidus iš teksto

T2F treniruočių laiko tarpas

Programuotojas Animeshas Karnewaras norėjo sužinoti, kaip knygose aprašyti personažai atrodys tikrovėje, todėl kreipėsi į dirbtinį intelektą, norėdamas išsiaiškinti, ar jis gali tinkamai perteikti šiuos išgalvotus žmones. Tyrimo projektas, vadinamas T2F, naudoja generatyvų priešininkų tinklą (GAN) tekstui koduoti ir veido vaizdams sintetinti.

Paprasčiau tariant, GAN susideda iš du neuroniniai tinklai, kurie ginčijasi tarpusavyje pasiekti geriausių rezultatų. Pavyzdžiui, tinklo Nr. 1 užduotis yra suklaidinti tinklą Nr. 2, kad jis patikėtų, kad pateiktas vaizdas yra tikra nuotrauka, o tinklas Nr. 2 siekia įrodyti, kad tariama nuotrauka yra tik pateiktas vaizdas. Šis pirmyn ir atgal vykstantis procesas tiksliai sureguliuoja atvaizdavimo procesą, kol galiausiai apgaunamas tinklas Nr. 2.

Rekomenduojami vaizdo įrašai

Karnewar pradėjo projektą naudodamas a Kopenhagos universiteto mokslininkų pateiktas duomenų rinkinys Face2Text, kuriame yra 400 atsitiktinių vaizdų aprašymai natūralia kalba.

„Aprašymai išvalomi, kad būtų pašalinti nenorintys ir nesusiję antraštės, pateikiamos žmonėms vaizduose“, – rašo jis. „Kai kuriuose aprašymuose ne tik aprašomi veido bruožai, bet ir pateikiama tam tikra numanoma informacija iš nuotraukų.

Nors rezultatai, gauti iš Karnewar T2F projekto, nėra visiškai fotorealistiški, tai yra pradžia. Aukščiau įdėtame vaizdo įraše rodomas vaizdas, kaip GAN buvo išmokytas pateikti iliustracijas nuo teksto, pradedant vientisais spalvų blokais ir baigiant grubiu, bet identifikuojamu pikseliu atvaizdai.

„Radau, kad sugeneruoti pavyzdžiai esant didesnei skiriamajai gebai (32 x 32 ir 64 x 64) turi daugiau foninio triukšmo, palyginti su pavyzdžiais, sugeneruotais žemesne skiriamąja geba“, - aiškina Karnewar. „Aš tai suvokiu dėl nepakankamo duomenų kiekio (tik 400 vaizdų).

Technika, naudojama priešpriešinių tinklų mokymui, vadinama „Laipsniškas GAN augimas“, kuri laikui bėgant gerina kokybę ir stabilumą. Kaip rodo vaizdo įrašas, vaizdo generatorius pradeda veikti nuo itin mažos raiškos. Nauji sluoksniai pamažu įvedami į modelį, laikui bėgant tobulėjant treniruotėms.

„Progresyvus GAN auginimas yra fenomenalus būdas greičiau ir stabiliau treniruoti GAN“, – priduria jis. „Tai gali būti derinama su įvairiais naujais įnašais iš kitų popierių.

Pateiktame pavyzdyje teksto aprašymas iliustruoja į 20 metų įkopusią moterį su ilgais rudais plaukais, perbrauktais į vieną pusę, švelniais veido bruožais ir be makiažo. Ji yra „atsitiktinė“ ir „atsipalaidavusi“. Kitas aprašymas iliustruoja 40 metų vyrą su pailgu veidu, iškilia nosimi, rudomis akimis, besitraukiančia plaukų linija ir trumpais ūsais. Nors galutiniai rezultatai yra labai taškiniai, galutiniai atvaizdai rodo didelę pažangą, kaip A.I. gali sukurti veidus nuo nulio.

Karnewar sako, kad planuoja išplėsti projektą ir integruoti papildomus duomenų rinkinius, tokius kaip „Flicker8K“ ir „Coco“ antraštės. Galiausiai T2F galėtų būti naudojamas teisėsaugos srityje, siekiant nustatyti aukas ir (arba) nusikaltėlius pagal tekstinius aprašymus, be kitų programų. Jis yra atviras pasiūlymams ir indėliui į projektą.

Norėdami pasiekti kodą ir prisidėti, eikite į Karnewar saugyklą „Github“ čia.

Redaktorių rekomendacijos

  • Mokslininkai naudoja A.I. sukurti dirbtinį žmogaus genetinį kodą
  • Peržiūrėjimas apie A.I. kilimą: kiek dirbtinis intelektas nuėjo nuo 2010 m.?
  • „Intel“ ir „Facebook“ bendradarbiauja, kad suteiktų „Cooper Lake“ dirbtinio intelekto postūmį

Atnaujinkite savo gyvenimo būdąSkaitmeninės tendencijos padeda skaitytojams stebėti sparčiai besivystantį technologijų pasaulį – pateikiamos visos naujausios naujienos, smagios produktų apžvalgos, įžvalgūs vedamieji leidiniai ir unikalūs žvilgsniai.