T2F képzési idő telik el
Animesh Karnewar programozó tudni akarta, hogyan jelennek meg a könyvekben leírt karakterek a valóságban, ezért a mesterséges intelligenciához fordult, hogy megtudja, képes-e megfelelően visszaadni ezeket a kitalált embereket. A T2F nevű kutatási projekt egy generatív ellenséges hálózatot (GAN) használ a szöveg kódolására és az arcképek szintetizálására.
Egyszerűen fogalmazva, a GAN a következőkből áll két neurális hálózat, amelyek vitatkoznak egymással a legjobb eredmény elérése érdekében. Például az 1-es hálózat feladata, hogy becsapja a 2-es hálózatot, és azt higgye, hogy egy renderelt kép valódi fénykép, míg a 2-es hálózat bebizonyítja, hogy az állítólagos fotó csak egy renderelt kép. Ez az oda-vissza folyamat egészen addig finomhangolja a renderelési folyamatot, amíg a 2. számú hálózatot végül megtévesztik.
Ajánlott videók
Karnewar elindította a projektet a Face2Text nevű adatkészlet, amelyet a Koppenhágai Egyetem kutatói biztosítottak, amely 400 véletlenszerű képhez tartalmaz természetes nyelvű leírásokat.
„A leírásokat megtisztítják, hogy eltávolítsák a képeken szereplő személyeknek szánt vonakodó és irreleváns feliratokat” – írja. "Néhány leírás nem csak az arcvonásokat írja le, hanem a képekről is tartalmaz néhány hallgatólagos információt."
Bár a Karnewar T2F projektjének eredményei nem éppen fotorealisztikusak, ez egy kezdet. A fenti beágyazott videó egy időzített nézetet mutat be arról, hogyan képezték ki a GAN-t az illusztrációk megjelenítésére szövegtől kezdve, tömör színes blokkokkal kezdve, és érdes, de azonosítható pixilezettel végződve renderelések.
„Azt tapasztaltam, hogy a nagyobb felbontású (32 x 32 és 64 x 64) minták több háttérzajt tartalmaznak, mint az alacsonyabb felbontású minták” – magyarázza Karnewar. "Az elégtelen adatmennyiség miatt érzékelem (csak 400 kép)."
Az ellenséges hálózatok képzésére használt technikát „A GAN-ok progresszív növekedése”, amely idővel javítja a minőséget és a stabilitást. Ahogy a videó is mutatja, a képgenerátor rendkívül alacsony felbontásból indul. Az új rétegek lassan bekerülnek a modellbe, a képzés előrehaladtával növelve a részleteket.
„A GAN-ok progresszív növekedése fenomenális technika a GAN-ok gyorsabb és stabilabb képzéséhez” – teszi hozzá. "Ez párosulhat más lapok különféle újszerű hozzájárulásaival."
Egy példában a szöveges leírás egy 20-as évei végén járó nőt illusztrál, hosszú barna hajjal, félrehúzva, gyengéd arcvonásokkal és smink nélkül. „Lehetséges” és „nyugodt”. Egy másik leírás egy 40 év körüli férfit illusztrál megnyúlt arccal, kiemelkedő orral, barna szemekkel, távolodó hajvonallal és rövid bajusszal. Bár a végeredmény rendkívül pixeles, a végső renderelések nagy előrelépést mutatnak az A.I. arcokat generálhat a semmiből.
Karnewar azt mondja, hogy tervezi a projekt kiterjesztését további adatkészletek, például a Flicker8K és a Coco feliratok integrálására. A T2F végül felhasználható lenne a bűnüldözés területén az áldozatok és/vagy bűnözők azonosítására szöveges leírások alapján, többek között egyéb alkalmazások között. Nyitott a projekttel kapcsolatos javaslatokra és hozzájárulásokra.
A kód eléréséhez és hozzájárulásához látogasson el Karnewar tárházába a Githubon itt.
Szerkesztői ajánlások
- A tudósok az A.I. mesterséges emberi genetikai kód létrehozására
- Újragondolva az A.I. térnyerését: Meddig jutott a mesterséges intelligencia 2010 óta?
- Az Intel és a Facebook összefog, hogy a Cooper Lake mesterséges intelligencia lendületet adjon
Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.