Il programmatore addestra l'intelligenza artificiale a disegnare volti dal testo

Lasso di tempo di addestramento T2F

Il programmatore Animesh Karnewar voleva sapere come apparirebbero nella realtà i personaggi descritti nei libri, quindi si è rivolto all'intelligenza artificiale per vedere se poteva rappresentare correttamente queste persone immaginarie. Chiamato T2F, il progetto di ricerca utilizza una rete generativa avversaria (GAN) per codificare il testo e sintetizzare le immagini facciali.

In poche parole, un GAN è costituito da due reti neurali che litigano tra loro per produrre i migliori risultati. Ad esempio, il compito della rete n. 1 è ingannare la rete n. 2 facendole credere che un'immagine renderizzata sia una vera fotografia mentre la rete n. 2 si propone di dimostrare che la presunta foto è solo un'immagine renderizzata. Questo processo avanti e indietro mette a punto il processo di rendering finché la rete n. 2 non viene ingannata.

Video consigliati

Karnewar ha iniziato il progetto utilizzando a set di dati chiamato Face2Text fornito da ricercatori dell'Università di Copenaghen

, che contiene descrizioni in linguaggio naturale per 400 immagini casuali.

"Le descrizioni vengono pulite per rimuovere le didascalie riluttanti e irrilevanti fornite alle persone nelle immagini", scrive. "Alcune descrizioni non solo descrivono le caratteristiche del viso, ma forniscono anche alcune informazioni implicite dalle immagini."

Sebbene i risultati derivanti dal progetto T2F di Karnewar non siano esattamente fotorealistici, è comunque un inizio. Il video incorporato sopra mostra una vista al rallentatore di come il GAN è stato addestrato a eseguire il rendering delle illustrazioni dal testo, iniziando con blocchi di colore solidi e terminando con pixel ruvidi ma identificabili rendering.

"Ho scoperto che i campioni generati a risoluzioni più elevate (32 x 32 e 64 x 64) presentano più rumore di fondo rispetto ai campioni generati a risoluzioni inferiori", spiega Karnewar. “Lo percepisco a causa della quantità insufficiente di dati (solo 400 immagini).”

La tecnica utilizzata per addestrare le reti avversarie si chiama “Crescita progressiva dei GAN”, che ne migliora la qualità e la stabilità nel tempo. Come mostra il video, il generatore di immagini parte da una risoluzione estremamente bassa. Nuovi livelli vengono lentamente introdotti nel modello, aumentando i dettagli man mano che l'addestramento procede nel tempo.

"La crescita progressiva dei GAN è una tecnica fenomenale per addestrare i GAN più velocemente e in modo più stabile", aggiunge. “Questo può essere abbinato a vari nuovi contributi provenienti da altri articoli”.

In un esempio fornito, la descrizione testuale illustra una donna sulla trentina con lunghi capelli castani raccolti da un lato, lineamenti del viso delicati e senza trucco. È "casual" e "rilassata". Un'altra descrizione illustra un uomo sulla quarantina con un viso allungato, un naso prominente, occhi castani, un'attaccatura dei capelli stempiata e baffi corti. Sebbene i risultati finali siano estremamente pixelati, i rendering finali mostrano grandi progressi nel modo in cui l'A.I. può generare volti da zero.

Karnewar afferma di voler ampliare il progetto per integrare ulteriori set di dati come Flicker8K e le didascalie Coco. Alla fine, T2F potrebbe essere utilizzato nel campo delle forze dell’ordine per identificare vittime e/o criminali in base a descrizioni testuali, tra le altre applicazioni. È aperto a suggerimenti e contributi al progetto.

Per accedere al codice e contribuire, vai al repository di Karnewar su Github qui.

Raccomandazioni degli editori

Gli scienziati utilizzano l’A.I. per creare un codice genetico umano artificiale
Rivisitare l'ascesa dell'intelligenza artificiale: quanta strada ha fatto l'intelligenza artificiale dal 2010?
Intel e Facebook collaborano per dare a Cooper Lake un potenziamento dell'intelligenza artificiale

Migliora il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, divertenti recensioni di prodotti, editoriali approfonditi e anteprime uniche nel loro genere.

Il programmatore addestra l'intelligenza artificiale a disegnare volti dal testo

Raccomandazioni degli editori

Categorie

Recente

Surface Neo: notizie, voci, specifiche, data di rilascio e altro

Lenovo rilascia due nuove workstation ThinkPad

L'obiettivo Olympus 12-200mm Pro ha la gamma di zoom più ampia di sempre