Timp de antrenament T2F
Programatorul Animesh Karnewar a vrut să știe cum vor apărea în realitate personajele descrise în cărți, așa că a apelat la inteligența artificială pentru a vedea dacă ar putea reda în mod corespunzător acești oameni fictivi. Denumit T2F, proiectul de cercetare folosește o rețea generativă adversară (GAN) pentru a codifica textul și a sintetiza imagini faciale.
Mai simplu spus, un GAN este format din două rețele neuronale care se ceartă între ele pentru a produce cele mai bune rezultate. De exemplu, sarcina rețelei nr. 1 este să păcălească rețeaua nr. 2, făcându-l să creadă că o imagine redată este o fotografie reală, în timp ce rețeaua nr. 2 își propune să demonstreze că presupusa fotografie este doar o imagine redată. Acest proces dus-întors ajustează procesul de randare până când rețeaua nr. 2 este în cele din urmă păcălită.
Videoclipuri recomandate
Karnewar a început proiectul folosind un set de date numit Face2Text furnizat de cercetătorii de la Universitatea din Copenhaga, care conține descrieri în limbaj natural pentru 400 de imagini aleatorii.
„Descrierile sunt curățate pentru a elimina subtitrările reticente și irelevante oferite persoanelor din imagini”, scrie el. „Unele descrieri nu numai că descriu trăsăturile feței, dar oferă și unele informații implicite din imagini.”
Deși rezultatele care decurg din proiectul T2F al lui Karnewar nu sunt tocmai fotorealiste, este un început. Videoclipul încorporat mai sus arată o vedere în interval de timp a modului în care GAN a fost antrenat pentru a reda ilustrații din text, începând cu blocuri solide de culoare și terminând cu pixelate aspre, dar identificabile redări.
„Am descoperit că mostrele generate la rezoluții mai mari (32 x 32 și 64 x 64) au mai mult zgomot de fond în comparație cu mostrele generate la rezoluții mai mici”, explică Karnewar. „Îl percep din cauza cantității insuficiente de date (doar 400 de imagini).”
Tehnica folosită pentru antrenarea rețelelor adverse se numește „Creșterea progresivă a GAN-urilor”, care îmbunătățește calitatea și stabilitatea în timp. După cum arată videoclipul, generatorul de imagini pornește de la o rezoluție extrem de scăzută. Straturi noi sunt introduse încet în model, crescând detaliile pe măsură ce antrenamentul progresează în timp.
„Creșterea progresivă a GAN-urilor este o tehnică fenomenală pentru formarea GAN-urilor mai rapid și într-un mod mai stabil”, adaugă el. „Acest lucru poate fi cuplat cu diverse contribuții noi din alte lucrări.”
Într-un exemplu oferit, descrierea textului ilustrează o femeie de 20 de ani, cu părul lung și castaniu trecut într-o parte, trăsături delicate ale feței și fără machiaj. Este „ocazională” și „relaxată”. O altă descriere ilustrează un bărbat în vârstă de 40 de ani, cu o față alungită, un nas proeminent, ochi căprui, o linie părului în retragere și o mustață scurtă. Deși rezultatele finale sunt extrem de pixelate, randările finale arată un progres mare în modul în care A.I. poate genera fețe de la zero.
Karnewar spune că intenționează să extindă proiectul pentru a integra seturi de date suplimentare, cum ar fi subtitrările Flicker8K și Coco. În cele din urmă, T2F ar putea fi folosit în domeniul aplicării legii pentru a identifica victimele și/sau criminalii pe baza descrierilor de text, printre alte aplicații. Este deschis la sugestii și contribuții la proiect.
Pentru a accesa codul și a contribui, mergeți la depozitul Karnewar de pe Github aici.
Recomandările editorilor
- Oamenii de știință folosesc A.I. pentru a crea cod genetic uman artificial
- Revizuirea ascensiunii A.I.: Cât de departe a ajuns inteligența artificială din 2010?
- Intel și Facebook fac echipă pentru a oferi lui Cooper Lake un impuls de inteligență artificială
Îmbunătățește-ți stilul de viațăDigital Trends îi ajută pe cititori să țină cont de lumea rapidă a tehnologiei cu toate cele mai recente știri, recenzii distractive despre produse, editoriale perspicace și anticipări unice.