Programista szkoli sztuczną inteligencję do rysowania twarzy z tekstu

click fraud protection

Upływ czasu treningu T2F

Programista Animesh Karnewar chciał wiedzieć, jak postacie opisane w książkach będą wyglądać w rzeczywistości, więc zwrócił się do sztucznej inteligencji, aby sprawdzić, czy będzie w stanie poprawnie odwzorować te fikcyjne postacie. Projekt badawczy o nazwie T2F wykorzystuje generatywną sieć kontradyktoryjną (GAN) do kodowania tekstu i syntezy wizerunków twarzy.

Mówiąc najprościej, sieć GAN składa się z dwie sieci neuronowe, które kłócą się ze sobą aby uzyskać najlepsze rezultaty. Na przykład zadaniem sieci nr 1 jest oszukanie sieci nr 2, aby uwierzyła, że ​​wyrenderowany obraz to prawdziwa fotografia, podczas gdy sieć nr 2 ma na celu udowodnienie, że rzekome zdjęcie jest tylko wyrenderowanym obrazem. Ten ciągły proces dostraja proces renderowania, aż sieć nr 2 zostanie w końcu oszukana.

Polecane filmy

Karnewar rozpoczął projekt przy użyciu pliku zbiór danych o nazwie Face2Text dostarczony przez naukowców z Uniwersytetu w Kopenhadze, który zawiera opisy w języku naturalnym dla 400 losowych obrazów.

„Opisy są czyszczone w celu usunięcia niechętnych i nieistotnych podpisów podawanych osobom na zdjęciach” – pisze. „Niektóre opisy nie tylko opisują rysy twarzy, ale także zawierają pewne ukryte informacje ze zdjęć”.

Choć wyniki uzyskane w ramach projektu T2F firmy Karnewar nie są do końca fotorealistyczne, to jednak początek. Zamieszczone powyżej wideo przedstawia poklatkowy widok szkolenia sieci GAN w zakresie renderowania ilustracji od tekstu, zaczynając od jednolitych bloków koloru, a kończąc na szorstkich, ale rozpoznawalnych pikselach renderingi.

„Odkryłem, że próbki wygenerowane w wyższych rozdzielczościach (32 x 32 i 64 x 64) mają więcej szumu tła w porównaniu z próbkami wygenerowanymi w niższych rozdzielczościach” – wyjaśnia Karnewar. „Dostrzegam to z powodu niewystarczającej ilości danych (tylko 400 zdjęć).”

Technika stosowana do uczenia sieci kontradyktoryjnych nazywa się „Stopniowy rozwój GAN”, co poprawia jakość i stabilność w czasie. Jak pokazuje wideo, generator obrazu zaczyna od wyjątkowo niskiej rozdzielczości. Nowe warstwy są powoli wprowadzane do modelu, zwiększając szczegółowość w miarę postępu uczenia się w miarę upływu czasu.

„Progresywny rozwój sieci GAN to fenomenalna technika umożliwiająca szybsze i bardziej stabilne szkolenie sieci GAN” – dodaje. „Można to połączyć z różnymi nowatorskimi wkładami z innych publikacji”.

W podanym przykładzie opis tekstowy przedstawia kobietę po dwudziestce, z długimi brązowymi włosami zaczesanymi na bok, delikatnymi rysami twarzy i bez makijażu. Jest „swobodna” i „zrelaksowana”. Inny opis przedstawia mężczyznę po czterdziestce, z wydłużoną twarzą, wydatnym nosem, brązowymi oczami, cofniętą linią włosów i krótkimi wąsami. Chociaż wyniki końcowe są niezwykle rozpikselowane, końcowe rendery pokazują ogromny postęp w działaniu sztucznej inteligencji. może generować twarze od podstaw.

Karnewar twierdzi, że planuje rozszerzyć projekt w celu zintegrowania dodatkowych zbiorów danych, takich jak podpisy Flicker8K i Coco. Ostatecznie T2F będzie można wykorzystać w egzekwowaniu prawa do identyfikacji ofiar i/lub przestępców, między innymi na podstawie opisów tekstowych. Jest otwarty na sugestie i wkład w projekt.

Aby uzyskać dostęp do kodu i przyczynić się, udaj się do repozytorium Karnewar na Githubie tutaj.

Zalecenia redaktorów

  • Naukowcy wykorzystują sztuczną inteligencję do stworzenia sztucznego ludzkiego kodu genetycznego
  • Wracając do rozwoju sztucznej inteligencji: jak daleko zaszła sztuczna inteligencja od 2010 roku?
  • Intel i Facebook łączą siły, aby ulepszyć sztuczną inteligencję Cooper Lake

Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.