Programmer Melatih Kecerdasan Buatan Menggambar Wajah dari Teks

Selang waktu pelatihan T2F

Pemrogram Animesh Karnewar ingin mengetahui bagaimana karakter yang dijelaskan dalam buku akan muncul di dunia nyata, jadi dia beralih ke kecerdasan buatan untuk melihat apakah kecerdasan buatan dapat menampilkan orang-orang fiksi tersebut dengan tepat. Disebut T2F, proyek penelitian ini menggunakan jaringan permusuhan generatif (GAN) untuk menyandikan teks dan mensintesis gambar wajah.

Sederhananya, GAN terdiri dari dua jaringan saraf yang saling berdebat untuk menghasilkan hasil yang terbaik. Misalnya, tugas jaringan No. 1 adalah mengelabui jaringan No. 2 agar percaya bahwa gambar yang dirender adalah foto asli, sedangkan jaringan No. 2 berusaha membuktikan bahwa foto yang dituduhkan hanyalah gambar yang dirender. Proses bolak-balik ini menyempurnakan proses rendering hingga jaringan No. 2 akhirnya tertipu.

Video yang Direkomendasikan

Karnewar memulai proyek menggunakan a kumpulan data yang disebut Face2Text disediakan oleh para peneliti di Universitas Kopenhagen, yang berisi deskripsi bahasa alami untuk 400 gambar acak.

“Deskripsinya dibersihkan untuk menghilangkan keterangan yang enggan dan tidak relevan yang diberikan kepada orang-orang di gambar tersebut,” tulisnya. “Beberapa deskripsi tidak hanya mendeskripsikan fitur wajah, tetapi juga memberikan beberapa informasi tersirat dari gambar.”

Meskipun hasil yang diperoleh dari proyek T2F Karnewar tidak sepenuhnya fotorealistik, ini adalah sebuah permulaan. Video yang disematkan di atas menunjukkan gambaran selang waktu tentang bagaimana GAN dilatih untuk membuat ilustrasi dari teks, dimulai dengan blok warna solid dan diakhiri dengan piksel yang kasar namun dapat dikenali rendering.

“Saya menemukan bahwa sampel yang dihasilkan pada resolusi lebih tinggi (32 x 32 dan 64 x 64) memiliki lebih banyak noise latar belakang dibandingkan sampel yang dihasilkan pada resolusi lebih rendah,” jelas Karnewar. “Saya melihatnya karena jumlah data yang tidak mencukupi (hanya 400 gambar).”

Teknik yang digunakan untuk melatih jaringan permusuhan disebut “Pertumbuhan GAN yang Progresif,” yang meningkatkan kualitas dan stabilitas dari waktu ke waktu. Seperti yang ditunjukkan dalam video, generator gambar dimulai dari resolusi yang sangat rendah. Lapisan baru diperkenalkan secara perlahan ke dalam model, meningkatkan detailnya seiring dengan kemajuan pelatihan dari waktu ke waktu.

“Pertumbuhan GAN yang Progresif adalah teknik fenomenal untuk melatih GAN dengan lebih cepat dan lebih stabil,” tambahnya. “Hal ini dapat dibarengi dengan berbagai kontribusi baru dari makalah lain.”

Dalam contoh yang diberikan, deskripsi teks menggambarkan seorang wanita berusia akhir 20-an dengan rambut coklat panjang disisir ke satu sisi, fitur wajah lembut dan tanpa riasan. Dia “santai” dan “santai”. Gambaran lain menggambarkan seorang pria berusia 40-an dengan wajah memanjang, hidung mancung, mata coklat, garis rambut surut dan kumis pendek. Meskipun hasil akhirnya sangat berpiksel, rendering akhir menunjukkan kemajuan besar dalam cara A.I. dapat menghasilkan wajah dari awal.

Karnewar mengatakan dia berencana memperluas skala proyek untuk mengintegrasikan kumpulan data tambahan seperti teks Flicker8K dan Coco. Pada akhirnya, T2F dapat digunakan di bidang penegakan hukum untuk mengidentifikasi korban dan/atau penjahat berdasarkan deskripsi teks, di antara aplikasi lainnya. Dia terbuka terhadap saran dan kontribusi untuk proyek ini.

Untuk mengakses kode dan berkontribusi, kunjungi repositori Karnewar di Github di sini.

Rekomendasi Editor

  • Para ilmuwan menggunakan A.I. untuk membuat kode genetik manusia buatan
  • Meninjau kembali kebangkitan AI: Sejauh mana kemajuan kecerdasan buatan sejak tahun 2010?
  • Intel dan Facebook bekerja sama untuk memberikan Cooper Lake peningkatan kecerdasan buatan

Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terkini, ulasan produk yang menyenangkan, editorial yang berwawasan luas, dan cuplikan unik.