Програміст навчає штучний інтелект малювати обличчя з тексту

Проміжок часу навчання T2F

Програміст Анімеш Карневар хотів знати, як персонажі, описані в книгах, виглядатимуть у реальності, тому він звернувся до штучного інтелекту, щоб перевірити, чи зможе він правильно відобразити цих вигаданих людей. Дослідницький проект під назвою T2F використовує генеративну змагальну мережу (GAN) для кодування тексту та синтезу зображень обличчя.

Простіше кажучи, GAN складається з дві нейронні мережі, які сперечаються між собою щоб отримати найкращі результати. Наприклад, завдання мережі № 1 полягає в тому, щоб обдурити мережу № 2, щоб вона повірила, що відтворене зображення є справжньою фотографією, тоді як мережа № 2 намагається довести, що нібито фотографія є просто відтвореним зображенням. Цей зворотно-поступальний процес точно налаштовує процес візуалізації, доки мережа № 2 врешті-решт не буде обдурена.

Рекомендовані відео

Karnewar розпочав проект, використовуючи a набір даних під назвою Face2Text, наданий дослідниками Копенгагенського університету, який містить описи природною мовою для 400 випадкових зображень.

«Описи очищаються, щоб видалити небажані та нерелевантні підписи, надані для людей на зображеннях», — пише він. «Деякі з описів не лише описують риси обличчя, але й надають певну приховану інформацію з фотографій».

Хоча результати проекту Karnewar T2F не зовсім фотореалістичні, це лише початок. Відео, вбудоване вище, показує, як GAN навчали відтворювати ілюстрації. з тексту, починаючи з суцільних кольорових блоків і закінчуючи грубими, але впізнаваними пікселями візуалізації.

«Я виявив, що згенеровані зразки з вищою роздільною здатністю (32 x 32 і 64 x 64) мають більше фонового шуму порівняно зі зразками, згенерованими з нижчою роздільною здатністю», — пояснює Карневар. «Я сприймаю це через недостатню кількість даних (лише 400 зображень)».

Техніка, яка використовується для навчання суперницьких мереж, називається «Прогресивне зростання GAN”, що покращує якість і стабільність з часом. Як видно з відео, генератор зображень запускається з надзвичайно низької роздільної здатності. Нові шари повільно вводяться в модель, збільшуючи деталі в міру навчання.

«Прогресивне зростання GAN — це феноменальна техніка для швидшого та стабільнішого навчання GAN», — додає він. «Це можна поєднати з різними новими внесками з інших газет».

У наданому прикладі текстовий опис ілюструє жінку близько 20-ти з довгим каштановим волоссям, зачесаним набік, з ніжними рисами обличчя та без макіяжу. Вона «випадкова» і «розслаблена». Інший опис ілюструє чоловіка років 40 з видовженим обличчям, видатним носом, карими очима, лінією волосся та короткими вусами. Незважаючи на те, що кінцеві результати надзвичайно піксельні, остаточні рендери демонструють великий прогрес у тому, як ШІ. може створювати обличчя з нуля.

Карневар каже, що планує розширити проект, щоб інтегрувати додаткові набори даних, такі як підписи Flicker8K і Coco. Згодом T2F можна буде використовувати в правоохоронних органах для ідентифікації жертв та/або злочинців на основі текстових описів, серед інших програм. Він відкритий до пропозицій і внеску в проект.

Щоб отримати доступ до коду та зробити внесок, перейдіть до репозиторію Karnewar на Github тут.

Програміст навчає штучний інтелект малювати обличчя з тексту

Рекомендації редакції

Категорії

Останні

Wordle Today (#878): відповідь та підказки Wordle за 13 листопада

Студія Alan Wake 2 перезавантажує свій майбутній багатокористувацький проект

Можливо, Gigabyte щойно оприлюднила інформацію про наступні великі процесори AMD