Программист научил искусственный интеллект рисовать лица по тексту

Таймлапс тренировки T2F

Программист Анимеш Карневар хотел знать, как персонажи, описанные в книгах, будут выглядеть в реальности, поэтому он обратился к искусственному интеллекту, чтобы посмотреть, сможет ли он правильно воспроизвести этих вымышленных людей. Исследовательский проект под названием T2F использует генеративно-состязательную сеть (GAN) для кодирования текста и синтеза изображений лиц.

Проще говоря, GAN состоит из две нейронные сети, которые спорят друг с другом для достижения наилучших результатов. Например, задача сети № 1 состоит в том, чтобы обмануть сеть № 2, заставив ее поверить в то, что визуализированное изображение является настоящей фотографией, в то время как сеть № 2 пытается доказать, что предполагаемая фотография является всего лишь визуализированным изображением. Этот возвратно-поступательный процесс настраивает процесс рендеринга до тех пор, пока сеть № 2 в конечном итоге не будет обманута.

Рекомендуемые видео

Карневар начал проект, используя набор данных под названием Face2Text, предоставленный исследователями из Копенгагенского университета.

, который содержит описания на естественном языке для 400 случайных изображений.

«Описания очищены, чтобы удалить нежелательные и нерелевантные подписи для людей на изображениях», — пишет он. «Некоторые описания не только описывают черты лица, но и содержат некоторую подразумеваемую информацию из фотографий».

Хотя результаты проекта T2F Карневара не совсем фотореалистичны, это только начало. На приведенном выше видео показано, как GAN обучался рендерингу иллюстраций. от текста, начиная со сплошных цветных блоков и заканчивая грубыми, но узнаваемыми пикселями. рендеринги.

«Я обнаружил, что сгенерированные образцы с более высоким разрешением (32 x 32 и 64 x 64) содержат больше фонового шума по сравнению с сэмплами, созданными с более низким разрешением», — объясняет Карневар. «Я воспринимаю это из-за недостаточного количества данных (всего 400 изображений)».

Техника, используемая для обучения состязательных сетей, называется «Прогрессивное развитие GAN», что со временем улучшает качество и стабильность. Как видно из видео, генератор изображений запускается с крайне низкого разрешения. В модель постепенно вводятся новые слои, увеличивая детализацию по мере прохождения обучения.

«Прогрессивное выращивание GAN — это феноменальный метод более быстрого и стабильного обучения GAN», — добавляет он. «Это можно сочетать с различными новыми материалами из других статей».

В приведенном примере текстовое описание иллюстрирует женщину около 20 лет с длинными каштановыми волосами, зачесанными набок, нежными чертами лица и без макияжа. Она «непринужденная» и «расслабленная». Другое описание иллюстрирует мужчину лет 40 с вытянутым лицом, выдающимся носом, карими глазами, залысинами и короткими усами. Хотя конечные результаты чрезвычайно пикселизированы, окончательные рендеры демонстрируют значительный прогресс в том, как ИИ работает. может генерировать лица с нуля.

Карневар говорит, что планирует расширить проект, чтобы интегрировать дополнительные наборы данных, такие как подписи Flicker8K и Coco. В конечном итоге T2F можно будет использовать в правоохранительной сфере для идентификации жертв и/или преступников на основе текстовых описаний, среди других приложений. Он открыт для предложений и вклада в проект.

Чтобы получить доступ к коду и внести свой вклад, перейдите в репозиторий Карневара на Github здесь.

Программист научил искусственный интеллект рисовать лица по тексту

Рекомендации редакции

Категории

Недавний

Некоторые американские компании вскоре получат разрешение на продажу компании Huawei

PIQ объединяется с Rossignol для создания приложения для подключенных лыж

Нет никаких шансов, что Конгресс принудит к расшифровке телефона