Програмист обучава изкуствен интелект да рисува лица от текст

Изтичане на времето за обучение на T2F

Програмистът Анимеш Карневар искаше да разбере как героите, описани в книгите, ще се появят в действителност, така че той се обърна към изкуствения интелект, за да види дали може правилно да представи тези измислени хора. Наречен T2F, изследователският проект използва генеративна конкурентна мрежа (GAN) за кодиране на текст и синтезиране на изображения на лица.

Просто казано, GAN се състои от две невронни мрежи, които спорят помежду си за постигане на най-добри резултати. Например, работата на мрежа № 1 е да заблуди мрежа № 2, за да повярва, че изобразеното изображение е истинска снимка, докато мрежа № 2 се стреми да докаже, че предполагаемата снимка е просто изобразено изображение. Този процес напред-назад прецизира процеса на рендиране, докато мрежа № 2 в крайна сметка бъде заблудена.

Препоръчани видеоклипове

Karnewar стартира проекта с помощта на a набор от данни, наречен Face2Text, предоставен от изследователи от университета в Копенхаген, който съдържа описания на естествен език за 400 произволни изображения.

„Описанията се почистват, за да се премахнат неохотни и неуместни надписи, предоставени за хората в изображенията“, пише той. „Някои от описанията не само описват чертите на лицето, но също така предоставят някаква подразбираща се информация от снимките.“

Въпреки че резултатите, произтичащи от проекта T2F на Karnewar, не са точно фотореалистични, това е начало. Видеото, вградено по-горе, показва изглед с изтичане на времето на това как GAN е обучен да изобразява илюстрации от текст, започвайки с плътни цветни блокове и завършвайки с груби, но разпознаваеми пиксели визуализации.

„Открих, че генерираните проби при по-високи разделителни способности (32 x 32 и 64 x 64) имат повече фонов шум в сравнение с пробите, генерирани при по-ниски разделителни способности“, обяснява Карневар. „Възприемам го поради недостатъчното количество данни (само 400 изображения).“

Техниката, използвана за обучение на враждебните мрежи, се нарича „Прогресивно нарастване на GAN”, което подобрява качеството и стабилността във времето. Както показва видеото, генераторът на изображения започва от изключително ниска резолюция. Новите слоеве се въвеждат бавно в модела, увеличавайки детайлите с напредването на обучението с течение на времето.

„Прогресивното отглеждане на GAN е феноменална техника за обучение на GAN по-бързо и по по-стабилен начин“, добавя той. „Това може да бъде съчетано с различни нови приноси от други статии.“

В предоставения пример текстовото описание илюстрира жена в края на 20-те с дълга кафява коса, прибрана на една страна, нежни черти на лицето и без грим. Тя е „небрежна“ и „спокойна“. Друго описание илюстрира мъж на около 40 години с издължено лице, изпъкнал нос, кафяви очи, релефна линия на косата и къси мустаци. Въпреки че крайните резултати са изключително пикселизирани, крайните рендери показват голям напредък в начина, по който A.I. може да генерира лица от нулата.

Karnewar казва, че планира да разшири проекта, за да интегрира допълнителни набори от данни като Flicker8K и Coco надписи. В крайна сметка T2F може да се използва в областта на правоприлагането за идентифициране на жертви и/или престъпници въз основа на текстови описания, наред с други приложения. Той е отворен за предложения и принос към проекта.

За да получите достъп до кода и да допринесете, отидете до хранилището на Karnewar в Github тук.

Препоръки на редакторите

  • Учените използват A.I. за създаване на изкуствен човешки генетичен код
  • Преразглеждане на възхода на AI: Докъде е стигнал изкуственият интелект от 2010 г. насам?
  • Intel и Facebook се обединяват, за да дадат на Cooper Lake тласък на изкуствения интелект

Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.