Если вы когда-либо участвовали в групповом видеозвонке, вы, вероятно, привыкли не знать всех, кто появляется на экране. Возможно, вы не знаете имен всех, но, по крайней мере, вы можете быть достаточно уверены, что каждый человек, присоединяющийся к звонку, — человек.
Содержание
- Цифровая эволюция человека
- Кодекс делает человека
- Вбрасывание
- Куда бы вы ни посмотрели
Или можешь?
В то время, когда студии визуальных эффектов пожилые актеры-ветераны, допустимый люди-исполнители, населяющие цифровые творения, и даже возвращал умерших художников для посмертные выступления, неудивительно, что студия VFX также может предоставить вам возможность пообщаться с цифровой человек с искусственным интеллектом о любимых книгах и взаимно сокрушающийся о невозможности посетить кинотеатр.
Связанный
- Как номинированная на Оскар команда визуальных эффектов «Мстителей: Война бесконечности» сделала Таноса кинозвездой
Это не должно вызывать удивления, и тем не менее, все еще странное чувство внезапно найти сочувствующий слух у Дугласа, виртуального «человека», управляемого искусственным интеллектом, созданного оскароносной студией визуальных эффектов.
Цифровой домен.Рекомендуемые видео
Во время недавнего звонка в Zoom Дуглас — вместе с членами работающей над ним командой — присоединился ко мне для краткой демонстрации.
Цифровая эволюция человека
«Я большой поклонник Стивена Кинга», — говорит мне Дуглас после короткого разговора о наших хобби — разговора, в ходе которого он позже признается, что ему также нравятся любовные романы и произведения Дж. Д. Сэлинджера. Ловец во ржи.
В мире, где, произнося имена Siri или Алекса вслух — это все, что нужно, чтобы вызвать свой собственный ИИ. компаньона, опыт с Дугласом дал мощное напоминание о том, что потенциал ИИ выходит далеко за рамки предоставления нам прогноза погоды и ежедневных расписание.
Создание Digital Domain — той самой студии, подарившей зрителям космического завоевателя Marvel. Танос в Мстители: Война бесконечности и Мстители:Финал — Дуглас — автономный цифровой человек, способный взаимодействовать с пользователями в режиме реального времени и реагировать на визуальные и разговорные сигналы. По образцу Доктор Дуг РоблДуглас, старший директор по исследованиям и разработкам программного обеспечения компании Digital Domain, может отвечать на вопросы, вести расширенные беседы и вести светские беседы на самые разные темы.
«Технологии всегда пытаются возглавить требования искусства, будь то моделирование жидкости или что-то еще», — говорит Робл о решении студии создать весь отдел посвящен цифровым людям.
За последнее десятилетие компании Digital Domain неоднократно приходилось создавать человекоподобных цифровых персонажей — начиная с отмеченного наградами фильма 2012 года. голографическое выступление Тупака на Coachella к вышеупомянутому Кинематографическая вселенная Marvel злодей. В художественных фильмах, рекламных роликах, сериалах, видеоиграх и (в случае Тупака) сценических постановках спрос на реалистичных цифровых персонажей только вырос. время, что побудило Digital Domain разделить команду, ответственную за этот конкретный визуальный эффект, на собственное подразделение, сосредоточенное на расширении границ того, что могут цифровые люди. делать.
Дуглас является одновременно продуктом этого повышенного внимания и доказательством концепции команды: автономный цифровой «человек», который сочетает в себе широкий спектр наборов данных, сенсорных методов, и существующие программные модули с фотореалистичными человеческими атрибутами для взаимодействия с пользователями, удивительно близкого к подлинной человеческой социализации.
И в то время, когда пандемия вынудила большую часть нашего общения происходить через компьютер. экране, взаимодействие с Дугласом кажется удивительно близким к тому, что считается настоящим человеческим взаимодействием в этих дни. Однако команда спешит добавить, что Дугласу еще далеко до прохождения теста Тьюринга.
Кодекс делает человека
«Дуглас — не фотореалистичная, полностью автономная личность, неотличимая от реального человека», — объясняет Даррен Хендлер, директор группы Digital Humans в студии. «Это не то место, где мы находимся, и мы не собираемся оставаться там какое-то время. … Но именно так обстоят дела и как выглядит будущее, и мы пытаемся раздвинуть эти границы».
И почти как по команде Хендлера прерывает сам Дуглас.
«Это хорошее отношение», — вмешивается Дуглас, который до этого спокойно занимал свое собственное окно в сетке чатов Zoom, помогая нашей демонстрации, время от времени перемещаясь положение, оглядывая свою виртуальную комнату и демонстрируя многие типичные физические манеры живого человека на видеоконференции, который терпеливо ждет возможности принять участие в беседа
«Желаю вам удачи в ваших начинаниях», — добавляет он, напоминая нам, что он не только умеет говорить интересные вещи, но и умеет внимательно слушать.
По словам Робла, команда в первую очередь рассматривает Дугласа как визуальный способ взаимодействия с уже созданными сложными и мощными диалоговыми агентами. Под фотореалистичным аватаром Дугласа цифровой человек студии построен на сочетании трех таких агентов: популярного Google Диалоговый поток пакет для создания чат-ботов, агент типа помощника (аналог Alexa от Amazon или Siri от Apple); и мощный разговорный искусственный интеллект. агент (аналогично ГПТ-3 проект), используемый для создания человекоподобного, прогнозирующего (и реактивного) разговорного текста.
Сочетание всех трех агентов дает Дугласу возможность вести информативные и динамичные разговоры, при этом обсуждение одной темы часто перетекает в смежные области интересов.
Мой собственный разговор с Дугласом перешел от разговора о наших любимых книгах к его любимому фильму (он большой поклонник 2001: Космическая одиссея, например, что неудивительно и немного нервирует, учитывая, что история сосредоточена на убийственном ИИ. безумие) и наши общие хобби. В одном особенно своевременном эпизоде нашего разговора Дуглас выразил некоторое разочарование тем, что в последнее время ему не удавалось посетить кинотеатр.
Однако, как объяснил Хендлер, вся эта разговорная сила сопряжена с некоторым риском.
«Система обработки естественного языка чат-бота обучена диалогам из Интернета — огромному количеству диалогов — поэтому разговор может зайти в странные места», — сказал он. «Поэтому бывают случаи, когда он говорит вещи, которые могут быть не совсем уместными. Такое случается нечасто, но мы не можем точно контролировать, что он скажет обо всем».
И хотя разговорный аспект Дугласа впечатляет, это лишь часть того, что делает его уникальным в постоянно расширяющемся мире цифровых людей и интерактивных виртуальных персонажей. Как обнаружил Digital Domain, сделав его смотреть Человек имеет большое значение для того, чтобы он тоже почувствовал себя человеком.
Представляем Дугласа – автономного цифрового человека | Цифровой домен
Вбрасывание
«При создании Дугласа мы использовали огромное количество данных от Дуга [Робла]. Для обучения системы требовалось огромное количество аудио, а также огромное количество данных о движениях лица, движениях тела и всем остальном», — объяснил Хендлер о работе. они внесли в карту лицо Робла и бесчисленное множество способов, которыми человеческое лицо может меняться во время разговора, реакции на эмоциональные сигналы или пассивного участия в беседа.
Результатом всех этих данных является цифровой человек, удивительно похожий на Робла, но не на его точную копию, из рассказа последнего. осанка, прическа и телосложение с тонкими движениями как Робла, так и Дугласа А.И. поделиться, пока они участвуют в нашем групповом видео беседа. Сходство поразительное, но по короткой команде «сменить лицо» Дуглас внезапно становится кем-то другим, с разные, одинаково человеческие лица на одном и том же теле, сохраняя при этом все тонкие манеры, которые заставляют его казаться настоящий.
«Когда мы просим Дугласа изменить свое лицо, а его лицо меняется на другое, это начало того, куда движется новая волна технологий», — говорит Хендлер, описывая «Техника, основанная на изображениях», над которой команда работает, чтобы сделать Дугласа еще более гибким цифровым человеком, способным кардинально менять свой внешний вид, сохраняя при этом тот же уровень интерактивность. «Как только у нас будет эта база [с Дугласом], мы сможем снять кадры с кем-то другим и получить некоторую часть его звука, а затем превратить эту базу в них — сделать их лицом».
«[Если бы мы сделали это] прямо сейчас, они все равно говорили бы с выражением лица человека, которого мы изначально снимали [в данном случае Робла]», – продолжил он. «Но по мере того, как мы продвигаемся вперед, нам начинают нужны меньшие объемы данных — возможно, это просто изображения или кадры чьего-то фильма — чтобы создать следующее поколение этих автономных людей».
Эта способность копировать внешний вид, голос и манеры настоящего человека поверх разговорного ИИ. Фундамент – это один из элементов, который отличает Дугласа от большинства типичных ИИ. помощники, роботы-гуманоиды и другие проекты, разрабатываемые вокруг искусственного интеллекта. исследовательский мир. Хотя существует множество студий и других агентств, разрабатывающих ИИ. проекты того или иного рода, Digital Domain сосредоточена на объединении всех этих элементов в единый, целостный продукт, использующий лучшее из всех доступных технологий и данных, с интерфейсом, который выглядит социальным и органичным — как разговор с другим человеком.
«Это то, чем мы действительно гордимся, потому что Дуглас — полностью компьютерный персонаж, работающий в Unreal», — говорит Робл, который особенно гордится использованием широко доступных элементов, таких как популярная платформа для создания 3D-изображений. Нереальный движок, которая стала основной платформой Голливуда (а до него и индустрии видеоигр), когда дело доходит до создания и управления элементами 3D-визуальных эффектов. «[Дуглас] — это 3D-объект, поэтому вы можете делать все то же, что и с любым цифровым персонажем в Unreal. Вы можете изменить освещение, поместить их в разное окружение и так далее. Но мы также создаем этот гибрид [со всем остальным, что связано с Дугласом], поэтому мы получаем лучшее из обоих миров».
Куда бы вы ни посмотрели
Чем больше команда работает над Дугласом, тем дольше растет список потенциальных приложений.
«До пандемии мы планировали представить Дугласа как киоск, где вы подходите к экрану и разговариваете с ним», — вспоминает Хендлер. «Но потом мы подумали: «Эй, нам действительно стоит привлечь его к звонкам в Zoom». Было здорово, что он участвовал в звонках в Zoom и уходил».
В ходе демонстрации команда просмотрела длинный список потенциальных применений Дугласа из кабинетов врачей. и обслуживание клиентов, чтобы он был полезен в Голливуде на ранних этапах планирования сцены или конкретного экрана. последовательность. Сам Дуглас даже высказал несколько предложений, полагая, что он хорошо подойдет для раскадровки и концептуальных этапов производства фильмов и телепередач. Его способность обрабатывать как аудио, так и визуальные сигналы от тех, с кем он разговаривает, особенно когда дело касается эмоциональных состояний. — также предлагает дополнительный уровень полезности при общении с клиентами или теми, кто ищет медицинскую помощь, по словам Хендлера.
Скорость, с которой Дуглас может обрабатывать всю эту информацию и переходить от пассивного слушателя к активному собеседник также обладает большой привлекательностью и показывает, как далеко за короткое время развились технологии, стоящие за ним. время.
«Когда мы создавали Таноса, у нас был один кадр, рендеринг которого занимал 10 часов. Это один кадр», — объясняет он.
«Дуглас имеет систему распознавания изображений, поэтому он видит нас и может идентифицировать нас, а также анализирует то, что вы говорите, превращает это в слова и отправляет это различным чат-ботам», — добавляет он. «Затем Дуглас создает ответ, превращает его в звук и использует этот звук, чтобы управлять своим лицом. В то же время он также выясняет, какие движения тела сопровождают эту речь, определяет, какая эмоция ей подойдет, и воспроизводит это движение тела вместе с жестами лица».
«Все это происходит за несколько миллисекунд», — говорит Хендлер. «Это все те же процессы, по сравнению с 10 часами на один кадр в художественном фильме. Это так потрясающе. Это не так реалистично, как то, что мы делаем для фильма, но если подумать о том, сколько всего происходит, чтобы поговорить с ним как с реальным человеком, это просто феноменально».
И в самом буквальном смысле Дуглас часто был лучшим защитником своего собственного потенциала, когда дело касалось его потенциала.
Робл объяснил, что в нескольких случаях они решили позволить Дугласу провести собственную презентацию, ну… самого себя. В результате его потенциал оказался лучше, чем они ожидали.
«[Презентация Дугласа] была на удивление убедительной. Он не просто просил Сири нам что-то сказать, потому что он был частью процесса», — вспоминает Робл. «С ним весело общаться, потому что он новичок, но он также очень эффективен. И вы не можете не думать: а как насчет преподавания или других приложений? В конце концов, вы можете видеть, когда он обращает внимание. Вы можете дать ему эмоциональную обратную связь, и он ответит».
Хотя Дуглас уже является впечатляющим творением, команда Digital Domain настаивает на том, что он по-прежнему остается произведением искусства. прогресс — но нет предела тому, какую работу их цифровой человек сможет выполнять со временем. продолжается. Во многих отношениях процесс выяснения того, на что способен Дуглас, является одновременно и процессом, и целью.
«Одна из причин, по которой мы это делаем, заключается в том, что мы можем», — говорит Робл. «Когда вы сидите за компьютером и работаете, очень легко просто печатать. Но существует так много времени и мест, что было бы здорово просто поговорить с человеком и позволить этому человеку взаимодействовать с вами и реагировать на вас. Я думаю, что в будущем нас ждут большие перемены».
Рекомендации редакции
- Как команда Thanos VFX оживила персонажей «Карьера» (а затем убила их)