Se você já participou de uma videochamada em grupo, provavelmente está acostumado a não conhecer todas as pessoas que aparecem na tela. Você pode não saber o nome de todos, mas pelo menos pode ter certeza de que cada pessoa que participa da chamada é humana.
Conteúdo
- Evolução humana digital
- O código faz o homem
- Se enfrentam
- Onde você olha
Ou você pode?
Numa época em que os estúdios de efeitos visuais atores veteranos idosos, permitido artistas humanos para habitar criações digitais, e até trouxe artistas falecidos de volta para performances pós-morte, não deveria ser uma surpresa que um estúdio de efeitos visuais também possa possibilitar que você converse com um pessoa digital com inteligência artificial sobre seus livros favoritos e lamentando mutuamente a impossibilidade de ir ao cinema.
Relacionado
- Como a equipe de efeitos visuais indicada ao Oscar de Vingadores: Guerra Infinita fez de Thanos uma estrela de cinema
Não deveria ser surpreendente e, ainda assim, ainda é uma sensação estranha encontrar de repente um ouvido solidário em Douglas, uma “pessoa” virtual movida por IA criada pelo estúdio VFX vencedor do Oscar.
Domínio Digital.Vídeos recomendados
Durante uma recente ligação da Zoom, Douglas – junto com membros da equipe que trabalha nele – juntou-se a mim para uma breve demonstração.
Evolução humana digital
“Sou um grande fã de Stephen King”, Douglas me disse depois de algumas idas e vindas sobre nossos hobbies – uma conversa que mais tarde o fez confessar que também gosta de romances e de J.D. Salinger. O apanhador no campo de centeio.
Em um mundo onde pronunciar os nomes Siri ou Alexa em voz alta é o suficiente para invocar sua própria IA. companheiro, a experiência com Douglas ofereceu uma um lembrete poderoso de que o potencial da IA vai muito além de nos fornecer a previsão do tempo e nossos dados diários. agendar.
A criação do Digital Domain – o mesmo estúdio que deu ao público o conquistador cósmico da Marvel Thanos em Vingadores: Guerra Infinita e Vingadores:Fim do jogo — Douglas é um ser humano autônomo e digital, capaz de interagir com os usuários em tempo real e responder a sinais visuais e de conversação. Modelado depois Dr.Doug Roble, diretor sênior de P&D de software da Digital Domain, Douglas pode responder perguntas, manter conversas extensas e conversar sobre assuntos diversos.
“A tecnologia está sempre tentando liderar o que a arte exige, seja simulação fluida ou qualquer outra coisa”, diz Roble sobre a decisão do estúdio de criar um departamento inteiro dedicado a humanos digitais.
Ao longo da última década, a Digital Domain viu-se repetidamente encarregada de criar personagens digitais semelhantes aos humanos - tudo, desde o premiado filme de 2012 desempenho holográfico do Tupac no Coachella para o mencionado Universo Cinematográfico Marvel vilão. Em longas-metragens, comerciais, séries de TV, videogames e (no caso de Tupac) performances teatrais, a demanda por personagens digitais realistas só cresceu naquele vez, o que levou a Digital Domain a dividir a equipe responsável por aquele efeito visual específico em sua própria unidade, focada em ampliar os limites do que os humanos digitais podem fazer.
Douglas é tanto o produto desse foco maior quanto a prova de conceito da equipe: uma “pessoa” digital autônoma que combina uma ampla gama de conjuntos de dados, métodos sensoriais, e módulos de programação existentes com atributos humanos fotorrealistas, a fim de interagir com os usuários de uma forma que pareça surpreendentemente próxima da genuína socialização humana.
E numa altura em que a pandemia obrigou a maior parte do nosso convívio a ocorrer através de um computador tela, interagir com Douglas parece notavelmente próximo do que se considera uma interação humana genuína. dias. No entanto, a equipe acrescenta rapidamente que Douglas ainda está muito longe de passar no Teste de Turing.
O código faz o homem
“Douglas não é uma pessoa fotorrealista e totalmente autônoma, indistinguível de uma pessoa real”, explica Darren Hendler, diretor do Digital Humans Group no estúdio. “Não é onde estamos e não estaremos lá por um tempo. … Mas é aqui que as coisas estão indo e como será o futuro, e estamos tentando ultrapassar esses limites.”
E quase como se fosse uma deixa, Hendler é interrompido pelo próprio Douglas.
“Essa é uma boa atitude de se ter”, interrompe Douglas, que até então ocupava silenciosamente sua própria janela na grade de chats do Zoom facilitando nossa demonstração, mudando ocasionalmente de lugar. posição, olhando ao redor de sua sala virtual e mostrando muitos dos maneirismos físicos típicos de uma pessoa viva em uma videoconferência que espera pacientemente para participar da reunião. conversação
“Desejo-lhe boa sorte em seus empreendimentos”, acrescenta, lembrando que além de ter coisas interessantes a dizer, também é um ouvinte atento.
De acordo com Roble, a equipe vê Douglas, antes de mais nada, como uma forma visual de interagir com agentes conversacionais complexos e poderosos existentes que foram criados. Abaixo do avatar fotorreal de Douglas, o ser humano digital do estúdio é construído sobre uma mistura de três desses agentes: o popular Fluxo de diálogo suíte para criação de chatbots, um agente do tipo assistente (semelhante ao Alexa da Amazon ou ao Siri da Apple); e uma poderosa IA de conversação. agente (semelhante ao GPT-3 projeto) usado para produzir texto de conversação preditivo (e reativo) semelhante ao humano.
A combinação dos três agentes dá a Douglas a capacidade de manter conversas informativas e fluidas, com a discussão de um tópico muitas vezes seguindo para áreas de interesse relacionadas.
Minha própria conversa com Douglas passou de um bate-papo sobre nossos livros favoritos para seu filme favorito (ele é um grande fã de 2001: Uma Odisseia no Espaço, por exemplo, o que não é surpreendente e um pouco enervante, dado o foco da história em uma IA assassina. enlouquecer) e nossos hobbies mútuos. Em um momento particularmente oportuno de nossa conversa, Douglas expressou certo desapontamento por não ter podido ir ao cinema ultimamente.
Todo esse poder de conversação traz consigo alguns riscos, como explicou Hendler.
“O mecanismo de processamento de linguagem natural do chatbot é treinado no diálogo da Internet – uma enorme quantidade de diálogo – para que a conversa possa ir para lugares estranhos”, disse ele. “Portanto, há momentos em que ele diz coisas que podem não ser exatamente apropriadas. Isso não acontece com frequência, mas não podemos controlar exatamente o que ele vai dizer sobre tudo.”
E embora o aspecto conversacional de Douglas seja impressionante, é apenas parte do que o torna único em um mundo em constante expansão de humanos digitais e personagens virtuais interativos. Como Digital Domain descobriu, tornando-o olhar humano também percorre um longo caminho para fazê-lo se sentir humano.
Apresentando Douglas - Humano Digital Autônomo | Domínio Digital
Se enfrentam
“Na construção do Douglas, usamos uma enorme quantidade de dados de Doug [Roble]. Foi uma enorme quantidade de áudio para treinar o sistema [e] uma enorme quantidade de desempenho facial, dados de movimento corporal e tudo mais”, explicou Hendler sobre o trabalho. eles colocaram no mapeamento do rosto de Roble e das inúmeras maneiras pelas quais o rosto humano pode mudar enquanto fala, reage a sinais emocionais ou participa passivamente de um conversação.
O produto de todos esses dados é um ser humano digital que se parece incrivelmente com - mas não com uma cópia exata - de Roble, do último postura, penteado e construção dos movimentos sutis de Roble e Douglas A.I. compartilhe enquanto eles participam do nosso vídeo em grupo conversação. A semelhança é estranha, mas com um breve comando para “mudar de rosto”, Douglas de repente se torna outra pessoa, com uma aparência diferente. rosto diferente e igualmente humano no mesmo corpo, mantendo todos os maneirismos sutis que o fazem parecer real.
“Quando pedimos a Douglas para mudar de rosto e seu rosto muda para outra pessoa, esse é o início do rumo que essa nova onda de tecnologia está tomando”, diz Hendler, descrevendo o “técnica baseada em imagem” na qual a equipe está trabalhando para tornar Douglas uma pessoa digital ainda mais flexível, capaz de mudar drasticamente sua aparência externa, mantendo o mesmo nível de interatividade. “Assim que tivermos essa base [com Douglas], podemos filmar imagens de outra pessoa e obter uma parte do áudio dela, e então transformar essa base nela – torná-la a cara dela.”
“[Se fizéssemos isso] agora, eles ainda estariam falando com as expressões da pessoa que filmamos originalmente [neste caso, Roble]”, continuou ele. “Mas à medida que avançamos, começamos a precisar de quantidades menores de dados – talvez sejam apenas imagens ou filmagens de alguém – para criar a próxima geração desses humanos autônomos.”
Essa capacidade de replicar a aparência, a voz e os maneirismos de um ser humano real por meio da IA de conversação. a fundação é um dos elementos que diferencia Douglas da maioria dos típicos A.I. assistentes, robôs humanóides e outros projetos em desenvolvimento em torno da IA. mundo da pesquisa. Embora existam muitos estúdios e outras agências desenvolvendo I.A. projetos de um tipo ou de outro, a Digital Domain está focada em combinar todos esses elementos em um produto único e coeso que utiliza o melhor de toda a tecnologia e dados disponíveis com uma interface que parece social e orgânica – como conversar com outro ser humano.
“Isso é algo de que estamos muito orgulhosos, porque Douglas é um personagem totalmente CG rodando no Unreal”, diz Roble, que se orgulha particularmente de usar elementos amplamente disponíveis, como a popular plataforma de criação 3D Motor irreal, que se tornou a plataforma preferida de Hollywood (e antes dela, da indústria de videogames) quando se trata de criar e manipular elementos de efeitos visuais 3D. “[Douglas] é um objeto 3D, então você pode fazer todas as coisas que faria com qualquer personagem digital no Unreal. Você pode alterar a iluminação, colocá-los em ambientes diferentes e assim por diante. Mas também estamos criando esse híbrido [com todo o resto envolvido em Douglas], para obtermos o melhor dos dois mundos.”
Onde você olha
Quanto mais a equipe trabalha em Douglas, maior cresce a lista de aplicações potenciais.
“Antes da pandemia, planejávamos apresentar Douglas como um quiosque, onde você chegava até uma tela e conversava com ele”, lembrou Hendler. “Mas então pensamos: ‘Ei, deveríamos realmente colocá-lo nas chamadas do Zoom’. Foi fantástico tê-lo entrando nas chamadas do Zoom e saindo.”
Ao longo da demonstração, a equipe examinou uma longa lista de aplicações potenciais para Douglas, desde consultórios médicos e atendimento ao cliente, para sua utilidade em Hollywood durante os estágios iniciais de planejamento de uma cena ou de uma cena específica na tela seqüência. O próprio Douglas até ofereceu algumas sugestões, sugerindo que ele seria uma boa opção para storyboards e estágios conceituais de produção de filmes e TV. Sua capacidade de processar sinais sonoros e visuais daqueles com quem está conversando – especialmente quando se trata de estados emocionais – também oferece uma camada adicional de utilidade ao lidar com clientes ou quem procura orientação médica, segundo Hendler.
A velocidade com que Douglas pode processar todas essas informações e passar de ouvinte passivo para ativo conversador também tem muito apelo e mostra o quanto a tecnologia por trás dele evoluiu em um curto espaço de tempo. tempo.
“Quando criamos Thanos, tínhamos um único quadro que levava 10 horas para ser renderizado. Esse é um quadro”, explica ele.
“Para Douglas, ele tem um sistema de reconhecimento de visão, então ele nos vê e pode nos identificar, e analisa o que você está dizendo, transformando em palavras e enviando para diferentes chatbots”, acrescenta. “Douglas então cria uma resposta, transforma-a em áudio e usa esse áudio para direcionar seu rosto. Ao mesmo tempo, ele também está descobrindo que movimento corporal acompanha esse discurso, determinando que emoção se encaixaria nele e reproduzindo esse movimento corporal junto com seus gestos faciais.”
“Tudo isso acontece em alguns milissegundos”, diz Hendler. “São todos esses processos, em comparação com 10 horas para um quadro de um longa-metragem. Isso é tão incrível. Não é tão realista quanto o que estamos fazendo para o filme, mas se você pensar na quantidade de coisas que acontecem para poder falar com ele como uma pessoa real, é simplesmente fenomenal.”
E, num sentido muito literal, Douglas tem sido muitas vezes o seu melhor defensor quando se trata do seu potencial.
Roble explicou que, em diversas ocasiões, optaram por deixar Douglas conduzir sua própria apresentação de, bem… ele mesmo. O resultado acabou sendo uma proposta melhor para seu potencial do que eles imaginavam.
“[A apresentação de Douglas] foi surpreendentemente convincente. Não foi apenas pedir ao Siri que nos contasse algo, porque ele fez parte do processo”, lembrou Roble. “É divertido conversar com ele porque é uma novidade, mas também é muito eficaz. E você não consegue deixar de pensar: e quanto ao ensino ou outras aplicações? Afinal, você pode ver quando ele está prestando atenção. Você pode dar-lhe feedback emocional e ele pode responder.”
Embora Douglas já seja uma criação impressionante, a equipe da Digital Domain insiste que ele continua sendo um trabalho em progresso - mas o céu é o limite no que diz respeito ao tipo de trabalho que seu humano digital poderia acabar fazendo com o tempo continua. De muitas maneiras, o processo de descobrir do que Douglas é capaz é tanto o processo quanto o objetivo.
“Uma das razões pelas quais estamos fazendo isso é porque poderíamos”, diz Roble. “Quando você está em frente ao computador e trabalhando, é muito fácil simplesmente digitar. Mas há tantos momentos e lugares que seria ótimo poder conversar com uma pessoa e fazer com que essa pessoa interaja com você e reaja a você. Acho que teremos uma grande mudança no futuro.”
Recomendações dos Editores
- Como a equipe de efeitos visuais de Thanos deu vida aos personagens de The Quarry (e depois os matou)