Veritone quer clonar sua voz profundamente

Há um vídeo que aparece periodicamente no meu feed do YouTube. É uma conversa entre os rappers Snoop Dogg e 50 Cent lamentando o fato de que, em comparação com sua geração, todos os artistas modernos de hip-hop aparentemente soam iguais. “Quando uma pessoa decide ser ela mesma, ela oferece algo que ninguém mais pode ser”, diz 50 Cent. "Sim, porque uma vez que você seja você - quem pode ser você além de você?" Snoop responde.

Conteúdo

  • “Podemos reaproveitar muita coisa”
  • Como o público reagirá?
  • Pensar sobre o futuro

Snoop Dogg personifica o fluxo semelhante ao som dos rappers de hoje

Quando o vídeo foi carregado em outubro de 2014, isso pode ter sido verdade. Mas apenas alguns anos depois certamente não é. Em um mundo de deepfakes de áudio, é possível treinar uma IA. soar estranhamente semelhante a outra pessoa, alimentando-a com um corpus de áudio que consiste em horas de seus dados falados. Os resultados são irritantemente preciso.

Vídeos recomendados

Figuras públicas como o rapper Jay-Z e o psicólogo Jordan Peterson já reclamaram de pessoas que se apropriam indevidamente de suas vozes, criando deepfakes de áudio e depois fazendo-as dizer coisas bobas na internet. "Acordar,"

escreveu Peterson. “A santidade da sua voz e da sua imagem está em sério risco.” Esses são apenas os casos maliciosos. Noutros, os resultados podem descambar para uma criminalidade sem nuances. Em um incidente em 2019, os criminosos usaram um áudio deepfake para se passar pela voz do CEO de uma empresa de energia e persuadir um subalterno por telefone a transferir urgentemente US$ 243 mil para uma conta bancária.

Veritone, um I.A. empresa que cria ferramentas inteligentes para rotular mídia para a indústria do entretenimento, é colocar o poder do deepfake de áudio de volta nas mãos (ou, err, nas gargantas) daqueles a quem ele corretamente pertence. Este mês, a empresa anunciou Marvel.ai, o que o presidente da empresa, Ryan Steelberg, descreveu à Digital Trends como uma “solução completa de voz como serviço”. Por uma taxa, a Veritone construirá um I.A. modelo que soa exatamente como você (ou, mais provavelmente, uma pessoa famosa com uma voz imediatamente reconhecível), que pode então ser licenciada por empréstimo como uma versão de alta tecnologia do Ariel barganha de voz como garantia de A pequena Sereia.

Voz Sintética por MARVEL.ai

“Sua voz é tão valiosa quanto qualquer outro conteúdo ou atributo de marca que você possui”, disse Steelberg. “[Está no mesmo nível] do seu nome e imagem, do seu rosto, da sua assinatura ou de uma música que você escreveu ou de um conteúdo que você criou.”

“Podemos reaproveitar muita coisa”

É claro que certos indivíduos há muito vendem suas vozes na forma de gravação de comerciais ou dublagens, cantando músicas e inúmeras outras formas de monetização. Mas todos esses esforços exigiam que a pessoa realmente dissesse as palavras. O que a solução da Veritone promete fazer é tornar isso individualmente escalonável.

E se, por exemplo, fosse possível para Kevin Hart licenciar sua voz para uma marca de luxo que pudesse usá-la para criar anúncios personalizados? apresentando o nome do espectador, a localização do ponto de venda físico mais próximo e o produto específico que ele provavelmente compraria comprar? Em vez de passar literalmente dias na cabine de gravação, A.I. poderia permitir que isso fosse feito com pouco mais (em A parte de Hart, pelo menos) do que assinar na linha pontilhada para concordar que sua semelhança de voz seja aproveitada pelo referido terceiro festa. Enquanto ele estava gravando um filme, fazendo uma turnê de comédia, tirando férias ou até dormindo, sua voz digital poderia estar ganhando dinheiro.

“Podemos reaproveitar muita coisa”, explicou Steelberg, a respeito do processo de treinamento. “Gente que já fala muito, seja produzindo um podcast ou na mídia, tem muitos dados por aí. Provavelmente já temos uma tonelada disso, se eles forem nossos clientes.

“O que achamos tão fascinante nesta nova categoria de I.A. é a extensibilidade e a variabilidade.”

Steelberg disse que a ideia da voz como serviço ocorreu à Veritone há vários anos. No entanto, na época ele não estava convencido de que os modelos de aprendizado de máquina fossem capazes de criar as vozes sintéticas hiper-realistas que ele procurava. Isto é especialmente importante quando se trata de vozes que conhecemos intimamente, mesmo que nunca tenhamos conhecido o orador em questão. Os resultados podem ser algum tipo de audível vale misterioso, com cada som errado alertando os ouvintes para o fato de que estão ouvindo uma farsa. Mas aqui em 2021 ele está convencido de que as coisas avançaram ao ponto em que isso agora é possível. Daí Marvel.ai.

Steelberg fala com entusiasmo sobre o enorme potencial da tecnologia, falando sobre sua possível infinidade de “modalidades de execução”. Veritone pode criar modelos para conversão de texto em fala. Ele também pode construir modelos de fala para fala, por meio dos quais um dublador pode “conduzir” uma performance vocal lendo as palavras com inflexão adequada e depois ter a voz finalizada sobreposta no final como um Snapchat filtro. A empresa também pode imprimir impressões digitais de cada voz para saber se um trecho de áudio aparentemente real que aparece em algum lugar foi criado usando sua tecnologia.

“Quanto mais você pensa sobre isso… você literalmente encontrará mais 50 [possíveis casos de uso]”, disse ele. “O que achamos tão fascinante nesta nova categoria de I.A. é a extensibilidade e a variabilidade.”

Considere alguns outros. Um atleta famoso pode ser um deus na quadra de basquete, mas um demônio quando se trata de ler linhas de um roteiro de uma forma que pareça natural. Usando a tecnologia da Veritone, sua participação em cenas de videogame ou na leitura de um audiolivro de suas memórias (que eles também pode não ter escrito) poderia ser interpretado por um dublador, que é então ajustado digitalmente para soar como o atleta. Como outra possibilidade, um filme poderia ser traduzido para outros países com a mesma voz do ator que agora lê o falas em francês, mandarim ou qualquer outro idioma, mesmo que o ator não fale realmente eles.

Como o público reagirá?

Uma grande questão que paira sobre tudo isso, é claro, é como o público reagirá a tudo isso. Esta é a parte complicada e imprevisível. As celebridades de hoje devem desempenhar um papel complexo: tanto figuras grandiosas que merecem ter o rosto estampado em outdoors, como também indivíduos identificáveis ​​​​que têm problemas de relacionamento, tweetam sobre assistir TV de pijama e fazem caretas quando comem comida quente molho.

O que acontece, então, quando aparecem anúncios que não apenas apresentam falas de celebridades, mas também nos casos em que sabemos que isso foi dito O artista nunca disse essas falas, mas teve sua voz utilizada programaticamente para nos trazer um alvo direcionado de Anúncios? Steelberg disse que é um pouco diferente de uma celebridade entregar o controle de suas redes sociais a um gerente de contas terceirizado. Se virmos o tweet de Taylor Swift, sabemos que possivelmente não é a própria Taylor que está divulgando a mensagem, especialmente se for um endosso ou conteúdo promocional.

Mas a voz é, de uma forma muito real, diferente, precisamente porque é mais pessoal. Principalmente se vier acompanhado de um certo grau de personalização, que é um dos casos de uso que faz mais sentido. A verdade é que, para citar o argumentista William Goldman, ninguém sabe qual será a resposta do público – precisamente porque ninguém fez exactamente isto antes.

“Isso vai percorrer todo o espectro, certo?” Steelberg disse. “[Algumas] pessoas dirão: ‘Vou usar essa ferramenta um pouco para aumentar meu dia e me ajudar a economizar tempo’. Outros dirão: ‘Quero que minha voz se estenda em todos os lugares para estender minha marca e vou licenciá-la fora.'"

Seu melhor palpite é que a aceitação ocorrerá caso a caso. “Você precisa estar em sintonia com a reação do seu público e se você vê que as coisas estão funcionando ou não”, disse ele. “Eles podem adorar. Eles podem dizer: ‘Quer saber? Adoro o fato de você estar disponibilizando 10 vezes mais conteúdo ou mais conteúdo pessoal para mim, embora eu saiba que você usou conteúdo sintético para aumentá-lo. Obrigado. Obrigado.'"

Pensar sobre o futuro

Veritone MARVEL.ai
Veritone

Quanto ao futuro? Steelberg disse que “Queremos trabalhar com todas as principais agências de talentos. Achamos que qualquer pessoa que esteja no negócio de ganhar dinheiro com uma marca escassa deveria pensar em sua estratégia de voz.”

E também não espere que se trate apenas de áudio. “Sempre fomos fascinados pelo potencial do uso de conteúdo sintético para estender, aumentar ou potencialmente substituir completamente algumas das formas legadas de produção de conteúdo”, continuou ele. “Seja no sentido de áudio ou, em última análise, no futuro, um sentido de vídeo.”

É isso mesmo: depois de dominar o mercado no mundo dos deepfakes de áudio, a Veritone planeja dar um passo adiante e entrar no mundo dos avatares virtuais totalmente realizados que soam e parecem indistinguíveis de sua fonte.

De repente aqueles anúncios personalizados de Relatório Minoritário soa muito menos como ficção científica.

Recomendações dos Editores

  • Prêmio Tech For Change CES 2023 da Digital Trends
  • Por dentro da guerra cada vez maior entre deepfakes e detectores de deepfake
  • Alexa e Siri não conseguem entender o tom da sua voz, mas Oto consegue
  • A Califórnia está reprimindo deepfakes para política e pornografia
  • Mantenha o anonimato online com tecnologia deepfake que gera uma cara totalmente nova para você