Veritone veut cloner profondément votre voix

Il y a un vidéo qui apparaît périodiquement sur mon flux YouTube. Il s’agit d’une conversation entre les rappeurs Snoop Dogg et 50 Cent déplorant le fait que, par rapport à leur génération, tous les artistes hip-hop modernes sonnent apparemment de la même manière. "Quand une personne décide d'être elle-même, elle offre quelque chose que personne d'autre ne peut être", explique 50 Cent. "Ouais, parce qu'une fois que tu es toi, qui peut être toi à part toi ?" Snoop répond.

Contenu

  • « On peut réutiliser beaucoup de choses »
  • Comment le public va-t-il réagir ?
  • Pense au futur

Snoop Dogg se fait passer pour le flux sonore des rappeurs d'aujourd'hui

Lorsque la vidéo a été mise en ligne en octobre 2014, cela était peut-être largement vrai. Mais quelques années plus tard, ce n’est certainement pas le cas. Dans un monde de deepfakes audio, il est possible de former une IA. pour ressembler étrangement à une autre personne en lui fournissant un corpus audio composé d'heures de données parlées. Les résultats sont d'une précision déconcertante.

Vidéos recommandées

Des personnalités publiques comme le rappeur Jay-Z et le psychologue Jordan Peterson se sont déjà plaints de personnes détournant leur voix en créant des deepfakes audio puis en leur faisant dire des bêtises sur Internet. "Réveillez-vous," a écrit Peterson. « Le caractère sacré de votre voix et de votre image est sérieusement menacé. » Ce ne sont que des cas espiègles. Dans d’autres, les résultats peuvent basculer vers une criminalité sans nuance. Dans un incident en 2019, des criminels ont utilisé un deepfake audio pour usurper l'identité du PDG d'une société énergétique et persuader un subalterne par téléphone de transférer de toute urgence 243 000 $ sur un compte bancaire.

Veritone, une IA. entreprise qui crée des outils intelligents pour l'étiquetage des médias pour l'industrie du divertissement, est remettre le pouvoir du deepfake audio entre les mains (ou, euh, la gorge) de ceux à qui il a à juste titre fait parti. Ce mois-ci, la société a annoncé Marvel.ai, ce que le président de l'entreprise, Ryan Steelberg, a décrit à Digital Trends comme une « solution complète de voix en tant que service ». Moyennant des frais, Veritone construira un système d'IA. modèle qui ressemble exactement à vous (ou, plus probablement, à une personne célèbre avec une voix immédiatement reconnaissable), qui peut ensuite être prêtée sous licence comme une version high-tech de celle d'Ariel négociation de voix en tant que garantie depuis La petite Sirène.

Voix synthétique par MARVEL.ai

"Votre voix est tout aussi précieuse que tout autre contenu ou attribut de marque que vous possédez", a déclaré Steelberg. "[C'est au niveau de] votre nom et votre image, votre visage, votre signature ou une chanson que vous avez écrite ou un élément de contenu que vous avez créé."

« On peut réutiliser beaucoup de choses »

Bien entendu, certaines personnes vendent depuis longtemps leur voix sous la forme d’enregistrements publicitaires ou de voix off, de chants de chansons et d’innombrables autres formes de monétisation. Mais ces efforts exigeaient tous que la personne prononce réellement les mots. Ce que la solution de Veritone promet de faire, c’est de rendre cela évolutif individuellement.

Et si, par exemple, il était possible pour Kevin Hart de céder sa voix à une marque de luxe qui pourrait ensuite l'utiliser pour créer des publicités personnalisées. comportant le nom du spectateur, l'emplacement du point de vente physique le plus proche et le produit particulier qu'il pourrait être le plus susceptible d'acheter acheter? Plutôt que de passer littéralement des jours dans la cabine d'enregistrement, A.I. pourrait permettre de faire cela avec un peu plus (sur Hart, au moins) que de signer sur la ligne pointillée pour accepter que sa voix soit exploitée par ledit tiers faire la fête. Pendant qu'il était en train de tourner un film, de faire une tournée de comédies, de prendre des vacances ou même de dormir, sa voix numérique pourrait rapporter de l'argent.

"Nous pouvons réutiliser beaucoup de choses", a expliqué Steelberg à propos du processus de formation. « Les gens qui parlent déjà beaucoup, qu’ils produisent un podcast ou dans les médias, il y a beaucoup de données disponibles. Nous en avons probablement déjà une tonne s’ils sont nos clients.

« Ce que nous trouvons si fascinant dans cette nouvelle catégorie d’IA. c’est l’extensibilité et la variabilité.

Steelberg a déclaré que l'idée de la voix en tant que service était venue à Veritone il y a plusieurs années. Cependant, à l’époque, il n’était pas convaincu que les modèles d’apprentissage automatique étaient capables de créer les voix synthétiques hyperréalistes qu’il recherchait. Ceci est particulièrement important lorsqu’il s’agit de voix que nous connaissons intimement, même si nous n’avons jamais rencontré l’orateur en question. Les résultats pourraient être une sorte de audible vallée étrange, où chaque son erroné alerte les auditeurs sur le fait qu’ils écoutent un faux. Mais ici, en 2021, il est convaincu que les choses ont avancé au point où cela est désormais possible. D'où Marvel.ai.

Steelberg parle avec des mots à la mode enthousiasmés du potentiel énorme de la technologie, évoquant sa possible pléthore de « modalités d’exécution ». Veritone peut créer des modèles de synthèse vocale. Il peut également créer des modèles de synthèse vocale, dans lesquels un acteur vocal peut « piloter » une performance vocale en lisant. les mots avec une inflexion appropriée, puis la voix finale est superposée à la fin comme un Snapchat filtre. La société peut également prendre les empreintes digitales de chaque voix afin de savoir si un morceau d'audio apparemment réel qui apparaît quelque part a été créé à l'aide de sa technologie.

« Plus vous y réfléchissez… vous en trouverez littéralement 50 autres [possible use-cases] », a-t-il déclaré. « Ce que nous trouvons si fascinant dans cette nouvelle catégorie d’IA. c’est l’extensibilité et la variabilité.

Considérez-en d’autres. Un athlète célèbre est peut-être un dieu sur le terrain de basket, mais un diable lorsqu'il s'agit de lire les lignes d'un script d'une manière qui semble naturelle. En utilisant la technologie de Veritone, leur participation à des cinématiques de jeux vidéo ou la lecture d'un livre audio de leurs mémoires (qu'ils ont n'a peut-être pas non plus écrit) pourrait être interprété par un doubleur, qui serait ensuite modifié numériquement pour ressembler au athlète. Comme autre possibilité, un film pourrait être traduit pour d'autres pays avec la même voix d'acteur lisant maintenant le des répliques en français, en mandarin ou dans toute autre langue parmi plusieurs, même si l'acteur ne parle pas réellement eux.

Comment le public va-t-il réagir ?

Une grande question qui plane sur tout cela, bien sûr, est de savoir comment les membres du public vont réagir à tout cela. C’est la partie délicate et imprévisible. Les célébrités d'aujourd'hui doivent jouer un rôle complexe: à la fois des personnages plus grands que nature, dignes d'avoir leur visage affiché sur des panneaux publicitaires, mais aussi des personnes comparables qui ont des problèmes relationnels, tweetent sur le fait de regarder la télévision en pyjama et font des grimaces lorsqu'elles mangent chaud sauce.

Que se passe-t-il alors lorsque des publicités apparaissent qui présentent non seulement des lignes de lecture de célébrités, mais dans les cas où nous savons que cela dit L'artiste n'a jamais réellement prononcé ces lignes, mais sa voix a plutôt été utilisée par programme pour nous apporter un message ciblé. annonce? Steelberg a déclaré que ce n'est pas très différent d'une célébrité qui confie le contrôle de ses médias sociaux à un gestionnaire de compte tiers. Si nous voyons le tweet de Taylor Swift, nous savons que ce n’est probablement pas Taylor elle-même qui transmet le message, surtout s’il s’agit d’une approbation ou d’un contenu promotionnel.

Mais la voix est bien réellement différente, précisément parce qu’elle est plus personnelle. Surtout si cela s’accompagne d’un certain degré de personnalisation, ce qui est l’un des cas d’utilisation les plus logiques. La vérité est que, pour citer le scénariste William Goldman, personne ne sait quelle sera la réaction du public – précisément parce que personne n’a fait exactement cela auparavant.

"Cela va parcourir tout le spectre, n'est-ce pas ?" » dit Steelberg. « [Certaines] personnes vont dire: « Je vais utiliser un peu cet outil pour augmenter ma journée et m'aider à gagner du temps. » D’autres diront, à part entière: « Je veux que ma voix partout étende ma marque, et je vais en accorder une licence ». dehors.'"

Sa meilleure hypothèse est que l’acceptation se fera au cas par cas. « Vous devez être à l’écoute de la réaction de votre public et savoir si vous voyez que les choses fonctionnent ou non », a-t-il déclaré. «Ils pourraient adorer ça. Ils peuvent dire: « Vous savez quoi? J'aime le fait que vous me proposez 10 fois plus de contenu ou plus de contenu personnel, même si je sais que vous avez utilisé du contenu synthétique pour l'augmenter. Merci. Merci.'"

Pense au futur

Veritone MARVEL.ai
Véritone

Quant à l'avenir? Steelberg a déclaré: « Nous voulons travailler avec toutes les principales agences artistiques. Nous pensons que quiconque cherche à gagner de l’argent avec une marque rare devrait réfléchir à sa stratégie vocale.

Et ne vous attendez pas non plus à ce que cela reste uniquement une question d’audio. « Nous avons toujours été fascinés par le potentiel d’utilisation du contenu synthétique pour étendre, augmenter ou potentiellement remplacer complètement certaines des formes traditionnelles de production de contenu », a-t-il poursuivi. « Que ce soit dans un sens audio ou, à terme, dans le futur, dans un sens vidéo.”

C’est vrai: une fois qu’il a accaparé le marché dans le monde des deepfakes audio, Veritone prévoit d’aller plus loin et d’entrer dans le monde des deepfakes audio. avatars virtuels entièrement réalisés qui sonnent et semblent impossibles à distinguer de leur source.

Soudain, ceux annonces personnalisées de Rapport minoritaire cela ressemble beaucoup moins à de la science-fiction.

Recommandations des rédacteurs

  • Prix ​​​​Tech For Change CES 2023 de Digital Trends
  • Dans la guerre qui s’intensifie rapidement entre les deepfakes et les détecteurs de deepfakes
  • Alexa et Siri ne peuvent pas comprendre le ton de votre voix, mais Oto le peut
  • La Californie sévit contre les deepfakes à des fins politiques et pornographiques
  • Restez anonyme en ligne grâce à la technologie deepfake qui génère un tout nouveau visage pour vous