Veritone wil je stem deepfaken

Er is een video die regelmatig opduikt op mijn YouTube-feed. Het is een gesprek tussen rappers Snoop Dogg en 50 Cent waarin ze zich beklagen over het feit dat alle moderne hiphopartiesten, vergeleken met hun generatie, blijkbaar hetzelfde klinken. “Als iemand besluit zichzelf te zijn, biedt hij iets wat niemand anders kan zijn”, zegt 50 Cent. 'Ja, want als je eenmaal jezelf bent, wie kan jij dan zijn behalve jij?' Snoop reageert.

Inhoud

“We kunnen veel hergebruiken”
Hoe zal het publiek reageren?
Denk aan de toekomst

Snoop Dogg imiteert de soundalike flow van hedendaagse rappers

Toen de video in oktober 2014 werd geüpload, was dat in grote lijnen misschien waar. Maar een paar jaar later is dat zeker niet het geval. In een wereld van audio-deepfakes is het mogelijk om een A.I. om griezelig veel op een andere persoon te lijken door hem een audiocorpus te geven dat bestaat uit uren gesproken gegevens. De resultaten zijn zenuwslopend accuraat.

Aanbevolen video's

Publieke figuren als de rapper Jay-Z

en de psycholoog Jordan Peterson hebben al geklaagd over mensen die zich hun stem onrechtmatig toe-eigenen door deepfakes van audio te maken en hen vervolgens gekke dingen te laten zeggen op internet. "Wakker worden," schreef Peterson. “De heiligheid van uw stem en uw imago lopen ernstig gevaar.” Dat zijn slechts de schandalige gevallen. In andere gevallen kunnen de resultaten omslaan in ongenuanceerde criminaliteit. In één incident uit 2019, gebruikten criminelen een audio-deepfake om de stem van de CEO van een energiebedrijf na te bootsen en een ondergeschikte via de telefoon te overtuigen om dringend 243.000 dollar naar een bankrekening over te maken.

Veritone, een A.I. bedrijf dat slimme tools maakt voor het labelen van media voor de entertainmentindustrie de audio-deepfake-macht terug in de handen leggen (of, eh, in de keel) van degenen voor wie het terecht is behoort. Dit maakte het bedrijf deze maand bekend Marvel.ai, wat bedrijfsvoorzitter Ryan Steelberg tegen Digital Trends omschreef als een ‘complete voice-as-a-service-oplossing’. Tegen betaling bouwt Veritone een A.I. modelleer dat klinkt precies als jij (of, waarschijnlijker, een beroemd persoon met een onmiddellijk herkenbare stem), die vervolgens in licentie kan worden uitgeleend als een hightech versie van Ariel's stem-als-onderpand-koopje van De kleine Zeemeermin.

Synthetische stem van MARVEL.ai

“Je stem is net zo waardevol als elk ander inhouds- of merkkenmerk dat je hebt”, aldus Steelberg. "[Het staat op een niveau met] je naam en beeltenis, je gezicht, je handtekening of een nummer dat je hebt geschreven of een stukje inhoud dat je hebt gemaakt."

“We kunnen veel hergebruiken”

Bepaalde individuen hebben hun stem natuurlijk al lang verkocht in de vorm van het opnemen van reclamespots of voice-overs, het zingen van liedjes en talloze andere vormen van inkomsten genereren. Maar deze inspanningen vereisten allemaal dat de persoon de woorden daadwerkelijk uitsprak. Wat de oplossing van Veritone belooft te doen, is dit individueel schaalbaar te maken.

Wat als het bijvoorbeeld mogelijk zou zijn voor Kevin Hart om zijn stem in licentie te geven aan een luxe merk, dat deze vervolgens zou kunnen gebruiken om gepersonaliseerde advertenties te maken? met de naam van de kijker, de locatie van het dichtstbijzijnde fysieke verkooppunt en het specifieke product waar de kijker het meeste kans op heeft kopen? In plaats van letterlijk dagen in de opnamecabine door te brengen, heeft A.I. zou dit mogelijk kunnen maken met weinig meer (op Hart's deel, tenminste) dan op de stippellijn te tekenen om ermee in te stemmen dat zijn stemgelijkenis door de derde wordt benut feest. Terwijl hij een film aan het opnemen was, een comedytour deed, op vakantie ging of zelfs maar sliep, kon zijn digitale stem het geld binnenhalen.

“We kunnen veel hergebruiken”, legt Steelberg uit over het trainingsproces. “Mensen die al veel aan het woord zijn, of ze nu een podcast produceren of in de media zijn, er zijn veel gegevens beschikbaar. Als ze een klant van ons zijn, hebben we er waarschijnlijk al een heleboel.”

“Wat we zo fascinerend vinden aan deze nieuwe categorie van A.I. is de uitbreidbaarheid en de variabiliteit.”

Steelberg zei dat het voice-as-a-service-idee enkele jaren geleden bij Veritone opkwam. Destijds was hij er echter niet van overtuigd dat machine learning-modellen in staat waren de hyperrealistische synthetische stemmen te creëren waarnaar hij op zoek was. Dit is vooral belangrijk als het gaat om stemmen die we goed kennen, ook al hebben we de spreker in kwestie nog nooit ontmoet. De resultaten kunnen een soort van zijn hoorbaar griezelige vallei, waarbij elk verkeerd geluid de luisteraars waarschuwt voor het feit dat ze naar nep luisteren. Maar hier in 2021 is hij ervan overtuigd dat de zaken zover zijn gevorderd dat dit nu mogelijk is. Vandaar Marvel.ai.

Steelberg spreekt met opgewonden buzzwords over het enorme potentieel van de technologie en spreekt over de mogelijke overvloed aan ‘uitvoeringsmodaliteiten’. Veritone kan modellen maken voor tekst-naar-spraak. Het kan ook modellen bouwen voor spraak-naar-spraak, waarbij een stemacteur een vocale uitvoering kan ‘sturen’ door te lezen de woorden met de juiste verbuiging en vervolgens met de voltooide stem aan het einde als een Snapchat filter. Het bedrijf kan ook van elke stem een vingerafdruk maken, zodat het kan zien of een stukje schijnbaar echte audio dat ergens opduikt, met behulp van zijn technologie is gemaakt.

“Hoe meer je erover nadenkt… je zult letterlijk nog 50 andere [mogelijke gebruiksscenario’s] bedenken,” zei hij. “Wat we zo fascinerend vinden aan deze nieuwe categorie van A.I. is de uitbreidbaarheid en de variabiliteit.”

Overweeg enkele anderen. Een beroemde atleet is misschien een god op het basketbalveld, maar een duivel als het erop aankomt regels in een script lezen op een manier die natuurlijk klinkt. Met behulp van de technologie van Veritone, hun rol in tussenfilmpjes van videogames of het lezen van een audioboek met hun memoires (die ze misschien ook niet geschreven) zou kunnen worden uitgevoerd door een stemacteur, die vervolgens digitaal wordt aangepast om te klinken als de atleet. Als andere mogelijkheid zou een film voor andere landen kunnen worden vertaald, waarbij dezelfde acteursstem nu de film voorleest regels in het Frans, Mandarijn of een andere taal, zelfs als de acteur niet echt spreekt hen.

Hoe zal het publiek reageren?

Een grote vraag die boven dit alles hangt, is natuurlijk hoe het publiek hierop zal reageren. Dit is het lastige, onvoorspelbare deel. Beroemdheden moeten tegenwoordig een complexe rol spelen: zowel levensgrote figuren die het waard zijn om met hun gezicht op reclameborden te worden gepleisterd, als herkenbare individuen die relatieproblemen hebben, tweeten over tv kijken in hun pyjama en gekke gezichten trekken als ze warm eten saus.

Wat gebeurt er dan als er advertenties verschijnen die niet alleen leesregels van beroemdheden bevatten, maar ook in gevallen waarin we weten dat dit gezegd is De artiest heeft deze regels nooit daadwerkelijk uitgesproken, maar heeft hun stem eerder programmatisch gebruikt om ons een doelwit te bezorgen advertentie? Steelberg zei dat het weinig anders is dan een beroemdheid die de controle over hun sociale media overdraagt aan een externe accountmanager. Als we Taylor Swift zien tweeten, weten we dat het hoogstwaarschijnlijk niet Taylor zelf is die de boodschap uitspreekt, vooral als het een goedkeuring of een stukje promotionele inhoud is.

Maar stem is op een heel reële manier anders, juist omdat het persoonlijker is. Vooral als het gepaard gaat met een zekere mate van personalisatie, wat een van de gebruiksscenario’s is die het meest logisch is. De waarheid is dat, om scenarioschrijver William Goldman te citeren, niemand weet wat de publieke reactie zal zijn – juist omdat niemand precies dit eerder heeft gedaan.

"Het gaat het hele spectrum bestrijken, toch?" zei Steelberg. “[Sommige] mensen zullen zeggen: ‘Ik ga deze tool een beetje gebruiken om mijn dag te vergroten en me te helpen tijd te besparen.’ Anderen zullen ronduit zeggen: ‘Ik wil dat mijn stem overal mijn merk uitbreidt, en ik ga er een licentie voor geven. uit.'"

Zijn beste inschatting is dat acceptatie van geval tot geval zal gebeuren. “Je moet rekening houden met de reactie van je publiek en zien of dingen werken of niet werken”, zei hij. “Misschien vinden ze het geweldig. Ze zeggen misschien: ‘Weet je wat? Ik vind het geweldig dat je tien keer meer inhoud of meer persoonlijke inhoud naar mij stuurt, ook al weet ik dat je synthetische inhoud hebt gebruikt om deze te vergroten. Bedankt. Bedankt.'"

Denk aan de toekomst

Wat betreft de toekomst? Steelberg zei: “We willen samenwerken met alle grote talentenbureaus. Wij vinden dat iedereen die geld wil verdienen met een schaars merk, moet nadenken over zijn stemstrategie.”

En verwacht ook niet dat het puur om audio blijft. “We zijn altijd gefascineerd geweest door het potentieel van het gebruik van synthetische inhoud om enkele van de bestaande vormen van inhoudproductie uit te breiden, aan te vullen of mogelijk volledig te vervangen”, vervolgde hij. “Of dat nu in audio zin is of, uiteindelijk in de toekomst, a video-gevoel.”

Dat klopt: zodra het de markt in de wereld van audio-deepfakes in het nauw heeft gedreven, is Veritone van plan nog een stap verder te gaan en de wereld van audio-deepfakes te betreden. volledig gerealiseerde virtuele avatars die zowel klinken als niet te onderscheiden zijn van hun bron.

Opeens die gepersonaliseerde advertenties van Minderheidsverslag klinkt een stuk minder als sciencefiction.

Aanbevelingen van de redactie

Tech For Change CES 2023 Awards van Digital Trends
Binnen de snel escalerende oorlog tussen deepfakes en deepfake-detectoren
Alexa en Siri kunnen de toon van je stem niet verstaan, maar Oto wel
Californië treedt hard op tegen deepfakes voor politiek en porno
Blijf online anoniem met deepfake-technologie die een geheel nieuw gezicht voor u genereert