Veritone ønsker å Deepfake-klone stemmen din

Det er en video som dukker opp med jevne mellomrom på YouTube-feeden min. Det er en samtale mellom rapperne Snoop Dogg og 50 Cent som beklager det faktum at, sammenlignet med deres generasjon, høres alle moderne hiphop-artister tilsynelatende like ut. "Når en person bestemmer seg for å være seg selv, tilbyr de noe ingen andre kan være," sier 50 Cent. "Ja, for når du først er deg - hvem kan være deg uten deg?" Snoop svarer.

Innhold

«Vi kan ombruke mye»
Hvordan vil publikum reagere?
Tenk på fremtiden

Snoop Dogg etterligner dagens rappere en lyd-lignende flyt

Da videoen ble lastet opp i oktober 2014, kan det stort sett ha vært sant. Men bare noen år senere er det absolutt ikke det. I en verden av lyddeepfakes er det mulig å trene en A.I. å høres uhyggelig lik ut en annen person ved å mate den med et lydkorpus som består av timer med talte data. Resultatene er urovekkende nøyaktig.

Anbefalte videoer

Offentlige personer som rapperen Jay-Z og psykologen Jordan Peterson har allerede klaget over folk som misbruker stemmene sine ved å lage lyddeepfakes og deretter få dem til å si dumme ting på internett. "Våkn opp,"

skrev Peterson. "Helligheten til stemmen din og bildet ditt er i alvorlig fare." Det er bare de rampete tilfellene. I andre kan resultatene tippe over i unyansert kriminalitet. I en hendelse i 2019, brukte kriminelle en lyddeepfake for å etterligne stemmen til administrerende direktør i et energiselskap og overtale en undermann over telefonen til å raskt overføre $243 000 til en bankkonto.

Veritone, en A.I. selskap som lager smarte verktøy for merking av medier for underholdningsindustrien, er å sette lydens dypfalske kraft tilbake i hendene (eller, feiler, strupene) til de som det med rette tilhører. Denne måneden kunngjorde selskapet Marvel.ai, hva selskapets president Ryan Steelberg beskrev til Digital Trends som en "komplett stemme-som-en-tjeneste-løsning." For en avgift vil Veritone bygge en A.I. modell det høres akkurat ut som deg (eller, mer sannsynlig, en kjent person med en umiddelbart gjenkjennelig stemme), som deretter kan lisensieres ut på lån som en høyteknologisk versjon av Ariel sin stemme-som-sikkerhetsforhandling fra Den lille havfrue.

Syntetisk stemme av MARVEL.ai

"Din stemme er like verdifull som alt annet innhold eller merkeattributt du har," sa Steelberg. "[Det er på nivå med] navnet ditt og utseendet ditt, ansiktet ditt, signaturen din eller en sang du har skrevet eller innhold du har laget."

«Vi kan ombruke mye»

Enkelte individer har selvfølgelig lenge solgt stemmene sine i form av å spille inn reklamefilmer eller voiceovers, synge sanger og utallige andre former for inntektsgenerering. Men alle disse bestrebelsene krevde at personen faktisk sa ordene. Det Veritones løsning lover å gjøre er å gjøre dette individuelt skalerbart.

Hva om det for eksempel var mulig for Kevin Hart å lisensiere stemmen sin til et luksusmerke som deretter kunne bruke den til å lage personlig tilpassede annonser med navnet på seeren, beliggenheten til deres nærmeste fysiske utsalgssted, og det bestemte produktet de mest sannsynlig vil kjøpe? I stedet for å tilbringe bokstavelig talt dager i innspillingsboksen, har A.I. kunne tillate dette å gjøres med litt mer (på Harts del, i det minste) enn å signere på den stiplede linjen for å gå med på at stemmen hans skal utnyttes av nevnte tredje parti. Mens han var ute og filmet, eller gjorde en komedietur, tok en ferie, eller til og med sov, kunne den digitale stemmen hans hente inn penger.

"Vi kan gjenbruke mye," forklarte Steelberg angående opplæringsprosessen. "Folk som allerede snakker massevis, hvis de produserer en podcast eller i media, er det mye data der ute. Vi har sannsynligvis massevis av det allerede hvis de tilfeldigvis er en kunde hos oss.»

"Det vi finner så fascinerende med denne nye kategorien av A.I. er utvidbarheten og variasjonen.»

Steelberg sa at stemme-som-en-tjeneste-ideen kom til Veritone for flere år siden. På det tidspunktet var han imidlertid ikke overbevist om at maskinlæringsmodeller var i stand til å skape de hyperrealistiske syntetiske stemmene han lette etter. Dette er spesielt viktig når det gjelder stemmer vi kjenner godt, selv om vi aldri har møtt den aktuelle høyttaleren. Resultatene kan være en slags hørbar uhyggelig dal, med hver feil lyd som varsler lytterne om det faktum at de lytter til en falsk. Men her i 2021 er han overbevist om at ting har kommet så langt at dette nå er mulig. Derfor Marvel.ai.

Steelberg snakker med begeistrede buzzwords om det enorme potensialet til teknologien, og snakker om dens mulige mengde «utførelsesmåter». Veritone kan lage modeller for tekst-til-tale. Den kan også bygge modeller for tale-til-tale, der en stemmeskuespiller kan "drive" en vokalforestilling ved å lese ordene med passende bøyning og deretter legge den ferdige stemmen over på slutten som en Snapchat filter. Selskapet kan også fingeravtrykke hver stemme slik at den kan fortelle om et stykke tilsynelatende ekte lyd som dukker opp et sted ble laget ved hjelp av teknologien.

"Jo mer du tenker på det... vil du bokstavelig talt komme opp med 50 flere [mulige brukssaker]," sa han. "Det vi finner så fascinerende med denne nye kategorien av A.I. er utvidbarheten og variasjonen.»

Vurder noen andre. En kjent idrettsutøver kan være en gud på basketballbanen, men en djevel når det kommer til lese linjer i et manus på en måte som høres naturlig ut. Ved å bruke Veritones teknologi, deres del i videospillfilmer eller lese en lydbok av memoarene deres (som de kanskje heller ikke har skrevet) kan fremføres av en stemmeskuespiller, som deretter blir digitalt tilpasset til å høres ut som atlet. Som en annen mulighet kan en film oversettes for andre land med samme skuespillerstemme som nå leser filmen linjer på fransk, mandarin eller et hvilket som helst annet av en rekke språk, selv om skuespilleren faktisk ikke snakker dem.

Hvordan vil publikum reagere?

Et stort spørsmål som henger over alt dette, er selvfølgelig hvordan medlemmer av offentligheten kommer til å svare på det hele. Dette er den vanskelige, uforutsigbare biten. Kjendiser i dag må spille en kompleks rolle: Både større enn livet-figurer som er verdig å få ansiktet plastret på reklametavler, og også relaterbare individer som har forholdsproblemer, tvitrer om å se på TV i pyjamasen og lager dumme ansikter når de spiser varmt saus.

Hva skjer da når det vises annonser som ikke bare inneholder en kjendis som leser linjer, men i tilfeller når vi vet at det er sagt utøveren sa faktisk aldri disse linjene, men hadde heller stemmen deres programmatisk brukt for å gi oss en målrettet annonse? Steelberg sa at det er litt annerledes enn en kjendis som overlater kontrollen over sosiale medier til en tredjeparts kontoadministrator. Hvis vi ser Taylor Swift tvitrer, vet vi at det ganske muligens ikke er Taylor selv som trykker på meldingen, spesielt hvis det er en anbefaling eller et stykke reklameinnhold.

Men stemmen er, på en veldig reell måte, annerledes, nettopp fordi den er mer personlig. Spesielt hvis det er ledsaget av en grad av personalisering, som er en av brukssakene som gir mest mening. Sannheten er at, for å sitere manusforfatteren William Goldman, ingen vet hva den offentlige responsen vil være - nettopp fordi ingen har gjort akkurat dette før.

"Det kommer til å kjøre spekteret, ikke sant?" sa Steelberg. "[Noen] folk kommer til å si: 'Jeg kommer til å bruke dette verktøyet litt for å utvide dagen min for å hjelpe meg å spare tid.' Andre kommer til å si fullt ut: 'Jeg vil at stemmen min overalt skal utvide merkevaren min, og jeg skal lisensiere den ute.'"

Hans beste gjetning er at aksept vil skje fra sak til sak. "Du må være i tråd med reaksjonen til publikum, og hvis du ser at ting fungerer eller ikke fungerer," sa han. "De kan elske det. De kan si: 'Vet du hva? Jeg elsker det faktum at du legger ut 10 ganger mer innhold eller mer personlig innhold til meg, selv om jeg vet at du brukte syntetisk innhold for å utvide det. Takk skal du ha. Takk skal du ha.'"

Tenk på fremtiden

Når det gjelder fremtiden? Steelberg sa at "Vi ønsker å jobbe med alle de store talentbyråene. Vi tror at alle som driver med å tjene penger rundt en knapp merkevare bør tenke på stemmestrategien sin.»

Og forvent heller ikke at det bare handler om lyd. "Vi har alltid vært fascinert av potensialet ved å bruke syntetisk innhold til å enten utvide, utvide eller potensielt erstatte noen av de eldre formene for innholdsproduksjon," fortsatte han. "Enten det er i lydmessig forstand eller, til slutt i fremtiden, en videosans.”

Det stemmer: Så snart den har slått markedet i en verden av lyddeepfakes, planlegger Veritone å gå et skritt videre og gå inn i verden av fullstendig realiserte virtuelle avatarer at både høres og ser ut til å skilles fra kilden.

Plutselig de personlig tilpassede annonser fra Minoritetsrapport høres mye mindre ut som science fiction.

Redaktørenes anbefalinger

Digital Trends' Tech For Change CES 2023 Awards
Inne i den raskt eskalerende krigen mellom deepfakes og deepfake-detektorer
Alexa og Siri kan ikke forstå tonen i stemmen din, men Oto kan
California slår ned på deepfakes for politikk og porno
Hold deg anonym på nettet med deepfake-teknologi som genererer et helt nytt ansikt for deg

Veritone ønsker å Deepfake-klone stemmen din

«Vi kan ombruke mye»

Hvordan vil publikum reagere?

Tenk på fremtiden

Redaktørenes anbefalinger

Kategorier

Nylig

Maskiner blir utrolig flinke til å gjenkjenne menneskelige følelser

Virtual 2020 MAMA Show tok teknologien til et helt annet nivå

Ctrl Skift Ansiktsintervju