Veritone ønsker at Deepfake-klone din stemme

Der er en video der dukker op med jævne mellemrum på mit YouTube-feed. Det er en samtale mellem rapperne Snoop Dogg og 50 Cent, der begræder det faktum, at i forhold til deres generation lyder alle moderne hiphop-artister tilsyneladende ens. "Når en person beslutter sig for at være sig selv, tilbyder de noget, ingen andre kan være," siger 50 Cent. "Ja, for når du først er dig - hvem kan være dig, men dig?" Snoop svarer.

Indhold

"Vi kan genbruge meget"
Hvordan vil offentligheden reagere?
Tænk på fremtiden

Snoop Dogg efterligner nutidens rappere lyd-lignende flow

Da videoen blev uploadet i oktober 2014, kan det stort set have været sandt. Men blot et par år senere er det bestemt ikke. I en verden af lyddeepfakes er det muligt at træne en A.I. at lyde uhyggeligt lig en anden person ved at give den et lydkorpus bestående af timer af deres talte data. Resultaterne er foruroligende præcis.

Anbefalede videoer

Offentlige personer som rapperen Jay-Z og psykologen Jordan Peterson har allerede klaget over folk, der misbruger deres stemmer ved at lave lyddeepfakes og derefter få dem til at sige dumme ting på internettet. "Vågn op,"

skrev Peterson. "Din stemmes og dit billedes hellighed er i alvorlig fare." Det er bare de drilske sager. I andre kan resultaterne vælte over i unuanceret kriminalitet. I en hændelse i 2019, brugte kriminelle en lyd-deepfake til at efterligne stemme fra en administrerende direktør for et energiselskab og overtale en underboer over telefonen til hurtigst muligt at overføre $243.000 til en bankkonto.

Veritone, en A.I. virksomhed, der skaber smarte værktøjer til mærkning af medier til underholdningsindustrien, er at lægge lydens dybfalske kraft tilbage i hænderne (eller, ærgerligt, halsen) på dem, som det med rette hører til. I denne måned meddelte virksomheden Marvel.ai, hvad virksomhedens præsident Ryan Steelberg beskrev over for Digital Trends som en "komplet voice-as-a-service-løsning." For et gebyr bygger Veritone en A.I. model det lyder ligesom dig (eller, mere sandsynligt, en berømt person med en umiddelbart genkendelig stemme), som derefter kan lånes ud som en højteknologisk version af Ariel's stemme-som-sikkerhedsforhandling fra Den lille Havfrue.

Syntetisk stemme af MARVEL.ai

"Din stemme er lige så værdifuld som ethvert andet indhold eller brandegenskab, du har," sagde Steelberg. "[Det er på niveau med] dit navn og billede, dit ansigt, din signatur eller en sang, du har skrevet eller et stykke indhold, du har lavet."

"Vi kan genbruge meget"

Visse individer har selvfølgelig længe solgt deres stemmer i form af indspilning af reklamer eller voiceovers, syngende sange og utallige andre former for indtægtsgenerering. Men alle disse bestræbelser krævede, at personen rent faktisk sagde ordene. Hvad Veritones løsning lover at gøre, er at gøre dette individuelt skalerbart.

Hvad hvis det for eksempel var muligt for Kevin Hart at licensere sin stemme ud til et luksusbrand, der derefter kunne bruge den til at skabe personlige annoncer med navnet på seeren, placeringen af deres nærmeste fysiske salgssted og det specifikke produkt, de sandsynligvis vil købe? I stedet for at tilbringe bogstaveligt talt dage i optagekabinen, har A.I. kunne tillade dette at blive gjort med lidt mere (på Harts del, i det mindste) end at skrive under på den stiplede linje for at acceptere, at hans stemmelighed skal udnyttes af nævnte tredje parti. Mens han var ude at optage en film, lave en komedietur, eller tage på ferie eller endda sove, kunne hans digitale stemme hive penge ind.

"Vi kan genbruge meget," forklarede Steelberg angående uddannelsesprocessen. "Folk, der allerede taler en masse, hvis de producerer en podcast eller i medierne, er der en masse data derude. Vi har formentlig et væld af det allerede, hvis de tilfældigvis er en kunde hos os."

"Det, vi finder så fascinerende ved denne nye kategori af A.I. er udvidelsesmulighederne og variabiliteten."

Steelberg sagde, at stemme-som-en-tjeneste-ideen opstod for Veritone for flere år siden. Men på det tidspunkt var han ikke overbevist om, at maskinlæringsmodeller var i stand til at skabe de hyperrealistiske syntetiske stemmer, han ledte efter. Dette er især vigtigt, når det kommer til stemmer, vi kender indgående, selvom vi aldrig faktisk har mødt den pågældende taler. Resultaterne kunne være en slags hørbar uhyggelig dal, hvor hver forkert lyd advarer lytterne om, at de lytter til en falsk. Men her i 2021 er han overbevist om, at tingene er nået så langt, at det nu er muligt. Derfor Marvel.ai.

Steelberg taler med begejstrede buzzwords om teknologiens enorme potentiale og fortæller om dens mulige overflod af "udførelsesmåder." Veritone kan skabe modeller for tekst-til-tale. Det kan også bygge modeller for tale-til-tale, hvorved en stemmeskuespiller kan "drive" en vokalpræstation ved at læse ordene med passende bøjning og derefter få den færdige stemme overlejret i slutningen som en Snapchat filter. Virksomheden kan også fingeraftrykke hver stemme, så den kan fortælle, om et stykke tilsyneladende ægte lyd, der dukker op et sted, blev skabt ved hjælp af dets teknologi.

"Jo mere du tænker over det... vil du bogstaveligt talt komme med 50 flere [mulige use-cases]," sagde han. "Det, vi finder så fascinerende ved denne nye kategori af A.I. er udvidelsesmulighederne og variabiliteten."

Overvej nogle andre. En berømt atlet er måske en gud på basketballbanen, men en djævel, når det kommer til læse linjer i et manuskript på en måde, der lyder naturlig. Ved at bruge Veritones teknologi, deres del i videospilsscener eller læsning af en lydbog med deres erindringer (som de måske heller ikke har skrevet) kunne fremføres af en stemmeskuespiller, som derefter er digitalt tweaket til at lyde som atlet. Som en anden mulighed kunne en film oversættes til andre lande med den samme skuespillerstemme, der nu læser linjer på fransk, mandarin eller et hvilket som helst andet af en række sprog, selvom skuespilleren faktisk ikke taler dem.

Hvordan vil offentligheden reagere?

Et stort spørgsmål, der hænger over alt dette, er selvfølgelig, hvordan medlemmer af offentligheden vil reagere på det hele. Dette er den vanskelige, uforudsigelige del. Berømtheder i dag skal spille en kompleks rolle: Både større end livet figurer, der er værdige til at få deres ansigt plastret på reklametavler, og også relaterbare personer, der har forholdsproblemer, tweeter om at se tv i deres pyjamas og laver fjollede ansigter, når de spiser varmt sovs.

Hvad sker der så, når der vises annoncer, der ikke kun indeholder en berømthed, der læser linjer, men i tilfælde, hvor vi ved, at det er sagt performer aldrig faktisk sagde disse linjer, men snarere havde deres stemme programmatisk brugt til at bringe os en målrettet annonce? Steelberg sagde, at det er lidt anderledes end en berømthed, der overlader kontrollen over deres sociale medier til en tredjepartskontoadministrator. Hvis vi ser Taylor Swift tweet, ved vi, at det muligvis ikke er Taylor selv, der trykker budskabet ud, især hvis det er en godkendelse eller et stykke salgsfremmende indhold.

Men stemmen er på en meget reel måde anderledes, netop fordi den er mere personlig. Især hvis det er ledsaget af en grad af personalisering, som er en af de use-cases, der giver mest mening. Sandheden er, at, for at citere manuskriptforfatteren William Goldman, ingen ved, hvad den offentlige reaktion vil være - netop fordi ingen har gjort præcis dette før.

"Det kommer til at køre spektret, ikke?" sagde Steelberg. "[Nogle] mennesker vil sige, 'Jeg vil bruge dette værktøj en lille smule til at øge min dag for at hjælpe mig med at spare tid.' Andre kommer til at sige fuldt ud: 'Jeg vil have min stemme overalt til at udvide mit brand, og jeg vil licensere det ud.'"

Hans bedste gæt er, at accept vil ske fra sag til sag. "Du skal være i harmoni med dit publikums reaktion, og hvis du ser, at tingene fungerer eller ikke fungerer," sagde han. "De kan godt lide det. De siger måske: 'Ved du hvad? Jeg elsker det faktum, at du udgiver 10 gange mere indhold eller mere personligt indhold til mig, selvom jeg ved, at du brugte syntetisk indhold til at forstærke det. Tak skal du have. Tak skal du have.'"

Tænk på fremtiden

Hvad angår fremtiden? Steelberg sagde, at "Vi ønsker at arbejde med alle de store talentbureauer. Vi mener, at enhver, der er i branchen med at tjene penge omkring et knapt mærke, bør tænke over deres stemmestrategi."

Og forvent heller ikke, at det udelukkende handler om lyd. "Vi har altid været fascineret af potentialet i at bruge syntetisk indhold til enten at udvide, forstærke eller potentielt fuldstændigt erstatte nogle af de gamle former for indholdsproduktion," fortsatte han. "Det være sig i lydmæssig forstand eller i sidste ende i fremtiden, en videosans.”

Det er rigtigt: Når først det har slået markedet i hjørnet i verden af lyddeepfakes, planlægger Veritone at gå et skridt videre og gå ind i verden af fuldt realiserede virtuelle avatarer at både lyder og ser ud til at kunne skelnes fra deres kilde.

Pludselig dem tilpassede annoncer fra Mindretalsrapport lyder meget mindre som science fiction.

Redaktørens anbefalinger

Digital Trends' Tech For Change CES 2023 Awards
Inde i den hurtigt eskalerende krig mellem deepfakes og deepfake detektorer
Alexa og Siri kan ikke forstå tonen i din stemme, men Oto kan
Californien slår ned på deepfakes for politik og porno
Bliv anonym online med deepfake-teknologi, der genererer et helt nyt ansigt til dig

Veritone ønsker at Deepfake-klone din stemme

"Vi kan genbruge meget"

Hvordan vil offentligheden reagere?

Tænk på fremtiden

Redaktørens anbefalinger

Kategorier

Nylig

Dette mobile fitness-RPG ønsker at få din krop i gang

Det er tid til at droppe dit smartwatch for en fitness-tracker

Yamahas Power Tuner-app giver dig mulighed for at tune din motorcykel med en smartphone