Veritone želi Deepfake klonirati vaš glas

Tam je video ki se občasno pojavi v mojem YouTubovem viru. Gre za pogovor med reperjema Snoop Doggom in 50 Centom, ki obžalujeta dejstvo, da v primerjavi z njihovo generacijo vsi sodobni hip-hop umetniki očitno zvenijo enako. "Ko se oseba odloči biti sama, ponudi nekaj, kar nihče drug ne more biti," pravi 50 Cent. "Ja, kajti ko si enkrat ti - kdo si lahko ti kot ti?" Snoop se odzove.

Vsebina

"Veliko lahko preuredimo"
Kako se bo odzvala javnost?
Misli na prihodnost

Snoop Dogg posnema zvok današnjega raperja

Ko je bil videoposnetek naložen oktobra 2014, je to morda na splošno res. A le nekaj let kasneje zagotovo ni več. V svetu zvočnih globokih ponaredkov je mogoče usposobiti A.I. da zveni grozljivo podobno drugi osebi, tako da ji napaja zvočni korpus, sestavljen iz ur njihovih govorjenih podatkov. Rezultati so vznemirljivo natančen.

Priporočeni videoposnetki

Javne osebnosti, kot je reper Jay-Z in psiholog Jordan Peterson sta se že pritožila nad ljudmi, ki si prisvajajo njihove glasove z ustvarjanjem zvočnih globokih ponaredkov in jih nato prisilijo, da govorijo neumnosti na internetu. "Zbudi se,"

je zapisal Peterson. "Svetost vašega glasu in vaše podobe sta resno ogrožena." To so le nagajivi primeri. V drugih se lahko rezultati sprevržejo v kriminal brez niansiranja. notri en incident iz leta 2019, so kriminalci uporabili avdio deepfake, da bi posnemali glas izvršnega direktorja energetskega podjetja in po telefonu prepričali podrejenega, naj nujno nakaže 243.000 $ na bančni račun.

Veritone, A.I. podjetje, ki ustvarja pametna orodja za označevanje medijev za zabavno industrijo, je vračanje zvočne globoko ponarejene moči nazaj v roke (ali, napačno, grla) tistih, ki jim je upravičeno pripada. Ta mesec je družba objavila Marvel.ai, kar je predsednik podjetja Ryan Steelberg za Digital Trends opisal kot »popolno rešitev glas kot storitev«. Za plačilo bo Veritone zgradil A.I. model, ki zveni tako kot vi (ali, bolj verjetno, slavna oseba s takoj prepoznavnim glasom), ki jo lahko nato licencirate kot visokotehnološko različico Arielino kupčija z glasom kot zavarovanjem od Mala morska deklica.

Sintetični glas MARVEL.ai

"Vaš glas je prav tako dragocen kot katera koli druga vsebina ali atribut blagovne znamke, ki ga imate," je dejal Steelberg. "[Je na ravni] vašega imena in podobe, vašega obraza, vašega podpisa ali pesmi, ki ste jo napisali, ali dela vsebine, ki ste jo ustvarili."

"Veliko lahko preuredimo"

Določeni posamezniki seveda že dolgo prodajajo svoje glasove v obliki snemanja oglasov ali govora, petja pesmi in neštetih drugih oblik monetizacije. Toda vsa ta prizadevanja so zahtevala, da oseba dejansko izgovori besede. Rešitev Veritone obljublja, da bo to naredila individualno prilagodljivo.

Kaj če bi bilo na primer mogoče, da bi Kevin Hart licenciral svoj glas za luksuzno znamko, ki bi ga nato lahko uporabila za ustvarjanje prilagojenih oglasov z imenom gledalca, lokacijo njegovega najbližjega fizičnega prodajnega mesta in določenim izdelkom, ki bi ga najverjetneje zanimal kupiti? Namesto da bi preživel dobesedno dneve v snemalni kabini, je A.I. bi lahko omogočili, da se to naredi z malo več (on Hartov del, vsaj) kot podpis na črtkani črti, da se strinja, da njegovo glasovno podobnost izkoristi omenjeni tretji zabava. Medtem ko je bil na snemanju filma, na komediji, na dopustu ali celo med spanjem, bi lahko njegov digitalni glas pobiral denar.

"Veliko lahko spremenimo," je pojasnil Steelberg glede procesa usposabljanja. »Ljudje, ki že veliko govorijo, če producirajo podcast ali v medijih, je tam zunaj veliko podatkov. Verjetno jih imamo že na tono, če so slučajno naša stranka.«

»Kar se nam zdi tako fascinantnega pri tej novi kategoriji A.I. je razširljivost in spremenljivost.«

Steelberg je dejal, da se je zamisel o glasu kot storitvi porodila Veritonu pred nekaj leti. Vendar takrat ni bil prepričan, da so modeli strojnega učenja sposobni ustvariti hiperrealistične sintetične glasove, ki jih je iskal. To je še posebej pomembno, ko gre za glasove, ki jih dobro poznamo, tudi če zadevnega govorca še nikoli nismo srečali. Rezultati bi lahko bili nekakšni slišno uncanny valley, pri čemer vsak napačen zvok poslušalce opozori na dejstvo, da poslušajo ponaredek. A tukaj leta 2021 je prepričan, da so stvari napredovale do te mere, da je to zdaj mogoče. Zato Marvel.ai.

Steelberg z navdušenimi floskulami govori o ogromnem potencialu tehnologije in govori o njeni možni množici »modalitet izvajanja«. Veritone lahko ustvari modele za pretvorbo besedila v govor. Prav tako lahko zgradi modele za govor v govor, pri čemer lahko glasovni igralec "poganja" vokalno izvedbo z branjem besede z ustreznim sklonom in nato na koncu prekriti končni glas kot Snapchat filter. Podjetje lahko tudi odtisne prstni odtis vsakega glasu, tako da lahko ugotovi, ali je bil del navidezno pravega zvoka, ki se pojavi nekje, ustvarjen z njegovo tehnologijo.

"Bolj kot boste razmišljali o tem … boste dobesedno našli še 50 [možnih primerov uporabe]," je dejal. »Kar se nam zdi tako fascinantnega pri tej novi kategoriji A.I. je razširljivost in spremenljivost.«

Razmislite o nekaterih drugih. Slavni športnik je lahko bog na košarkarskem igrišču, a hudič, ko gre zanj branje vrstic v scenariju na način, ki zveni naravno. Z uporabo tehnologije Veritone, njihovo vlogo v vmesnih prizorih video iger ali branjem zvočne knjige svojih spominov (ki jih morda tudi ni bil napisan) bi lahko izvedel glasovni igralec, ki je nato digitalno prilagojen tako, da zveni kot športnik. Kot druga možnost bi lahko film prevedli za druge države z istim igralčevim glasom, ki zdaj bere vrstice v francoščini, mandarinščini ali katerem koli drugem od številnih jezikov, tudi če igralec dejansko ne govori njim.

Kako se bo odzvala javnost?

Veliko vprašanje, ki visi nad vsem tem, je seveda, kako se bodo ljudje na vse skupaj odzvali. To je zapleteno, nepredvidljivo. Slavne osebe morajo danes igrati zapleteno vlogo: tako velike figure, ki si zaslužijo, da se njihov obraz nalepi na oglasne deske, kot tudi sorodni posamezniki, ki imajo težave v odnosih, tvitajo o gledanju televizije v pižamah in delajo neumne obraze, ko jedo vroče omaka.

Kaj se torej zgodi, ko se prikažejo oglasi, ki ne prikazujejo samo zvezdnika, ki bere vrstice, ampak v primerih, ko vemo, da izvajalec dejansko nikoli ni izgovoril teh vrstic, ampak je bil njegov glas programsko uporabljen, da bi nam prinesel ciljno oglas? Steelberg je dejal, da se malo razlikuje od tega, da slavna osebnost preda nadzor nad svojimi družbenimi mediji upravitelju računa tretje osebe. Če vidimo tvit Taylor Swift, vemo, da zelo verjetno ni Taylor sama tista, ki je izpisala sporočilo, še posebej, če gre za podporo ali del promocijske vsebine.

Toda glas je na zelo resničen način drugačen, prav zato, ker je bolj oseben. Še posebej, če ga spremlja določena stopnja personalizacije, kar je eden od primerov uporabe, ki je najbolj smiseln. Resnica je, če citiram scenarista Williama Goldmana, da nihče ne ve, kakšen bo odziv javnosti — ravno zato, ker še nihče ni naredil točno tega.

"Potekal bo spekter, kajne?" je dejal Steelberg. »[Nekateri] ljudje bodo rekli: 'S tem orodjem bom malo popestril svoj dan in mi pomagal prihraniti čas.' Drugi bodo odločno rekli: »Želim, da moj glas povsod razširi mojo blagovno znamko, in jo bom licenciral ven.’”

Njegova najboljša domneva je, da bo sprejem odvisen od primera do primera. "Morate biti usklajeni z odzivom občinstva in če vidite, da stvari delujejo ali ne," je dejal. »Morda jim bo všeč. Lahko rečejo: 'Veš kaj? Všeč mi je dejstvo, da mi dajete 10-krat več vsebine ali več osebne vsebine, čeprav vem, da ste za njeno razširitev uporabili sintetično vsebino. Hvala vam. Hvala vam.'"

Misli na prihodnost

Kar se tiče prihodnosti? Steelberg je dejal: »Želimo sodelovati z vsemi večjimi agencijami za talente. Menimo, da bi moral vsakdo, ki se ukvarja z služenjem denarja z redko blagovno znamko, razmisliti o svoji glasovni strategiji.«

In tudi ne pričakujte, da bo ostal zgolj zvok. "Vedno nas je fascinirala možnost uporabe sintetične vsebine za razširitev, izboljšanje ali morebitno popolno nadomestitev nekaterih podedovanih oblik produkcije vsebine," je nadaljeval. »Naj bo to v zvočnem smislu ali, končno v prihodnosti, a video smisel.”

Tako je: ko bo Veritone osvojil trg v svetu zvočnih globokih ponaredkov, namerava iti še korak dlje in vstopiti v svet popolnoma realizirani virtualni avatarji ki tako zvenijo kot izgledajo in se ne razlikujejo od svojega izvora.

Nenadoma tiste prilagojeni oglasi od Manjšinsko poročilo zveni precej manj kot znanstvena fantastika.

Priporočila urednikov

Nagrade Digital Trends Tech For Change CES 2023
Znotraj hitro naraščajoče vojne med deepfake in detektorji deepfake
Alexa in Siri ne razumeta tona tvojega glasu, Oto pa lahko
Kalifornija zatira globoke ponaredke za politiko in pornografijo
Ostanite anonimni v spletu s tehnologijo deepfake, ki vam ustvari popolnoma nov obraz