Veritone želi Deepfake klonirati vaš glas

Tamo je video koji se povremeno pojavljuje na mom YouTube feedu. To je razgovor između repera Snoop Dogga i 50 Centa koji žale na činjenicu da, u usporedbi s njihovom generacijom, svi moderni hip-hop umjetnici izgleda zvuče isto. “Kada osoba odluči biti ona, nudi nešto što nitko drugi ne može biti”, kaže 50 Cent. "Da, 'jer kad jednom budeš ti — tko može biti ti osim tebe?" Snoop odgovara.

Sadržaj

"Možemo prenamijeniti puno toga"
Kako će javnost reagirati?
Razmišljaj o budućnosti

Snoop Dogg oponaša zvukove današnjih repera

Kad je video prenesen u listopadu 2014., to je uglavnom moglo biti točno. Ali samo nekoliko godina kasnije sigurno nije. U svijetu audio lažiranja, moguće je istrenirati A.I. zvučati jezivo slično drugoj osobi tako što će je hraniti audio korpusom koji se sastoji od sati njihovih izgovorenih podataka. Rezultati su uznemirujuće točan.

Preporučeni videozapisi

Javne osobe poput reper Jay-Z i psiholog Jordan Peterson već su se požalili na ljude koji krivo prisvajaju njihove glasove stvaranjem zvučnih deepfakeova i potom ih tjeraju da govore gluposti na internetu. "Probudi se,"

napisao je Peterson. “Svetost vašeg glasa i vaše slike ozbiljno su ugroženi.” To su samo nestašni slučajevi. U drugima se rezultati mogu pretvoriti u nenijansirani kriminal. U Jedan incident iz 2019, kriminalci su koristili audio deepfake kako bi oponašali glas izvršnog direktora energetske tvrtke i telefonom uvjerili podređenog da hitno prebaci 243.000 dolara na bankovni račun.

Veritone, A.I. tvrtka koja stvara pametne alate za označavanje medija za industriju zabave je vraćanje audio deepfake moći natrag u ruke (ili, pogrešno, grla) onih kojima je s pravom pripada. Ovog mjeseca, objavila je tvrtka Marvel.ai, što je predsjednik tvrtke Ryan Steelberg opisao za Digital Trends kao "cjelovito rješenje za glas kao uslugu". Uz naknadu, Veritone će izgraditi A.I. model koji zvuči baš kao vi (ili, što je vjerojatnije, poznata osoba s odmah prepoznatljivim glasom), koji se zatim može licencirati na posudbu poput visokotehnološke verzije Arielino glas kao kolateralna pogodba iz Mala sirena.

Sintetički glas MARVEL.ai

“Vaš glas je jednako vrijedan kao i bilo koji drugi sadržaj ili atribut robne marke koji imate”, rekao je Steelberg. "[To je na razini s] vašim imenom i likom, vašim licem, vašim potpisom ili pjesmom koju ste napisali ili dijelom sadržaja koji ste stvorili."

"Možemo prenamijeniti puno toga"

Određeni pojedinci su, naravno, dugo prodavali svoje glasove u obliku snimanja reklama ili voiceovera, pjevanja pjesama i bezbrojnih drugih oblika monetizacije. Ali sva ta nastojanja zahtijevala su da osoba doista izgovori riječi. Ono što Veritoneovo rješenje obećava jest učiniti ovo pojedinačno skalabilnim.

Što ako je, na primjer, moguće da Kevin Hart licencira svoj glas luksuznom brendu koji bi ga zatim mogao koristiti za izradu personaliziranih oglasa koji sadrži ime gledatelja, lokaciju njegovog najbližeg fizičkog prodajnog mjesta i određeni proizvod za koji bi najvjerojatnije kupiti? Umjesto da provodi doslovno dane u kabini za snimanje, A.I. mogao omogućiti da se to učini s malo više (na Hartov dio, barem) nego potpisivanjem na isprekidanoj liniji da pristaje da njegovu sličnost glasa iskoristi rečeni treći Zabava. Dok je bio na snimanju filma, ili na turneji komedije, ili na odmoru, ili čak spavao, njegov bi digitalni glas mogao zgrtati novac.

"Možemo prenamijeniti mnogo toga", objasnio je Steelberg, u vezi s procesom obuke. “Ljudi koji već govore puno, ako proizvode podcast ili u medijima, postoji mnogo podataka. Vjerojatno već imamo tonu toga ako su slučajno naši klijenti.”

“Ono što smatramo tako fascinantnim u ovoj novoj kategoriji A.I. je proširivost i varijabilnost.”

Steelberg je rekao da je Veritoneu ideja o glasu kao usluzi pala na pamet prije nekoliko godina. Međutim, u to vrijeme nije bio uvjeren da modeli strojnog učenja mogu stvoriti hiperrealistične sintetičke glasove koje je tražio. Ovo je posebno važno kada se radi o glasovima koje intimno poznajemo, čak i ako nikada nismo upoznali dotičnog govornika. Rezultati bi mogli biti nekakvi zvučni uncanny valley, sa svakim krivim zvukom koji slušatelje upozorava na činjenicu da slušaju lažnjak. Ali ovdje u 2021. uvjeren je da su stvari uznapredovale do točke u kojoj je to sada moguće. Stoga Marvel.ai.

Steelberg uzbuđeno govori o golemom potencijalu tehnologije, govoreći o njezinom mogućem obilju "modaliteta izvršenja". Veritone može stvoriti modele za pretvaranje teksta u govor. Također može izgraditi modele za govor-govor, pri čemu glasovni glumac može "pokrenuti" vokalnu izvedbu čitanjem riječi s odgovarajućom fleksijom, a zatim završetak glasa na kraju poput Snapchata filtar. Tvrtka također može dati otisak prsta svakom glasu kako bi mogla reći je li dio naizgled stvarnog zvuka koji se negdje pojavi stvoren pomoću njezine tehnologije.

"Što više razmišljate o tome... doslovno ćete smisliti još 50 [mogućih slučajeva upotrebe]", rekao je. “Ono što smatramo tako fascinantnim u ovoj novoj kategoriji A.I. je proširivost i varijabilnost.”

Razmotrite neke druge. Poznati sportaš može biti bog na košarkaškom terenu, ali vrag kada je riječ o njemu čitanje redaka u skripti na način koji zvuči prirodno. Korištenje Veritoneove tehnologije, njihova uloga u scenama videoigara ili čitanje audio knjige njihovih memoara (koje su možda i nije napisao) može izvesti glasovni glumac, koji se zatim digitalno podešava da zvuči kao sportaš. Kao još jedna mogućnost, film bi se mogao prevesti za druge zemlje s istim glasom glumca koji sada čita rečenice na francuskom, mandarinskom ili bilo kojem drugom od niza jezika, čak i ako glumac zapravo ne govori ih.

Kako će javnost reagirati?

Veliko je pitanje koje se nadvija nad svime ovime, naravno, kako će javnost reagirati na sve to. Ovo je lukav, nepredvidiv dio. Slavne osobe danas moraju igrati složenu ulogu: i velike figure koje zaslužuju da im se lice stavi na jumbo plakate, ali i srodni pojedinci koji imaju problema u vezi, cvrkuću o gledanju TV-a u pidžamama i prave smiješna lica kad jedu vruće umak.

Što se onda događa kada se pojave oglasi koji ne prikazuju samo slavnu osobu koja čita retke, već u slučajevima kada znamo da je izvođač nikada zapravo nije izgovorio te rečenice, već je njegov glas programski iskorišten da nam donese ciljani oglas? Steelberg je rekao da se malo razlikuje od toga da slavna osoba preda kontrolu nad svojim društvenim medijima upravitelju računa treće strane. Ako vidimo tvit Taylor Swift, znamo da vrlo vjerojatno Taylor sama ne ispisuje poruku, pogotovo ako se radi o podršci ili dijelu promotivnog sadržaja.

Ali glas je, na vrlo stvaran način, drugačiji, upravo zato što je osobniji. Pogotovo ako je popraćeno određenim stupnjem personalizacije, što je jedan od najrazumnijih slučajeva upotrebe. Istina je da, da citiram scenarista Williama Goldmana, nitko ne zna kakav će biti odjek u javnosti — upravo zato što nitko prije nije napravio baš ovo.

"Proći će cijeli spektar, zar ne?" rekao je Steelberg. "[Neki] će ljudi reći: 'Upotrijebit ću ovaj alat malo da poboljšam svoj dan i da mi pomogne uštedjeti vrijeme.' Drugi će u potpunosti reći: 'Želim da moj glas posvuda proširi moj brend i licencirat ću ga van."

Njegova najbolja pretpostavka je da će prihvaćanje biti od slučaja do slučaja. "Morate biti u skladu s reakcijom svoje publike i ako vidite da stvari funkcioniraju ili ne funkcioniraju", rekao je. “Možda će im se svidjeti. Mogu reći: 'Znaš što? Sviđa mi se činjenica da mi stavljaš 10 puta više sadržaja ili osobnijeg sadržaja, iako znam da si koristio sintetički sadržaj da ga povećaš. Hvala vam. Hvala vam.'"

Razmišljaj o budućnosti

Što se tiče budućnosti? Steelberg je rekao da “želimo raditi sa svim velikim agencijama za talente. Mislimo da bi svatko tko je u poslu zarađivanja novca oko rijetke marke trebao razmisliti o svojoj glasovnoj strategiji.”

I ne očekujte da će ostati samo na zvuku. "Uvijek smo bili fascinirani potencijalom korištenja sintetičkog sadržaja za proširenje, povećanje ili potencijalnu potpunu zamjenu nekih od naslijeđenih oblika proizvodnje sadržaja", nastavio je. “Bilo to u audio smislu ili, u konačnici u budućnosti, a video smisao.”

Tako je: nakon što je zauzeo tržište u svijetu zvučnih deepfakeova, Veritone planira otići korak dalje i ući u svijet potpuno realizirani virtualni avatari koji i zvukom i izgledom ne mogu se razlikovati od svog izvora.

Odjednom one prilagođeni oglasi od Izvješće manjina zvuči puno manje kao znanstvena fantastika.

Preporuke urednika

Nagrade Digital Trends Tech For Change CES 2023
Unutar brzo eskalirajućeg rata između deepfake i deepfake detektora
Alexa i Siri ne mogu razumjeti ton tvog glasa, ali Oto može
Kalifornija se obračunava s deepfakeovima za politiku i pornografiju
Ostanite anonimni na mreži uz tehnologiju deepfake koja stvara potpuno novo lice za vas