Veritone vrea să-ți cloneze vocea în deepfake

Există o video care apare periodic pe feedul meu YouTube. Este o conversație între rapperii Snoop Dogg și 50 Cent care se plâng de faptul că, în comparație cu generația lor, toți artiștii hip-hop moderni par să sune la fel. „Când o persoană decide să fie ea însăși, oferă ceva ce nimeni altcineva nu poate fi”, spune 50 Cent. „Da, pentru că odată ce ești tu – cine poți fi tu decât tu?” Snoop răspunde.

Cuprins

„Putem reutiliza multe”
Cum va reacționa publicul?
Gandește-te la viitor

Snoop Dogg uzurpă identitatea rapperilor de astăzi

Când videoclipul a fost încărcat în octombrie 2014, este posibil să fi fost în general adevărat. Dar doar câțiva ani mai târziu, cu siguranță nu este. Într-o lume a deepfake-urilor audio, este posibil să antrenezi un I.A. să sune ciudat de asemănător cu o altă persoană, furnizându-i un corpus audio format din ore de date vorbite. Rezultatele sunt enervant de precise.

Videoclipuri recomandate

Personalități publice precum rapperul Jay-Z și psihologul Jordan Peterson s-au plâns deja că oamenii își însușesc vocile prin crearea de deepfake audio și apoi făcându-i să spună prostii pe internet. "Trezeşte-te,"

a scris Peterson. „Sfințenia vocii tale și a imaginii tale sunt în pericol grav.” Acestea sunt doar cazurile răutăcioase. În altele, rezultatele se pot răsturna în criminalitate nenuanțată. În un incident din 2019, criminalii au folosit un deepfake audio pentru a imita vocea CEO-ului unei companii de energie și pentru a convinge prin telefon un subaltern să transfere de urgență 243.000 de dolari într-un cont bancar.

Veritone, un A.I. companie care creează instrumente inteligente pentru etichetarea media pentru industria divertismentului, este readucerea puterii audio deepfake în mâinile (sau, greșit, în gât) celor cărora le este pe bună dreptate aparține. Luna aceasta, a anunțat compania Marvel.ai, ceea ce președintele companiei Ryan Steelberg a descris pentru Digital Trends drept o „soluție completă de voce ca serviciu”. Contra cost, Veritone va construi un A.I. model care sună la fel ca tine (sau, mai probabil, o persoană celebră cu o voce imediat recunoscută), care poate fi apoi împrumutat cu licență ca o versiune high-tech a ale lui Ariel voce ca negociere colaterală din Mica Sirenă.

Voce sintetică de MARVEL.ai

„Vocea ta este la fel de valoroasă ca orice alt conținut sau atribut de marcă pe care îl ai”, a spus Steelberg. „[Este la un nivel cu] numele și asemănarea ta, chipul tău, semnătura ta sau o melodie pe care ai scris-o sau o bucată de conținut pe care ai creat-o.”

„Putem reutiliza multe”

Anumite persoane, desigur, și-au vândut de multă vreme vocile sub formă de înregistrare a reclamelor sau voci off, cântând melodii și nenumărate alte forme de monetizare. Dar toate aceste eforturi au cerut persoanei să spună cu adevărat cuvintele. Ceea ce promite soluția Veritone să facă este să facă acest lucru scalabil individual.

Ce s-ar întâmpla dacă, de exemplu, i-ar fi fost posibil ca Kevin Hart să-și licențieze vocea unui brand de lux care ar putea apoi să o folosească pentru a crea reclame personalizate conținând numele spectatorului, locația celui mai apropiat punct de vânzare real al acestuia și produsul particular pe care ar putea să-l facă cel mai probabil Cumpără? În loc să petreacă literalmente zile în cabina de înregistrare, A.I. ar putea permite acest lucru să se facă cu puțin mai mult (on partea lui Hart, cel puțin) decât să semneze pe linia punctată pentru a fi de acord ca asemănarea vocii lui să fie valorificată de respectiva terță parte. În timp ce filma un film, făcea un turneu de comedie, își lua o vacanță sau chiar dormea, vocea lui digitală putea să-i aducă banii.

„Putem reutiliza multe”, a explicat Steelberg, referitor la procesul de formare. „Oamenii care vorbesc deja mult, dacă produc un podcast sau în mass-media, există o mulțime de date. Probabil că avem deja o mulțime de ei dacă se întâmplă să fie un client al nostru.”

„Ceea ce găsim atât de fascinant la această nouă categorie de I.A. este extensibilitatea și variabilitatea.”

Steelberg a spus că ideea de voce ca serviciu i-a venit lui Veritone acum câțiva ani. Cu toate acestea, la acea vreme nu era convins că modelele de învățare automată erau capabile să creeze vocile sintetice hiperrealiste pe care le căuta. Acest lucru este deosebit de important atunci când vine vorba de voci pe care le cunoaștem în mod intim, chiar dacă nu l-am întâlnit niciodată pe vorbitorul în cauză. Rezultatele ar putea fi un fel de perceptibil valea neobișnuită, cu fiecare sunet greșit alertând ascultătorii despre faptul că ascultă un fals. Dar aici, în 2021, este convins că lucrurile au avansat până la punctul în care acest lucru este acum posibil. De aici Marvel.ai.

Steelberg vorbește în cuvinte la modă entuziasmat despre potențialul masiv al tehnologiei, vorbind despre posibila ei pletoră de „modalități de execuție”. Veritone poate crea modele pentru transformarea textului în vorbire. De asemenea, poate construi modele pentru vorbire în vorbire, prin care un actor vocal poate „conduce” o performanță vocală citind cuvintele cu inflexiune adecvată și apoi având vocea terminată suprapusă la sfârșit ca un Snapchat filtru. De asemenea, compania poate amprenta fiecare voce, astfel încât să poată spune dacă o bucată de sunet aparent reală care apare undeva a fost creată folosind tehnologia sa.

„Cu cât te gândești mai mult la asta… vei găsi literalmente încă 50 de [cazuri de utilizare posibile]”, a spus el. „Ceea ce găsim atât de fascinant la această nouă categorie de I.A. este extensibilitatea și variabilitatea.”

Luați în considerare unele altele. Un atlet celebru ar putea fi un zeu pe terenul de baschet, dar un diavol când vine vorba de citind rânduri într-un scenariu într-un mod care sună natural. Folosind tehnologia Veritone, rolul lor în scenele jocurilor video sau citirea unei cărți audio din memoriile lor (pe care le-au este posibil să nu fi scris) ar putea fi interpretat de un actor vocal, care este apoi modificat digital pentru a suna ca atlet. Ca o altă posibilitate, un film ar putea fi tradus pentru alte țări cu aceeași voce de actor citind acum replici în franceză, mandarină sau orice altă limbă, chiar dacă actorul nu vorbește de fapt lor.

Cum va reacționa publicul?

O mare întrebare care planează peste toate acestea, desigur, este cum vor răspunde membrii publicului la toate acestea. Acesta este partea complicată, imprevizibilă. Celebritățile de astăzi trebuie să joace un rol complex: atât figuri mai mari decât natura, demne de a avea fața tencuită pe panouri publicitare, cât și persoane care se pot identifica, care au probleme în relație, tweetează despre se uită la televizor în pijamale și fac muțe prostești când mănâncă fierbinte sos.

Ce se întâmplă atunci când apar reclame care nu numai că prezintă o celebritate citind rânduri, ci și în cazurile în care știm că a spus interpretul nu a spus niciodată acele replici, ci mai degrabă și-a folosit vocea în mod programatic pentru a ne aduce un țintit anunț? Steelberg a spus că este puțin diferit de o celebritate care predă controlul asupra rețelei sociale către un manager de cont terță parte. Dacă vedem tweet-ul lui Taylor Swift, știm că este foarte posibil să nu fie Taylor însăși să răspundă mesajului, mai ales dacă este o susținere sau o bucată de conținut promoțional.

Dar vocea este, într-un mod foarte real, diferită, tocmai pentru că este mai personală. Mai ales dacă este însoțit de un grad de personalizare, care este unul dintre cazurile de utilizare care are cel mai mult sens. Adevărul este că, ca să-l citez pe scenaristul William Goldman, nimeni nu știe care va fi răspunsul publicului - tocmai pentru că nimeni nu a făcut exact asta până acum.

„Va rula spectrul, nu?” spuse Steelberg. „[Unii] oameni vor spune: „Voi folosi puțin acest instrument pentru a-mi spori ziua și a mă ajuta să economisesc timp”. Alții vor spune, pe deplin, „Vreau ca vocea mea peste tot să-mi extindă marca și o să o licențiez. afară.’”

Cea mai bună presupunere a lui este că acceptarea va fi de la caz la caz. „Trebuie să fii în ton cu reacția publicului tău și dacă vezi că lucrurile funcționează sau nu funcționează”, a spus el. „S-ar putea să le placă. Ei pot spune: „Știi ce? Îmi place faptul că îmi oferi de 10 ori mai mult conținut sau mai mult conținut personal, chiar dacă știu că ai folosit conținut sintetic pentru a-l spori. Mulțumesc. Mulțumesc.'"

Gandește-te la viitor

Cât despre viitor? Steelberg a spus că „Vrem să lucrăm cu toate agențiile de talente majore. Credem că oricine se ocupă de a câștiga bani în jurul unei mărci rare ar trebui să se gândească la strategia de voce.”

Și nu vă așteptați să rămână doar despre audio. „Întotdeauna am fost fascinați de potențialul utilizării conținutului sintetic pentru a extinde, a crește sau, eventual, a înlocui complet unele dintre formele moștenite de producție de conținut”, a continuat el. „Fie asta în sens audio sau, în cele din urmă, în viitor, a sens video.”

Așa este: odată ce a încolțit piața în lumea deepfake-urilor audio, Veritone plănuiește să facă un pas mai departe și să intre în lumea avatare virtuale realizate pe deplin că atât sună, cât și arată nedistins de sursa lor.

Deodată acelea reclame personalizate de la Raport minoritar sună mult mai puțin ca science fiction.

Recomandările editorilor

Premiile Digital Trends Tech For Change CES 2023
În interiorul războiului care crește rapid între deepfake-uri și detectoare deepfake
Alexa și Siri nu pot înțelege tonul vocii tale, dar Oto poate
California se oprește împotriva deepfake-urilor pentru politică și porno
Păstrați anonimatul online cu tehnologia deepfake care vă generează o față cu totul nouă