Veritone vuole clonare la tua voce con il Deepfake

C'è un video che appare periodicamente sul mio feed YouTube. È una conversazione tra i rapper Snoop Dogg e 50 Cent che si lamentano del fatto che, rispetto alla loro generazione, tutti gli artisti hip-hop moderni sembrano apparentemente uguali. "Quando una persona decide di essere se stessa, offre qualcosa che nessun altro può essere", afferma 50 Cent. "Sì, perché una volta che sei te stesso, chi può essere te se non te?" Snoop risponde.

Contenuti

  • “Possiamo riutilizzare molto”
  • Come reagirà il pubblico?
  • Pensa al futuro

Snoop Dogg impersona il flow dei rapper di oggi

Quando il video è stato caricato nell'ottobre 2014, ciò potrebbe essere stato sostanzialmente vero. Ma solo pochi anni dopo certamente non lo è. In un mondo di deepfake audio, è possibile addestrare un'A.I. sembrare stranamente simile a un'altra persona alimentandola con un corpus audio costituito da ore di dati parlati. I risultati sono inquietantemente accurato.

Video consigliati

Personaggi pubblici come il il rapper Jay-Z e lo psicologo Jordan Peterson si sono già lamentati di persone che si appropriano indebitamente delle loro voci creando deepfake audio e poi facendo loro dire cose stupide su Internet. "Svegliati,"

ha scritto Peterson. “La sacralità della tua voce e della tua immagine è a serio rischio”. Questi sono solo i casi dispettosi. In altri, i risultati possono sfociare in una criminalità senza sfumature. In un incidente del 2019, i criminali hanno utilizzato un deepfake audio per impersonare la voce dell'amministratore delegato di un'azienda energetica e convincere al telefono un sottoposto a trasferire urgentemente 243.000 dollari su un conto bancario.

Veritone, un'A.I. è un'azienda che crea strumenti intelligenti per l'etichettatura dei media per l'industria dell'intrattenimento rimettendo il potere del deepfake audio nelle mani (o, ehm, nelle gole) di coloro a cui giustamente spetta appartiene. Questo mese, la società ha annunciato Marvel.ai, quella che il presidente dell'azienda Ryan Steelberg ha descritto a Digital Trends come una "soluzione completa voice-as-a-service". A pagamento, Veritone costruirà un sistema A.I. modellalo suona proprio come te (o, più probabilmente, un personaggio famoso con una voce immediatamente riconoscibile), che può poi essere concesso in licenza in prestito come una versione high-tech di Quello di Ariel contratto vocale come garanzia da La Sirenetta.

Voce sintetica di MARVEL.ai

"La tua voce è preziosa quanto qualsiasi altro contenuto o attributo del marchio che possiedi", ha affermato Steelberg. "[È allo stesso livello del] tuo nome e delle tue sembianze, del tuo viso, della tua firma o di una canzone che hai scritto o di un contenuto che hai creato."

“Possiamo riutilizzare molto”

Alcuni individui, ovviamente, hanno venduto a lungo la propria voce registrando spot pubblicitari o voci fuori campo, cantando canzoni e innumerevoli altre forme di monetizzazione. Ma tutti questi sforzi richiedevano che la persona pronunciasse effettivamente le parole. Ciò che la soluzione di Veritone promette di fare è renderlo scalabile individualmente.

E se, ad esempio, fosse possibile per Kevin Hart concedere in licenza la sua voce a un marchio di lusso che potrebbe poi utilizzarla per creare annunci personalizzati? contenente il nome dello spettatore, l'ubicazione del punto vendita fisico più vicino e il prodotto particolare che potrebbe acquistare con maggiore probabilità acquistare? Invece di trascorrere letteralmente giorni nella cabina di registrazione, A.I. potrebbe consentire che ciò venga fatto con poco più (on Hart, almeno) che firmare sulla linea tratteggiata per accettare che la sua somiglianza vocale venga sfruttata da detto terzo festa. Mentre era fuori a girare un film, o a fare un tour comico, o in vacanza, o anche a dormire, la sua voce digitale poteva racimolare soldi.

"Possiamo riutilizzare molto", ha spiegato Steelberg, per quanto riguarda il processo di formazione. “Le persone che stanno già parlando molto, se stanno producendo un podcast o nei media, ci sono molti dati là fuori. Probabilmente ne abbiamo già un sacco se sono nostri clienti.

“Ciò che troviamo così affascinante in questa nuova categoria di A.I. è l’estensibilità e la variabilità.”

Steelberg ha affermato che l'idea della voce come servizio è venuta a Veritone diversi anni fa. Tuttavia, all’epoca non era convinto che i modelli di machine learning fossero in grado di creare le voci sintetiche iperrealistiche che stava cercando. Ciò è particolarmente importante quando si tratta di voci che conosciamo intimamente, anche se non abbiamo mai incontrato l’oratore in questione. I risultati potrebbero essere di qualche tipo udibile valle misteriosa, in cui ogni suono sbagliato avvisa gli ascoltatori del fatto che stanno ascoltando un falso. Ma qui nel 2021 è convinto che le cose siano avanzate al punto in cui ciò sia ora possibile. Quindi Marvel.ai.

Steelberg parla con parole d’ordine entusiastiche dell’enorme potenziale della tecnologia, parlando della sua possibile pletora di “modalità di esecuzione”. Veritone può creare modelli per la sintesi vocale. Può anche costruire modelli per il parlato, in cui un doppiatore può “guidare” una performance vocale leggendo le parole con l'inflessione adeguata e poi con la voce finita sovrapposta alla fine come su Snapchat filtro. L'azienda può anche rilevare l'impronta di ciascuna voce in modo da poter capire se un pezzo di audio apparentemente reale che appare da qualche parte è stato creato utilizzando la sua tecnologia.

"Più ci pensi... ti verranno letteralmente in mente altri 50 [possibili casi d'uso]", ha detto. “Ciò che troviamo così affascinante in questa nuova categoria di A.I. è l’estensibilità e la variabilità.”

Considerane altri. Un atleta famoso potrebbe essere un dio sul campo da basket, ma un diavolo quando si tratta di farlo leggere le battute di una sceneggiatura in un modo che sembri naturale. Usando la tecnologia di Veritone, la loro parte nei filmati dei videogiochi o la lettura di un audiolibro delle loro memorie (che loro potrebbe anche non essere scritto) potrebbe essere interpretato da un doppiatore, che viene poi modificato digitalmente per sembrare come il atleta. Come altra possibilità, un film potrebbe essere tradotto per altri paesi con la stessa voce dell'attore che ora lo legge battute in francese, mandarino o in qualsiasi altra lingua, anche se l'attore non parla effettivamente loro.

Come reagirà il pubblico?

Una grande domanda che incombe su tutto questo, ovviamente, è come i membri del pubblico risponderanno a tutto ciò. Questa è la parte complicata e imprevedibile. Le celebrità oggi devono svolgere un ruolo complesso: sia figure straordinarie degne di avere la faccia incollata sui cartelloni pubblicitari, sia anche individui facilmente riconoscibili che hanno problemi relazionali, twittano riguardo al fatto di guardare la TV in pigiama e fanno facce buffe quando mangiano cibi caldi salsa.

Cosa succede, quindi, quando compaiono annunci che non solo presentano battute di lettura di celebrità, ma nei casi in cui sappiamo che è stato detto l'artista non ha mai effettivamente detto quelle battute, ma piuttosto ha utilizzato la sua voce in modo programmatico per portarci un bersaglio anno Domini? Steelberg ha affermato che non è molto diverso dal fatto che una celebrità ceda il controllo dei propri social media a un account manager di terze parti. Se vediamo il tweet di Taylor Swift, sappiamo che molto probabilmente non è la stessa Taylor a trasmettere il messaggio, soprattutto se si tratta di un'approvazione o di un contenuto promozionale.

Ma la voce è, in modo molto reale, diversa, proprio perché è più personale. Soprattutto se accompagnato da un certo grado di personalizzazione, che è uno dei casi d’uso più sensati. La verità è che, per citare lo sceneggiatore William Goldman, nessuno sa quale sarà la risposta del pubblico, proprio perché nessuno ha fatto esattamente questo prima.

"Percorrerà lo spettro, giusto?" ha detto Steelberg. "[Alcune] persone diranno: 'Utilizzerò un po' questo strumento per aumentare la mia giornata e aiutarmi a risparmiare tempo.' Altri diranno in piena regola: "Voglio che la mia voce ovunque estenda il mio marchio e lo concederò in licenza". fuori.'"

La sua ipotesi migliore è che l'accettazione avverrà caso per caso. "Devi essere in sintonia con la reazione del tuo pubblico e se vedi che le cose funzionano o non funzionano", ha detto. “Potrebbero amarlo. Potrebbero dire: "Sai una cosa?" Adoro il fatto che mi stai pubblicando 10 volte più contenuti o più contenuti personali, anche se so che hai utilizzato contenuti sintetici per aumentarli. Grazie. Grazie.'"

Pensa al futuro

Veritone MARVEL.ai
Veritono

Per quanto riguarda il futuro? Steelberg ha affermato che “Vogliamo lavorare con tutte le principali agenzie di talenti. Pensiamo che chiunque si occupi di fare soldi con un marchio raro dovrebbe pensare alla propria strategia vocale”.

E non aspettarti nemmeno che rimanga puramente audio. "Siamo sempre stati affascinati dal potenziale dell'utilizzo di contenuti sintetici per estendere, aumentare o potenzialmente sostituire completamente alcune delle forme legacy di produzione di contenuti", ha continuato. “Sia in senso audio o, in definitiva, in futuro, a senso video.”

Esatto: una volta conquistato il mercato nel mondo dei deepfake audio, Veritone intende fare un ulteriore passo avanti ed entrare nel mondo dei deepfake audio. avatar virtuali completamente realizzati che suonano e sembrano indistinguibili dalla loro fonte.

All'improvviso quelli annunci personalizzati da Rapporto di minoranza sembra molto meno fantascientifico.

Raccomandazioni degli editori

  • Premi Tech For Change CES 2023 di Digital Trends
  • All'interno della guerra in rapida escalation tra deepfake e rilevatori di deepfake
  • Alexa e Siri non riescono a capire il tono della tua voce, ma Oto sì
  • La California sta reprimendo i deepfake per la politica e il porno
  • Mantieni l'anonimato online con la tecnologia deepfake che genera per te un volto completamente nuovo