Det finns en video som dyker upp med jämna mellanrum på mitt YouTube-flöde. Det är en konversation mellan rapparna Snoop Dogg och 50 Cent som beklagar det faktum att, jämfört med deras generation, alla moderna hiphop-artister tydligen låter likadant. "När en person bestämmer sig för att vara sig själv erbjuder de något som ingen annan kan vara", säger 50 Cent. "Ja, för när du väl är du - vem kan vara du förutom du?" Snoop svarar.
Innehåll
- "Vi kan återanvända mycket"
- Hur kommer allmänheten att reagera?
- Tänk på framtiden
Snoop Dogg efterliknar dagens rappare sound-alike flow
När videon laddades upp i oktober 2014 kan det ha varit sant i stort sett. Men bara några år senare är det verkligen inte det. I en värld av ljuddeepfakes är det möjligt att träna en A.I. att låta kusligt likt en annan person genom att mata den med en ljudkorpus som består av timmar av deras talade data. Resultaten är oroväckande exakt.
Rekommenderade videor
Offentliga personer som rapparen Jay-Z och psykologen Jordan Peterson har redan klagat på att människor förskingrat sina röster genom att skapa ljuddeepfakes och sedan få dem att säga dumma saker på internet. "Vakna,"
skrev Peterson. "Din rösts och din bilds helighet är i allvarlig fara." Det är bara de busiga fallen. I andra kan resultaten tippa över i onyanserad kriminalitet. I en incident 2019, använde brottslingar en ljuddeepfake för att efterlikna rösten till VD: n för ett energibolag och övertala en underhuggare via telefon att omedelbart överföra 243 000 USD till ett bankkonto.Veritone, en A.I. företag som skapar smarta verktyg för att märka media för underhållningsbranschen, är sätta tillbaka ljudets deepfake-kraft i händerna (eller, err, halsen) på dem som det med rätta tillhör. Denna månad meddelade företaget Marvel.ai, vad företagschef Ryan Steelberg beskrev för Digital Trends som en "komplett röst-som-en-tjänst-lösning." Mot en avgift kommer Veritone att bygga en A.I. modell det låter precis som du (eller, mer troligt, en känd person med en omedelbart igenkännbar röst), som sedan kan lånas ut som en högteknologisk version av Ariels röst-som-säkerhet fynd från Den lilla sjöjungfrun.
Syntetisk röst av MARVEL.ai
"Din röst är lika värdefull som allt annat innehåll eller varumärkesattribut du har", sa Steelberg. "[Det är på nivå med] ditt namn och utseende, ditt ansikte, din signatur eller en låt du har skrivit eller ett innehåll du har skapat."
"Vi kan återanvända mycket"
Vissa individer har naturligtvis länge sålt sina röster i form av att spela in reklamfilmer eller voiceovers, sjunga sånger och otaliga andra former av intäktsgenerering. Men alla dessa ansträngningar krävde att personen faktiskt sa orden. Vad Veritones lösning lovar att göra är att göra detta individuellt skalbart.
Tänk om det till exempel var möjligt för Kevin Hart att licensiera sin röst till ett lyxvarumärke som sedan kunde använda den för att skapa personliga annonser med namnet på tittaren, platsen för deras närmaste fysiska försäljningsställe och den specifika produkt som de mest sannolikt kommer att köpa? I stället för att tillbringa bokstavligen dagar i inspelningsbåset, har A.I. kunde tillåta detta att göras med lite mer (på Harts del, åtminstone) än att skriva under på den streckade linjen för att komma överens om att hans röstlikhet ska utnyttjas av nämnda tredje fest. Medan han var iväg och spelade in en film, gjorde en komediturné, eller tog en semester eller till och med sov, kunde hans digitala röst håva in pengarna.
"Vi kan återanvända mycket," förklarade Steelberg angående utbildningsprocessen. "Människor som redan pratar massor, om de producerar en podcast eller i media, det finns mycket data där ute. Vi har förmodligen massor av det redan om de råkar vara en kund till oss.”
"Vad vi tycker är så fascinerande med denna nya kategori av A.I. är töjbarheten och variationen.”
Steelberg sa att röst-som-en-tjänst-idén uppstod för Veritone för flera år sedan. Men vid den tiden var han inte övertygad om att maskininlärningsmodeller kunde skapa de hyperrealistiska syntetiska röster han letade efter. Detta är särskilt viktigt när det kommer till röster vi känner intimt, även om vi faktiskt aldrig har träffat talaren i fråga. Resultaten kan vara något slags hörbar kuslig dal, med varje fel ljud som uppmärksammar lyssnarna på det faktum att de lyssnar på en falsk. Men här 2021 är han övertygad om att saker och ting har kommit så långt att detta nu är möjligt. Därav Marvel.ai.
Steelberg talar med upphetsade modeord om teknologins enorma potential och talar om dess möjliga uppsjö av "utförandemetoder." Veritone kan skapa modeller för text-till-tal. Det kan också bygga modeller för tal-till-tal, där en röstskådespelare kan "driva" en sångprestation genom att läsa orden med lämplig böjning och sedan ha den färdiga rösten överlagd i slutet som en Snapchat filtrera. Företaget kan också fingeravtrycka varje röst så att det kan se om ett till synes verkligt ljud som dyker upp någonstans skapades med hjälp av dess teknik.
"Ju mer du tänker på det... du kommer bokstavligen att komma på 50 fler [möjliga användningsfall]", sa han. "Vad vi tycker är så fascinerande med denna nya kategori av A.I. är töjbarheten och variationen.”
Tänk på några andra. En berömd idrottare kan vara en gud på basketplanen, men en djävul när det kommer till läsa rader i ett manus på ett sätt som låter naturligt. Genom att använda Veritones teknologi, deras del i videospelssekvenser eller läsa en ljudbok av deras memoarer (som de kanske inte heller har skrivit) kan framföras av en röstskådespelare, som sedan justeras digitalt för att låta som idrottare. Som en annan möjlighet kan en film översättas för andra länder med samma skådespelareröst som nu läser filmen repliker på franska, mandarin eller något annat av ett antal språk, även om skådespelaren faktiskt inte talar dem.
Hur kommer allmänheten att reagera?
En stor fråga som hänger över allt detta är naturligtvis hur allmänheten kommer att reagera på det hela. Detta är den knepiga, oförutsägbara biten. Kändisar idag måste spela en komplex roll: både större än livet figurer som är värda att få sitt ansikte gipsat på skyltar, och även besläktade individer som har relationsproblem, twittrar om att de tittar på TV i sin pyjamas och gör dumma miner när de äter varmt sås.
Vad händer då när annonser visas som inte bara innehåller en kändis som läser rader, utan i fall då vi vet att det är sagt artisten sa faktiskt aldrig dessa rader, utan fick sin röst programmatiskt utnyttjad för att ge oss en målinriktad annons? Steelberg sa att det är lite annorlunda än en kändis som lämnar över kontrollen över sina sociala medier till en tredjepartskontoansvarig. Om vi ser Taylor Swift twittra vet vi att det troligtvis inte är Taylor själv som trycker på meddelandet, särskilt om det är ett stöd eller en del av reklaminnehåll.
Men rösten är, på ett väldigt verkligt sätt, annorlunda, just för att den är mer personlig. Särskilt om det åtföljs av en viss grad av personalisering, vilket är ett av de användningsfall som är mest vettigt. Sanningen är att, för att citera manusförfattaren William Goldman, ingen vet vad det offentliga svaret kommer att bli - just för att ingen har gjort exakt detta tidigare.
"Det kommer att köra spektrumet, eller hur?" sa Steelberg. "[Vissa] människor kommer att säga,"Jag kommer att använda det här verktyget lite för att utöka min dag för att hjälpa mig att spara tid." Andra kommer att säga fullt ut: 'Jag vill att min röst överallt ska utöka mitt varumärke, och jag kommer att licensiera det ut.'"
Hans bästa gissning är att acceptans kommer att ske från fall till fall. "Du måste vara i samklang med din publiks reaktion, och om du ser att saker fungerar eller inte fungerar," sa han. "De kanske älskar det. De kanske säger: 'Vet du vad? Jag älskar det faktum att du lägger ut 10 gånger mer innehåll eller mer personligt innehåll till mig, även om jag vet att du använde syntetiskt innehåll för att utöka det. Tack. Tack.'"
Tänk på framtiden
Vad gäller framtiden? Steelberg sa att "Vi vill arbeta med alla stora talangbyråer. Vi tycker att alla som är i branschen med att tjäna pengar kring ett knappt varumärke borde tänka på sin röststrategi."
Och förvänta dig inte att det bara handlar om ljud heller. "Vi har alltid varit fascinerade av potentialen i att använda syntetiskt innehåll för att antingen utöka, utöka eller potentiellt helt ersätta några av de äldre formerna av innehållsproduktion," fortsatte han. "Oavsett om det är ljudmässigt eller, i slutändan, i framtiden videokänsla.”
Det stämmer: När det väl har tagit sig in på marknaden i världen av ljuddeepfakes, planerar Veritone att gå ett steg längre och gå in i världen av fullständigt realiserade virtuella avatarer att både låter och ser omöjliga att skilja från sin källa.
Plötsligt de där anpassade annonser från Minoritetsrapport låter mycket mindre som science fiction.
Redaktörens rekommendationer
- Digital Trends Tech For Change CES 2023 Awards
- Inuti det snabbt eskalerande kriget mellan deepfakes och deepfake detektorer
- Alexa och Siri kan inte förstå tonen i din röst, men Oto kan
- Kalifornien slår ner på deepfakes för politik och porr
- Håll dig anonym online med deepfake-teknik som skapar ett helt nytt ansikte för dig