Veritone haluaa deepfake-kloonata äänesi

Siellä video joka ponnahtaa ajoittain YouTube-syötteeseeni. Se on keskustelu räppärien Snoop Doggin ja 50 Centin välillä, jossa valitetaan, että heidän sukupolveensa verrattuna kaikki modernit hiphop-artistit kuulostavat samalta. "Kun henkilö päättää olla oma itsensä, hän tarjoaa jotain, jota kukaan muu ei voi olla", sanoo 50 Cent. "Joo, koska kun olet sinä - kuka voi olla sinä, paitsi sinä?" Snoop vastaa.

Sisällys

"Voimme käyttää paljon uudelleen"
Miten yleisö reagoi?
Ajattele tulevaisuutta

Snoop Dogg matkii nykypäivän räppärien soundia samankaltaista virtausta

Kun video ladattiin lokakuussa 2014, se saattoi olla pitkälti totta. Mutta vain muutaman vuoden kuluttua se ei todellakaan ole. Audiodeepfakejen maailmassa on mahdollista kouluttaa A.I. kuulostaa aavemaisen samanlaiselta kuin toinen henkilö syöttämällä sille äänikorpuksen, joka koostuu tunteista hänen puhutusta datastaan. Tulokset ovat järkyttävän tarkka.

Suositellut videot

Julkisuuden henkilöt, kuten räppäri Jay-Z ja psykologi Jordan Peterson ovat jo valittaneet ihmisistä, jotka kavaltavat äänensä luomalla syväväärennöksiä ja saattamalla heidät sitten sanomaan typeriä asioita Internetissä. "Herätä,"

kirjoitti Peterson. "Äänesi ja kuvasi pyhyys on vakavassa vaarassa." Nämä ovat vain ilkeitä tapauksia. Toisissa tapauksissa tulokset voivat kaatua vivahteettomaan rikollisuuteen. Sisään yksi tapaus vuodelta 2019, rikolliset käyttivät äänen syväväärennöstä jäljittelemään energiayhtiön toimitusjohtajan ääntä ja suostuttelemaan alamaista puhelimitse siirtämään kiireellisesti 243 000 dollaria pankkitilille.

Veritone, A.I. yritys, joka luo älykkäitä työkaluja median etiketöintiin viihdeteollisuudelle äänen syväfake-voiman laittaminen takaisin niiden käsiin (tai, virhe, kurkkuun), joille se on oikein kuuluu. Tässä kuussa yhtiö ilmoitti Marvel.ai, jonka yrityksen toimitusjohtaja Ryan Steelberg kuvaili Digital Trendsille "täydelliseksi äänipalveluratkaisuksi". Maksua vastaan Veritone rakentaa A.I. malli siitä kuulostaa aivan sinulta (tai todennäköisemmin kuuluisalta henkilöltä, jolla on välittömästi tunnistettavissa oleva ääni), joka voidaan sitten lisensoida lainaksi kuin korkean teknologian versio Arielin ääni vakuutena alkaen Pieni merenneito.

Synthetic Voice, MARVEL.ai

"Sinun äänesi on yhtä arvokas kuin mikä tahansa muu sisältö tai brändiominaisuus", Steelberg sanoi. "[Se on samalla tasolla kuin] nimesi ja kuvasi, kasvosi, allekirjoituksesi tai kirjoittamasi kappale tai luomasi sisältö."

"Voimme käyttää paljon uudelleen"

Tietyt henkilöt ovat tietysti jo pitkään myyneet äänensä nauhoittamalla mainoksia tai äänityksiä, laulamalla kappaleita ja lukemattomia muita kaupallistamisen muotoja. Mutta kaikki nämä yritykset vaativat henkilön todella sanomaan sanat. Veritonen ratkaisu lupaa tehdä tästä yksilöllisesti skaalautuvan.

Mitä jos esimerkiksi Kevin Hart voisi lisensoida äänensä luksusbrändille, joka voisi sitten käyttää sitä personoitujen mainosten luomiseen jossa on katsojan nimi, hänen lähimmän kivijalkamyymälänsä sijainti ja tuote, jonka hän todennäköisimmin ostaisi ostaa? Sen sijaan, että viettäisi kirjaimellisesti päiviä äänityskopissa, A.I. voisi sallia tämän tekemisen vähän enemmän (on Hartin osa, ainakin) kuin allekirjoittaa katkoviivalla suostuakseen hänen äänensäkaltaisuuteensa, että mainittu kolmas valjastaa juhla. Kun hän oli kuvaamassa elokuvaa, tekemässä komediakiertuetta tai lomalla tai jopa nukkumassa, hänen digitaalinen äänensä saattoi haravoida rahaa.

"Voimme käyttää paljon uudelleen", Steelberg selitti koulutusprosessista. "Ihmiset, jotka puhuvat jo paljon, jos he tuottavat podcastia tai mediassa, siellä on paljon dataa. Meillä on luultavasti jo paljon sitä, jos he sattuvat olemaan asiakkaamme."

"Se, mikä on meidän mielestämme niin kiehtovaa tässä uudessa A.I-kategoriassa on laajennettavuus ja vaihtelevuus."

Steelberg sanoi, että ääni palveluna -idea tuli Veritonelle useita vuosia sitten. Hän ei kuitenkaan tuolloin ollut vakuuttunut siitä, että koneoppimismallit pystyivät luomaan hänen etsimäänsä hyperrealistisia synteettisiä ääniä. Tämä on erityisen tärkeää, kun on kyse äänistä, jotka tunnemme läheisesti, vaikka emme olisi koskaan tavanneet kyseistä puhujaa. Tulokset voivat olla jonkinlaisia kuultavissa outo laakso, jossa jokainen väärä ääni varoittaa kuulijoita siitä, että he kuuntelevat väärennöstä. Mutta täällä vuonna 2021 hän on vakuuttunut siitä, että asiat ovat edenneet niin pitkälle, että se on nyt mahdollista. Siksi Marvel.ai.

Steelberg puhuu innoissaan teknologian valtavasta potentiaalista ja puhuu sen mahdollisista "suoritusmenetelmien" joukosta. Veritone voi luoda malleja tekstistä puheeksi. Se voi myös rakentaa malleja puheesta puheeksi, jolloin ääninäyttelijä voi "ohjata" lauluesitystä lukemalla sanat sopivalla taivutusmuodolla ja sitten lopuksi peitetty ääni kuin Snapchat suodattaa. Yritys voi myös ottaa sormenjäljet jokaisesta äänestä, jotta se voi kertoa, onko jossain esiin tuleva näennäisesti todellista ääntä luotu sen teknologialla.

"Mitä enemmän ajattelet sitä… tulet kirjaimellisesti keksimään 50 muuta [mahdollista käyttötapausta]", hän sanoi. "Se, mikä on meidän mielestämme niin kiehtovaa tässä uudessa A.I-kategoriassa on laajennettavuus ja vaihtelevuus."

Harkitse joitain muita. Kuuluisa urheilija saattaa olla jumala koripallokentällä, mutta paholainen, kun se tulee lukea rivejä käsikirjoituksesta tavalla, joka kuulostaa luonnolliselta. Käyttämällä Veritonen teknologiaa, heidän osuuttaan videopelien välikohtauksissa tai lukemalla äänikirjaa muistelmistaan (jonka he ei ehkä myöskään ole kirjoittanut) voisi esittää ääninäyttelijä, joka sitten muokataan digitaalisesti kuulostamaan urheilija. Toisena mahdollisuutena elokuva voitaisiin kääntää muihin maihin samalla näyttelijän äänellä, joka nyt lukee elokuvaa rivit ranskaksi, mandariiniksi tai millä tahansa muulla useista kielistä, vaikka näyttelijä ei itse asiassa puhuisikaan niitä.

Miten yleisö reagoi?

Suuri kysymys, joka leijuu kaiken tämän päällä, on tietysti se, kuinka suuren yleisön jäsenet aikovat vastata tähän kaikkeen. Tämä on hankala, arvaamaton osa. Nykypäivän julkkiksilla on oltava monimutkainen rooli: sekä elämää suurempia hahmoja, jotka ansaitsevat kasvonsa mainostauluille, että myös samanhenkiset henkilöt, joilla on parisuhdeongelmia, twiittaavat television katselusta pyjamassaan ja tekevät typeriä naamoja syödessään kuumaa kastike.

Mitä sitten tapahtuu, kun näkyviin tulee mainoksia, joissa julkkis lukee rivejä, mutta myös silloin, kun tiedämme, että esiintyjä ei koskaan sanonut noita rivejä, vaan hänen äänensä oli ohjelmallisesti hyödynnetty tuomaan meille kohdistettu ilmoitus? Steelberg sanoi, että se eroaa vähän siitä, että julkkis luovuttaa sosiaalisen mediansa hallinnan kolmannen osapuolen tilivastaavalle. Jos näemme Taylor Swiftin twiittaavan, tiedämme, ettei Taylor välttämättä itse nappaa viestiä, varsinkin jos kyseessä on tuki tai mainossisältö.

Mutta ääni on hyvin todellisella tavalla erilainen, juuri siksi, että se on henkilökohtaisempaa. Varsinkin jos siihen liittyy jonkin verran personointia, mikä on yksi järkevimmistä käyttötapauksista. Totuus on, että käsikirjoittaja William Goldmania lainaten, kukaan ei tiedä, mikä on yleisön vastaus - juuri siksi, että kukaan ei ole tehnyt täsmälleen tätä ennen.

"Se ajaa spektriä, eikö niin?" Steelberg sanoi. "[Jotkut] ihmiset sanovat: 'Aion käyttää tätä työkalua hieman lisätäkseni päivääni säästääkseni aikaa." Toiset sanovat täysillä: "Haluan ääneni laajentavan brändiäni kaikkialla, ja aion lisensoida sen ulos.’”

Hänen paras arvauksensa on, että hyväksyntä tapahtuu tapauskohtaisesti. "Sinun on oltava sopusoinnussa yleisösi reaktioiden kanssa ja jos näet, että asiat toimivat tai eivät toimi", hän sanoi. "He saattavat rakastaa sitä. He saattavat sanoa: 'Tiedätkö mitä? Pidän siitä, että tarjoat minulle 10 kertaa enemmän tai henkilökohtaisempaa sisältöä, vaikka tiedänkin, että käytit synteettistä sisältöä sen lisäämiseen. Kiitos. Kiitos.'"

Ajattele tulevaisuutta

Mitä tulee tulevaisuuteen? Steelberg sanoi, että "Haluamme tehdä yhteistyötä kaikkien tärkeimpien lahjakkuustoimistojen kanssa. Mielestämme jokaisen, joka ansaitsee rahaa niukalla brändillä, tulisi miettiä äänistrategiaansa."

Älä myöskään odota, että se jää pelkästään äänestä. "Meitä on aina kiehtonut mahdollisuudet käyttää synteettistä sisältöä joko laajentamaan, täydentämään tai mahdollisesti korvaamaan kokonaan joitakin vanhoja sisällöntuotannon muotoja", hän jatkoi. "Olkoon se sitten äänen mielessä tai viime kädessä tulevaisuudessa a videon järkeä.”

Aivan oikein: kun Veritone on johtanut markkinoiden nurkkaan audiodeepfake-maailmassa, se aikoo mennä askeleen pidemmälle ja astua täysin toteutetut virtuaaliset avatarit jotka molemmat kuulostavat ja näyttävät erottumattomilta lähteestään.

Yhtäkkiä ne henkilökohtaisia mainoksia Vähemmistöraportti kuulostaa paljon vähemmän tieteiskirjalliselta.

Toimittajien suositukset

Digital Trendsin Tech For Change CES 2023 -palkinnot
Nopeasti kiihtyvässä syvässä väärennösten ja syväväärennösten ilmaisimien välisessä sodassa
Alexa ja Siri eivät ymmärrä äänesi sävyä, mutta Oto ymmärtää
Kalifornia hillitsee politiikan ja pornon väärennöksiä
Pysy nimettömänä verkossa deepfake-tekniikalla, joka luo sinulle kokonaan uudet kasvot