Veritone chce Deepfake sklonować Twój głos

Jest wideo który pojawia się okresowo na moim kanale YouTube. To rozmowa raperów Snoop Dogga i 50 Centa, którzy ubolewają nad faktem, że w porównaniu z ich pokoleniem wszyscy współcześni artyści hiphopowi najwyraźniej brzmią tak samo. „Kiedy ktoś decyduje się być sobą, oferuje coś, czego nikt inny nie może być” – mówi 50 Cent. „Tak, bo kiedy już będziesz sobą, kto może być tobą, jak nie ty?” Snoop odpowiada.

Zawartość

„Możemy wiele zmienić”
Jak zareaguje społeczeństwo?
Pomyśl o przyszłości

Snoop Dogg wciela się w brzmienie współczesnych raperów

Kiedy film został przesłany w październiku 2014 r., mogło to w dużej mierze być prawdą. Ale zaledwie kilka lat później z pewnością tak nie jest. W świecie deepfake'ów audio możliwe jest wyszkolenie AI. brzmieć niesamowicie podobnie do innej osoby, dostarczając jej korpus dźwiękowy składający się z godzin jej mówionych danych. Wyniki są niepokojąco dokładne.

Polecane filmy

Osoby publiczne, takie jak raper Jay-Z i psycholog Jordan Peterson skarżyli się już, że ludzie przywłaszczają sobie swój głos, tworząc fałszywe nagrania dźwiękowe, a następnie zmuszając ich do mówienia głupich rzeczy w Internecie. "Budzić się,"

napisał Peterson. „Świętość Twojego głosu i Twojego wizerunku jest poważnie zagrożona”. To tylko złośliwe przypadki. W innych przypadkach skutki mogą przerodzić się w pozbawioną niuansów przestępczość. W jedno wydarzenie w 2019 r, przestępcy wykorzystali deepfake audio, aby podszyć się pod głos dyrektora generalnego firmy energetycznej i przekonać przez telefon podwładnego, aby pilnie przelał 243 000 dolarów na konto bankowe.

Veritone, sztuczna inteligencja firmą tworzącą inteligentne narzędzia do etykietowania nośników dla branży rozrywkowej oddawanie mocy fałszywego dźwięku z powrotem w ręce (lub, błędnie, gardła) tych, którym słusznie należy. W tym miesiącu firma ogłosiła Marvel.ai, co prezes firmy Ryan Steelberg opisał Digital Trends jako „kompletne rozwiązanie głosowe jako usługa”. Za opłatą Veritone zbuduje moduł AI. modeluj to brzmi zupełnie jak Ty (lub, co bardziej prawdopodobne, sławna osoba z natychmiast rozpoznawalnym głosem), co można następnie wypożyczyć na licencji niczym zaawansowana technologicznie wersja Ariel umowa głosowa jako zabezpieczenie z Mała Syrenka.

Głos syntetyczny autorstwa MARVEL.ai

„Twój głos jest tak samo cenny, jak każda inna treść lub atrybut marki, jaki posiadasz” – powiedział Steelberg. „[To jest na poziomie] Twojego imienia i podobieństwa, Twojej twarzy, Twojego podpisu lub napisanej przez Ciebie piosenki lub stworzonej przez Ciebie treści”.

„Możemy wiele zmienić”

Niektóre osoby oczywiście od dawna sprzedają swoje głosy w formie nagrywania reklam lub podkładów głosowych, śpiewania piosenek i niezliczonych innych form monetyzacji. Jednak wszystkie te wysiłki wymagały od danej osoby wypowiedzenia tych słów. Rozwiązanie Veritone obiecuje zapewnić indywidualną skalowalność.

Co by było, gdyby na przykład Kevin Hart mógł udzielić licencji na swój głos luksusowej marce, która mogłaby go następnie wykorzystać do tworzenia spersonalizowanych reklam? zawierające imię i nazwisko widza, lokalizację jego najbliższego stacjonarnego punktu sprzedaży oraz konkretny produkt, który najprawdopodobniej wybierze kupić? Zamiast spędzać dosłownie dni w kabinie nagraniowej, A.I. mógłby pozwolić na to za pomocą nieco więcej (na przynajmniej w części Harta), niż podpisywanie się na przerywanej linii, aby wyrazić zgodę na wykorzystanie podobieństwa jego głosu przez wspomnianą trzecią osobę impreza. Kiedy kręcił film, brał udział w tournée komediowym, brał urlop, a nawet spał, jego cyfrowy głos mógł zarabiać pieniądze.

„Możemy wiele zmienić” – wyjaśnił Steelberg, odnosząc się do procesu szkoleniowego. „Ludzie, którzy już dużo mówią, jeśli produkują podcast lub występują w mediach, istnieje wiele danych. Prawdopodobnie mamy już tego mnóstwo, jeśli tak się składa, że jest naszym klientem”.

„To, co jest dla nas tak fascynującego w tej nowej kategorii sztucznej inteligencji. jest rozszerzalność i zmienność.”

Steelberg powiedział, że pomysł świadczenia usług głosowych pojawił się w firmie Veritone kilka lat temu. Jednak wówczas nie był przekonany, że modele uczenia maszynowego są w stanie stworzyć hiperrealistyczne syntetyczne głosy, których szukał. Jest to szczególnie ważne w przypadku głosów, które znamy blisko, nawet jeśli nigdy nie spotkaliśmy danego mówcy. Wyniki mogą być jakieś słyszalny Uncanny Valley, gdzie każdy zły dźwięk ostrzega słuchaczy, że słuchają podróbki. Ale tutaj, w 2021 r., jest przekonany, że sprawy osiągnęły taki poziom, że jest to teraz możliwe. Stąd Marvel.ai.

Steelberg w podekscytowany sposób wypowiada się na temat ogromnego potencjału tej technologii, omawiając całą możliwą różnorodność „sposób wykonania”. Veritone może tworzyć modele zamiany tekstu na mowę. Może także budować modele mowy na mowę, dzięki którym aktor głosowy może „sterować” występem wokalnym, czytając słowa z odpowiednią odmianą, a następnie nałożony na koniec gotowy głos jak Snapchat filtr. Firma może również pobrać odcisk palca każdego głosu, aby stwierdzić, czy fragment pozornie prawdziwego dźwięku, który się gdzieś pojawia, został stworzony przy użyciu jej technologii.

„Im więcej o tym pomyślisz… dosłownie wymyślisz jeszcze 50 [możliwych przypadków użycia]” – powiedział. „To, co jest dla nas tak fascynującego w tej nowej kategorii sztucznej inteligencji. jest rozszerzalność i zmienność.”

Rozważ inne. Słynny sportowiec może być bogiem na boisku do koszykówki, ale w rzeczywistości jest diabłem czytanie wierszy scenariusza w sposób, który brzmi naturalnie. Korzystając z technologii Veritone, biorąc udział w przerywnikach filmowych w grach wideo lub czytając książkę audio ze swoimi wspomnieniami (którą sami mógł również nie być napisany) może zostać wykonany przez aktora głosowego, który jest następnie cyfrowo dostosowywany tak, aby brzmiał jak sportowiec. Inną możliwością jest przetłumaczenie filmu na inne kraje przy użyciu głosu tego samego aktora, który teraz czyta linie w języku francuskim, mandaryńskim lub jakimkolwiek innym z wielu języków, nawet jeśli aktor w rzeczywistości nie mówi ich.

Jak zareaguje społeczeństwo?

Nad tym wszystkim wisi oczywiście wielkie pytanie: jak na to wszystko zareagują obywatele. To trudny i nieprzewidywalny element. Gwiazdy muszą dziś odgrywać złożoną rolę: zarówno postacie większe niż życie, warte wyklejenia swojej twarzy na billboardach, jak i osoby, z którymi można się utożsamić, które mają problemy w związkach, tweetują o oglądaniu telewizji w piżamie i robią głupie miny, gdy jedzą gorąco sos.

Co się zatem dzieje, gdy pojawiają się reklamy, które nie tylko przedstawiają wiersze czytające celebrytów, ale w przypadkach, gdy o tym wiemy? wykonawca nigdy tak naprawdę nie powiedział tych kwestii, ale raczej jego głos został programowo wykorzystany, aby zapewnić nam cel ogłoszenie? Steelberg powiedział, że niewiele różni się to od przekazania przez celebrytę kontroli nad swoimi mediami społecznościowymi zewnętrznemu menedżerowi konta. Jeśli zobaczymy tweeta Taylor Swift, wiemy, że prawdopodobnie nie jest to sama Taylor, która wystukała wiadomość, zwłaszcza jeśli jest to poparcie lub treść promocyjna.

Ale głos jest w bardzo realny sposób inny, właśnie dlatego, że jest bardziej osobisty. Zwłaszcza jeśli towarzyszy temu stopień personalizacji, co jest jednym z przypadków użycia, które mają największy sens. Prawda jest taka, że – cytując scenarzystę Williama Goldmana – nikt nie wie, jaka będzie reakcja publiczna – właśnie dlatego, że nikt wcześniej tego dokładnie nie zrobił.

„To będzie obejmować spektrum, prawda?” – stwierdził Steelberg. „[Niektórzy] ludzie powiedzą: «Zamierzam trochę użyć tego narzędzia, aby urozmaicić swój dzień i pomóc mi zaoszczędzić czas». Inni powiedzą z całą stanowczością: „Chcę, aby mój głos wszędzie rozszerzał moją markę i zamierzam udzielić jej licencji na zewnątrz.'"

Według niego, akceptacja będzie dokonywana indywidualnie dla każdego przypadku. „Musisz wsłuchać się w reakcję publiczności i zobaczyć, czy wszystko działa, czy nie” – powiedział. „Może to pokochać. Mogą powiedzieć: „Wiesz co? Podoba mi się fakt, że udostępniasz mi 10 razy więcej treści lub treści bardziej osobistych, mimo że wiem, że do ich wzmocnienia użyłeś treści syntetycznych. Dziękuję. Dziękuję.'"

Pomyśl o przyszłości

A co do przyszłości? Steelberg powiedział: „Chcemy współpracować ze wszystkimi głównymi agencjami talentów. Uważamy, że każdy, kto zajmuje się zarabianiem pieniędzy wokół rzadkiej marki, powinien pomyśleć o swojej strategii dotyczącej głosu”.

I nie spodziewaj się, że będzie to dotyczyć wyłącznie dźwięku. „Zawsze byliśmy zafascynowani możliwością wykorzystania treści syntetycznych do rozszerzenia, udoskonalenia lub potencjalnego całkowitego zastąpienia niektórych dotychczasowych form produkcji treści” – kontynuował. „Czy to w sensie audio, czy ostatecznie w przyszłości: zmysł wideo.”

Zgadza się: po opanowaniu rynku w świecie deepfake'ów audio Veritone planuje pójść o krok dalej i wejść do świata w pełni zrealizowane wirtualne awatary które zarówno brzmią, jak i wyglądają nie do odróżnienia od źródła.

Nagle te spersonalizowane reklamy z Raport mniejszości brzmi znacznie mniej jak science fiction.

Zalecenia redaktorów

Nagrody Digital Trends „Tech For Change” na targach CES 2023
Wewnątrz szybko narastającej wojny pomiędzy deepfakes i detektorami deepfakes
Alexa i Siri nie rozumieją tonu Twojego głosu, ale Oto tak
Kalifornia rozprawia się z deepfakesami dotyczącymi polityki i porno
Zachowaj anonimowość w Internecie dzięki technologii deepfake, która generuje dla Ciebie zupełnie nową twarz