Veritone иска Deepfake да клонира вашия глас

Има видео който изскача периодично в емисията ми в YouTube. Това е разговор между рапърите Snoop Dogg и 50 Cent, които оплакват факта, че в сравнение с тяхното поколение, всички съвременни хип-хоп изпълнители очевидно звучат еднакво. „Когато човек реши да бъде себе си, той предлага нещо, което никой друг не може да бъде“, казва 50 Cent. „Да, защото щом си ти — кой може да бъдеш ти, освен теб?“ Snoop отговаря.

Съдържание

„Можем да пренастроим много“
Как ще реагира обществото?
Мислете за бъдещето

Snoop Dogg олицетворява днешните рапъри като звук

Когато видеоклипът беше качен през октомври 2014 г., това може да е било като цяло вярно. Но само няколко години по-късно със сигурност не е така. В свят на аудио фалшификации е възможно да обучите A.I. да звучи зловещо подобно на друг човек, като го захранва с аудио корпус, състоящ се от часове техни изговорени данни. Резултатите са изнервящо точен.

Препоръчани видеоклипове

Публични личности като рапърът Джей Зи и психологът Джордан Питърсън вече се оплакаха от хора, които си присвояват гласовете им, като създават звукови дълбоки фалшификати и след това ги карат да говорят глупави неща в интернет. "Събудете се,"

написа Питърсън. „Светостта на вашия глас и образът ви са изложени на сериозен риск.“ Това са само злобните случаи. В други случаи резултатите могат да се превърнат в престъпност без нюанси. в един инцидент от 2019 г, престъпниците са използвали аудио дийпфейк, за да се представят за гласа на главния изпълнителен директор на енергийна компания и да убедят подчинен по телефона спешно да прехвърли $243 000 по банкова сметка.

Veritone, A.I. компания, която създава интелигентни инструменти за етикетиране на медии за развлекателната индустрия, е връщане на силата на аудио дийпфейк обратно в ръцете (или, погрешно, в гърлата) на онези, на които тя правилно принадлежи. Този месец компанията обяви Marvel.ai, което президентът на компанията Райън Стийлбърг описа пред Digital Trends като „пълно решение за глас като услуга“. Срещу заплащане Veritone ще създаде A.I. модел това звучи точно като вас (или, по-вероятно, известен човек с незабавно разпознаваем глас), който след това може да бъде лицензиран на заем като високотехнологична версия на на Ариел сделка за глас като обезпечение от Малката русалка.

Синтетичен глас от MARVEL.ai

„Вашият глас е също толкова ценен, колкото всяко друго съдържание или атрибут на марката, който притежавате“, каза Стийлбърг. „[Това е на ниво с] вашето име и подобие, вашето лице, вашия подпис или песен, която сте написали, или част от съдържанието, което сте създали.“

„Можем да пренастроим много“

Някои хора, разбира се, отдавна са продали гласовете си под формата на запис на реклами или озвучаване, пеене на песни и безброй други форми на монетизация. Но всички тези усилия изискваха човекът наистина да каже думите. Това, което решението на Veritone обещава да направи, е да направи това индивидуално мащабируемо.

Какво ще стане, ако например е възможно Кевин Харт да лицензира гласа си на луксозна марка, която след това може да го използва за създаване на персонализирани реклами включващ името на зрителя, местоположението на най-близкия му физически търговски обект и конкретния продукт, който е най-вероятно Купува? Вместо да прекарва буквално дни в звукозаписната кабина, A.I. може да позволи това да се направи с малко повече (на Поне частта на Харт), отколкото подписването на пунктираната линия, за да се съгласи гласът му да бъде използван от споменатия трети партия. Докато снимаше филм, правеше комедийно турне, или си беше на почивка, или дори спеше, цифровият му глас можеше да печели пари.

„Можем да пренастроим много“, обясни Стийлбърг по отношение на процеса на обучение. „Хората, които вече говорят много, ако създават подкаст или в медиите, там има много данни. Вероятно вече имаме много от тях, ако се окаже, че са наши клиенти.

„Това, което намираме за толкова очарователно в тази нова категория на ИИ. е разширяемостта и променливостта.

Стийлбърг каза, че идеята за глас като услуга е хрумнала на Veritone преди няколко години. По това време обаче той не беше убеден, че моделите за машинно обучение са в състояние да създадат хиперреалистичните синтетични гласове, които търсеше. Това е особено важно, когато става въпрос за гласове, които познаваме отблизо, дори ако всъщност никога не сме срещали въпросния говорещ. Резултатите може да са някакви звуков uncanny valley, като всеки грешен звук предупреждава слушателите за факта, че слушат фалшив. Но тук, през 2021 г., той е убеден, че нещата са напреднали до точката, в която това вече е възможно. Следователно Marvel.ai.

Стийлбърг говори с развълнувани модни думи за огромния потенциал на технологията, като говори за нейното възможно изобилие от „модалности на изпълнение“. Veritone може да създава модели за текст-към-говор. Той може също така да изгради модели за реч-към-говор, при което гласовият актьор може да „движи“ вокално изпълнение чрез четене думите с подходящо наклонение и след това завършеният глас се наслагва в края като Snapchat филтър. Компанията може също така да отпечатва пръстови отпечатъци на всеки глас, за да може да разбере дали част от очевидно истинско аудио, което се появява някъде, е създадено с помощта на нейната технология.

„Колкото повече мислите за това... буквално ще измислите още 50 [възможни случая на употреба]“, каза той. „Това, което намираме за толкова очарователно в тази нова категория на ИИ. е разширяемостта и променливостта.

Помислете за някои други. Един известен спортист може да е бог на баскетболното игрище, но дявол, когато става въпрос четене на редове в скрипт по начин, който звучи естествено. Използване на технологията на Veritone, участието им в кътсцени на видеоигри или четене на аудио книга с техни мемоари (които те може също да не е написал) може да се изпълнява от гласов актьор, който след това се настройва дигитално, за да звучи като спортист. Като друга възможност, филм може да бъде преведен за други страни със същия глас на актьора, който сега чете реплики на френски, мандарин или който и да е друг от много езици, дори ако актьорът всъщност не говори тях.

Как ще реагира обществото?

Голям въпрос, който надвисва над всичко това, разбира се, е как членовете на обществото ще реагират на всичко това. Това е сложният, непредвидим момент. Знаменитостите днес трябва да играят сложна роля: както по-големи от живота фигури, заслужаващи лицата им да бъдат излепени на билбордове, така и близки хора, които имат проблеми във връзката, туитват за гледане на телевизия по пижами и правят глупави физиономии, когато ядат горещо сос.

Какво се случва тогава, когато се появят реклами, които не само представят знаменитост, която чете реплики, но и в случаите, когато знаем, че каза изпълнител никога не е казвал тези реплики, а по-скоро гласът им е бил използван програмно, за да ни донесе насочена реклама? Стийлбърг каза, че е малко по-различно от това знаменитост да предаде контрола върху социалните си медии на мениджър на акаунти на трета страна. Ако видим туит на Тейлър Суифт, знаем, че е много вероятно самата Тейлър да изписва съобщението, особено ако е одобрение или част от промоционално съдържание.

Но гласът е по много реален начин различен, точно защото е по-личен. Особено ако е придружено от известна степен на персонализация, което е един от най-разумните случаи на употреба. Истината е, че, ако цитирам сценариста Уилям Голдман, никой не знае какъв ще бъде общественият отзвук — именно защото никой не е правил точно това досега.

„Ще управлява спектъра, нали?“ каза Стийлбърг. „[Някои] хора ще кажат: „Ще използвам този инструмент малко, за да разширя деня си, за да ми помогне да спестя време.“ Други ще кажат напълно: „Искам гласът ми навсякъде да разшири марката ми и ще я лицензирам навън.

Най-доброто му предположение е, че приемането ще бъде за всеки отделен случай. „Трябва да сте в синхрон с реакцията на вашата публика и дали виждате, че нещата работят или не работят“, каза той. „Може да го харесат. Те могат да кажат: „Знаете ли какво? Харесва ми факта, че пускате 10 пъти повече съдържание или повече лично съдържание за мен, въпреки че знам, че сте използвали синтетично съдържание, за да го увеличите. Благодаря ти. Благодаря ти.'"

Мислете за бъдещето

Що се отнася до бъдещето? Стийлбърг каза, че „Искаме да работим с всички големи агенции за таланти. Смятаме, че всеки, който се занимава с правене на пари от оскъдна марка, трябва да помисли за своята гласова стратегия.“

И не очаквайте да остане само за аудиото. „Винаги сме били очаровани от потенциала за използване на синтетично съдържание за разширяване, разширяване или потенциално пълна замяна на някои от наследените форми на производство на съдържание“, продължи той. „Били това в аудио смисъл или, в крайна сметка в бъдеще, a видео смисъл.”

Точно така: След като завладее пазара в света на аудио дийпфейковете, Veritone планира да направи една крачка напред и да навлезе в света на напълно реализирани виртуални аватари които звучат и изглеждат неразличими от техния източник.

Изведнъж тези персонализирани реклами от Доклад за малцинството звучи много по-малко като научна фантастика.

Препоръки на редакторите

Награди Tech For Change на CES 2023 на Digital Trends
Вътре в бързо ескалиращата война между deepfake и детекторите на deepfake
Alexa и Siri не могат да разберат тона на гласа ви, но Oto може
Калифорния се бори с дълбоките фалшификати за политика и порно
Запазете анонимност онлайн с технологията deepfake, която генерира изцяло ново лице за вас