Є відео який періодично з’являється в моїй стрічці YouTube. Це розмова між реперами Snoop Dogg і 50 Cent, які нарікають на те, що в порівнянні з їхнім поколінням усі сучасні хіп-хоп виконавці, очевидно, звучать однаково. «Коли людина вирішує бути собою, вона пропонує те, чим не може бути ніхто інший», — каже 50 Cent. «Так, бо як тільки ти станеш собою — ким, крім тебе, стане тобою?» Снуп відповідає.
Зміст
- «Ми можемо багато чого змінити»
- Як відреагує публіка?
- Думай про майбутнє
Снуп Догг уособлює сучасні реперські виконавці
Коли відео було завантажено в жовтні 2014 року, це могло бути загалом правдою. Але лише через кілька років це точно не так. У світі глибоких аудіофейків можна навчити ШІ. щоб звучати неймовірно схоже на іншу людину, подаючи їй аудіокорпус, що складається з годин їхньої розмовної інформації. Результати є неймовірно точний.
Рекомендовані відео
Такі громадські діячі, як репер Jay-Z і психолог Джордан Петерсон вже скаржилися на людей, які привласнюють їхні голоси, створюючи аудіо-фейки, а потім змушуючи їх говорити дурниці в Інтернеті. "Прокидайся,"
– написав Петерсон. «Святість вашого голосу та ваш імідж знаходяться під серйозною загрозою». Це лише пустотливі випадки. В інших випадках результати можуть вилитися в злочинність без нюансів. в один випадок 2019 року, зловмисники використали аудіопейк, щоб видати себе за голос генерального директора енергетичної компанії та переконати підлеглого по телефону терміново перерахувати 243 000 доларів на банківський рахунок.Верітон, А.І. Компанія, яка створює інтелектуальні інструменти для маркування медіа для індустрії розваг, є повертаючи владу аудіопейку в руки (або, помилково, в горло) тих, кому це справедливо належить. Цього місяця компанія оголосила Marvel.ai, який президент компанії Райан Стілберг назвав Digital Trends «повним рішенням голосу як послуги». За окрему плату Veritone створить A.I. модель що звучить так само, як ви (або, швидше за все, відома особа з голосом, який відразу впізнається), який потім можна орендувати за ліцензією, як високотехнологічну версію Аріель голос як застава угода від Русалочка.
Синтетичний голос від MARVEL.ai
«Ваш голос так само цінний, як і будь-який інший вміст або атрибут бренду, який у вас є», — сказав Стілберг. «[Це на одному рівні з] вашим ім’ям і зовнішністю, вашим обличчям, вашим підписом або піснею, яку ви написали, чи частиною вмісту, який ви створили».
«Ми можемо багато чого змінити»
Певні люди, звісно, давно продають свій голос у формі запису рекламних роликів чи голосу за кадром, співу пісень та незліченних інших форм монетизації. Але всі ці спроби вимагали від людини справді вимовити слова. Рішення Veritone обіцяє зробити це індивідуально масштабованим.
Що, якби, наприклад, Кевін Харт міг передати свій голос люксовому бренду, який потім міг би використовувати його для створення персоналізованої реклами із зазначенням імені глядача, розташування його найближчої звичайної торгової точки та конкретного продукту, який він, найімовірніше, буде купити? Замість того, щоб проводити буквально дні в звукозаписній кабіні, A.I. може дозволити це зробити трохи більше (on принаймні з боку Харта), ніж підписати пунктирну лінію, щоб погодитися на те, щоб його схожість з голосом використовувалася згаданим третім вечірка. Поки він був на зйомках фільму, чи в комедійному турі, чи у відпустці, чи навіть спав, його цифровий голос міг збирати гроші.
«Ми можемо багато чого перепрофілювати», — пояснив Стілберг щодо навчального процесу. «Люди, які вже багато говорять, якщо вони створюють подкаст або в ЗМІ, там є багато даних. У нас, мабуть, уже є маса, якщо вони будуть нашими клієнтами».
«Що ми вважаємо таким захоплюючим у цій новій категорії штучного інтелекту? це розширюваність і мінливість».
Стілберг сказав, що ідея голосу як послуги спала на думку Veritone кілька років тому. Однак на той час він не був переконаний, що моделі машинного навчання здатні створювати гіперреалістичні синтетичні голоси, які він шукав. Це особливо важливо, коли мова йде про голоси, які ми добре знаємо, навіть якщо ми ніколи насправді не зустрічалися з мовцем. Результати можуть бути певними чутний uncanny valley, де кожен неправильний звук сповіщає слухачів про те, що вони слухають підробку. Але тут, у 2021 році, він переконаний, що все просунулося настільки, що тепер це можливо. Тому Marvel.ai.
Стілберг із захватом говорить про величезний потенціал технології, розповідаючи про можливе безліч її «модальностей виконання». Veritone може створювати моделі для перетворення тексту в мовлення. Він також може створювати моделі для мовлення, за допомогою яких актор голосу може «керувати» вокальним виконанням, читаючи слова з відповідною флексією, а потім готовий голос накладається в кінці, як у Snapchat фільтр. Компанія також може відбитки пальців кожного голосу, щоб визначити, чи ніби реальний аудіофайл, який десь з’являється, створений за допомогою її технології.
«Чим більше ви про це думаєте… ви буквально придумаєте ще 50 [можливих варіантів використання]», — сказав він. «Що ми вважаємо таким захоплюючим у цій новій категорії штучного інтелекту? це розширюваність і мінливість».
Розглянемо деякі інші. Знаменитий спортсмен може бути богом на баскетбольному майданчику, але дияволом, коли справа доходить до нього читання рядків у сценарії таким чином, щоб це звучало природно. Використовуючи технологію Veritone, свою участь у роликах відеоігор або читання аудіокниги своїх мемуарів (які вони може також не бути написаним) може виконуватися актором голосу, який потім цифрово налаштовується, щоб звучати як спортсмен. Як ще одна можливість, фільм можна було б перекласти для інших країн із тим самим голосом актора, який зараз читає репліки французькою, мандаринською або будь-якою іншою з кількох мов, навіть якщо актор насправді не розмовляє їх.
Як відреагує публіка?
Звичайно, велике питання, яке стоїть над усім цим, полягає в тому, як на все це відреагують представники громадськості. Це складний, непередбачуваний момент. Знаменитості сьогодні мають відігравати складну роль: як великі за життя постаті, гідні того, щоб їхнє обличчя було виклеєно на рекламних щитах, так і близькі люди, які мають проблеми у стосунках, пишуть у Твіттері про те, що дивляться телевізор у піжамі, і роблять дурні обличчя, коли їдять гаряче соус.
Що відбувається тоді, коли з’являється реклама, яка не лише показує знаменитість, яка читає рядки, але й у випадках, коли ми знаємо, що виконавець насправді ніколи не вимовляв ці рядки, а його голос програмно використовувався, щоб донести до нас цільовий оголошення? Стілберг сказав, що це мало що відрізняється від того, як знаменитість передає контроль над своїми соціальними мережами сторонньому менеджеру облікового запису. Якщо ми бачимо твіт Тейлор Свіфт, ми знаємо, що цілком можливо, що це не сама Тейлор, яка натискає повідомлення, особливо якщо це підтримка або частина рекламного вмісту.
Але голос насправді інший, саме тому, що він більш особистий. Особливо, якщо це супроводжується ступенем персоналізації, що є одним із найбільш доцільних випадків використання. Правда полягає в тому, що, цитуючи сценариста Вільяма Голдмана, ніхто не знає, яким буде суспільний резонанс — саме тому, що ніхто раніше не робив цього.
«Це буде працювати по спектру, правда?» – сказав Стілберг. «[Деякі] люди скажуть: «Я збираюся використовувати цей інструмент, щоб трохи покращити свій день, щоб допомогти мені заощадити час». Інші скажуть повномасштабно: «Я хочу, щоб мій голос всюди поширював мій бренд, і я збираюся ліцензувати його вийти».
Його найкраще припущення полягає в тому, що прийняття буде залежати від випадку окремо. «Ви повинні бути в гармонії з реакцією вашої аудиторії, і якщо ви бачите, що речі працюють чи не працюють», – сказав він. «Їм це може сподобатися. Вони можуть сказати: «Знаєте що? Мені подобається той факт, що ви надаєте мені в 10 разів більше вмісту або більше особистого контенту, хоча я знаю, що ви використовували синтетичний вміст, щоб збільшити його. Дякую тобі. Дякую тобі.'"
Думай про майбутнє
Що стосується майбутнього? Стілберг сказав: «Ми хочемо працювати з усіма великими агентствами талантів. Ми вважаємо, що кожен, хто займається заробітком грошей на дефіцитному бренді, повинен подумати про свою голосову стратегію».
І не очікуйте, що це залишиться лише аудіо. «Ми завжди були зачаровані потенціалом використання синтетичного контенту для розширення, доповнення або потенційної повної заміни деяких застарілих форм виробництва контенту», — продовжив він. «Нехай це буде в звуковому сенсі або, зрештою, у майбутньому, a сенс відео.”
Саме так: після того, як вона зайняла ринок у світі аудіо-підробок, Veritone планує зробити ще один крок далі та увійти у світ повністю реалізовані віртуальні аватари які і звучать, і виглядають невідрізними від свого джерела.
Раптом ті персоналізовані оголошення від Звіт меншості звучить набагато менше як наукова фантастика.
Рекомендації редакції
- Нагороди Digital Trends Tech For Change CES 2023
- Всередині стрімко загострюється війни між deepfakes і deepfake detectors
- Alexa та Siri не можуть зрозуміти тон вашого голосу, але Oto може
- Каліфорнія розправляється з дипфейками для політики та порно
- Зберігайте анонімність в Інтернеті за допомогою технологій deepfake, які створюють для вас абсолютно нове обличчя