Глибокий голос 2, який слідує за публічним дебютом Deep Voice на початку цього року, може створювати мову в реальному часі, яку майже неможливо відрізнити від людського голосу. Тим більше вражає те, що йому потрібно лише тридцять хвилин аудіо, щоб створити робочу модель, і він може імітувати регіональні акценти сотень різних мовців.
Рекомендовані відео
Це набагато краще, ніж ранні версії Deep Voice, яким потрібно було кілька годин, щоб вивчити один голос.
Ключовою для них є здатність Deep Voice 2 визначати схожість між сотнями різних мовців, щоб побудувати робочу модель людського голосу. Потім він автономно отримує унікальні голоси з цієї моделі — на відміну від голосових помічників, таких як Siri від Apple, які вимагають, щоб людський запис тисячі годин розмови, яку інженери налаштовують вручну, Deep Voice 2 не потребує вказівок чи посібника втручання.
«Надайте йому правильні дані, і він сам дізнається, які функції важливі», — сказав The Verge Ендрю Гібіанскі, науковий співробітник Лабораторії штучного інтелекту Silicon Valley Lab Baidu.
Baidu — не єдина компанія, яка інвестує у високоякісну технологію синтезу мовлення. Google WaveNet, продукт підрозділу компанії DeepMind, генерує голоси, відбираючи реальну людську мову та самостійно створюючи власні звуки в різних голосах. Adobe Project VoCo транскрибує людську мову в редагований текст у реальному часі. А Lyrebird, канадський стартап штучного інтелекту, ліцензує алгоритми, які можуть імітувати будь-який голос лише за одну хвилину зразка аудіо, створювати тисячу речень менш ніж за півсекунди, і може наповнити створену мову такими емоціями, як гнів, співчуття та стрес.
Але не чекайте, що Deep Voice 2 або WaveNet замінять Siri Google Assistant, або Amazon Алекса найближчим часом — додатки для перекладу на основі штучного інтелекту вимагають більше ресурсів, ніж можуть забезпечити сучасні телефони. Але Baidu бачить потенціал у програмах, таких як програми для перетворення тексту в мовлення та голосові помічники. «Здатність швидко синтезувати кілька людських голосів матиме величезний вплив на такі продукти, як персональні помічники та пристрої для читання електронних книг у майбутньому. Наприклад, кожен персонаж вашої електронної книги може мати унікальний голос, коли ви слухаєте електронну книгу».
Оновіть свій спосіб життяDigital Trends допомагає читачам стежити за динамічним світом технологій завдяки всім останнім новинам, цікавим оглядам продуктів, проникливим редакційним статтям і унікальним у своєму роді коротким оглядам.