Глубокий голос 2, который следует за публичным дебютом Deep Voice в начале этого года, может воспроизводить речь в реальном времени, почти неотличимую от человеческого голоса. Тем более впечатляет то, что для создания рабочей модели требуется всего тридцать минут звука, и он может имитировать региональные акценты сотен разных говорящих.
Рекомендуемые видео
Это намного лучше, чем в ранних версиях Deep Voice, которым требовалось несколько часов, чтобы выучить один голос.
Ключевым моментом является способность Deep Voice 2 выявлять сходство между сотнями разных говорящих, чтобы построить рабочую модель человеческого голоса. Затем он автономно извлекает уникальные голоса из этой модели — в отличие от голосовых помощников, таких как Siri от Apple, которые требуют, чтобы человек записывает тысячи часов речи, которую инженеры настраивают вручную, Deep Voice 2 не требует указаний или руководств вмешательство.
«Дайте ему правильные данные, и он сможет самостоятельно узнать, какие функции важны», — сказал The Verge Эндрю Гибиански, научный сотрудник лаборатории искусственного интеллекта Baidu в Силиконовой долине.
Baidu — не единственная компания, инвестирующая в высококачественные технологии преобразования текста в речь. WaveNet от Google, продукт подразделения DeepMind компании, генерирует голоса, сэмплируя реальную человеческую речь и независимо создавая собственные звуки в различных голосах. Adobe Project VoCo преобразует человеческую речь в редактируемый текст в режиме реального времени. А Lyrebird, канадский стартап в области искусственного интеллекта, лицензирует алгоритмы, которые могут имитировать любой голос всего за одну минуту звукового образца, создавать тысячу предложений менее чем за полсекунды и может наполнить создаваемую им речь такими эмоциями, как гнев, сочувствие и стресс.
Но не ждите, что Deep Voice 2 или WaveNet заменят Siri. Google Ассистентили Amazon Алекса в ближайшее время — приложениям для перевода на базе ИИ требуется больше ресурсов, чем могут обеспечить современные телефоны. Но Baidu видит потенциал в таких приложениях, как приложения для преобразования текста в речь и голосовые помощники. «Возможность быстрого синтеза нескольких человеческих голосов окажет огромное влияние на такие продукты, как персональные помощники и устройства для чтения электронных книг в будущем. Например, каждый персонаж вашей электронной книги может иметь уникальный голос, когда вы слушаете электронную книгу».
Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, проницательным редакционным статьям и единственным в своем роде кратким обзорам.