Deep Voice 2 на Baidu може да имитира човешки глас

baidu
Baidu, базираният в Пекин гигант, който контролира 80 процента от китайския пазар за интернет търсене, инвестира сериозно в изкуствен интелект. През 2013 г. тя отвори Institute of Deep Learning, център за научноизследователска и развойна дейност, фокусиран върху машинното обучение. И през май свали най-новата версия на Дълбок глас, неговата задвижвана от AI машина за преобразуване на текст в реч.

Дълбок глас 2, който следва публичния дебют на Deep Voice по-рано тази година, може да произведе реч в реално време, която е почти неразличима от човешки глас. Още по-впечатляващо е, че се нуждае от само тридесет минути аудио, за да изгради работещ модел и може да имитира регионалните акценти на стотици различни високоговорители.

Препоръчани видеоклипове

Това е много по-добро от ранните версии на Deep Voice, които отнеха няколко часа, за да научат един глас.

Ключът към тях е способността на Deep Voice 2 да идентифицира приликите между стотици различни високоговорители, за да изгради работещ модел на човешки глас. След това той автономно извлича уникални гласове от този модел – за разлика от гласовите асистенти като Siri на Apple, които изискват човешки запис хиляди часове говор, който инженерите настройват ръчно, Deep Voice 2 не изисква насоки или ръководство интервенция.

Baidu (знак)

„Дайте му правилните данни и той може сам да научи какви функции са важни“, каза Андрю Гибиански, изследовател в Baidu’s Silicon Valley AI Lab, пред The ​​Verge.

Baidu не е единствената компания, която инвестира във висококачествена технология за синтез на реч. WaveNet на Google, продукт на подразделението DeepMind на компанията, генерира гласове чрез семплиране на реална човешка реч и независимо създаване на собствени звуци в различни гласове. Проектът VoCo на Adobe транскрибира човешка реч в редактируем текст в реално време. А Lyrebird, канадска стартираща компания за изкуствен интелект, лицензира алгоритми, които могат да имитират всеки глас само с една минута примерен звук, създават хиляда изречения за по-малко от половин секунда и може да вдъхне създадената от него реч с емоции като гняв, съчувствие и стрес.

Но не очаквайте Deep Voice 2 или WaveNet да заменят Siri Google Assistant, или на Amazon Алекса скоро — базираните на изкуствен интелект приложения за превод изискват повече ресурси, отколкото днешните телефони могат разумно да предоставят. Но Baidu вижда потенциал в приложения като приложения за синтез на реч и гласови асистенти. „Способността за бързо синтезиране на множество човешки гласове ще има огромен ефект върху продукти като лични асистенти и четци на електронни книги в бъдеще. Например, всеки знак от вашата електронна книга може да има уникален глас, когато слушате електронната книга.

Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.