Głęboki głos Baidu 2 może imitować ludzki głos

click fraud protection
baidu
Baidu, gigant z siedzibą w Pekinie, który zarządza 80 procentami chińskiego rynku wyszukiwania w Internecie, dużo inwestuje w sztuczną inteligencję. W 2013 roku otworzyła Institute of Deep Learning, centrum badawczo-rozwojowe zajmujące się uczeniem maszynowym. A w maju zdjęła najnowszą wersję Głęboki głos, jego mechanizm zamiany tekstu na mowę oparty na sztucznej inteligencji.

Głęboki głos 2, który pojawił się tuż po publicznym debiucie Deep Voice na początku tego roku, może generować mowę w czasie rzeczywistym, która jest prawie nie do odróżnienia od ludzkiego głosu. Tym bardziej imponujące, że potrzebuje zaledwie trzydziestu minut dźwięku, aby zbudować działający model i może naśladować regionalne akcenty setek różnych mówców.

Polecane filmy

To o wiele lepiej niż wczesne wersje Deep Voice, których nauczenie się jednego głosu zajęło wiele godzin.

Kluczem jest zdolność Deep Voice 2 do identyfikowania podobieństw między setkami różnych mówców w celu zbudowania działającego modelu ludzkiego głosu. Następnie autonomicznie wyprowadza unikalne głosy z tego modelu — w przeciwieństwie do asystentów głosowych, takich jak Siri firmy Apple, które wymagają, aby rejestruje tysiące godzin mowy, którą inżynierowie dostrajają ręcznie, Deep Voice 2 nie wymaga wskazówek ani instrukcji interwencja.

Baidu (znak)

„Daj mu odpowiednie dane, a może sam nauczyć się, jakie funkcje są ważne” – powiedział The Verge Andrew Gibiansky, naukowiec z Baidu's Silicon Valley AI Lab.

Baidu nie jest jedyną firmą inwestującą w wysokiej jakości technologię zamiany tekstu na mowę. WaveNet firmy Google, produkt działu DeepMind firmy, generuje głosy, próbkując prawdziwą ludzką mowę i niezależnie tworząc własne dźwięki w różnych głosach. Adobe Project VoCo dokonuje transkrypcji ludzkiej mowy na edytowalny tekst w czasie rzeczywistym. A Lyrebird, kanadyjski startup zajmujący się sztuczną inteligencją, licencjonuje algorytmy, które mogą naśladować dowolny głos za pomocą zaledwie jednej minuty próbki dźwięku, tworzyć tysiąca zdań w mniej niż pół sekundy i może nasycić tworzoną przez siebie mowę emocjami, takimi jak złość, współczucie i stres.

Ale nie oczekuj, że Deep Voice 2 lub WaveNet zastąpią Siri Asystent Googlelub Amazona Alexa w najbliższym czasie — aplikacje tłumaczeniowe wykorzystujące sztuczną inteligencję wymagają więcej zasobów, niż mogą zapewnić dzisiejsze telefony. Ale Baidu widzi potencjał w aplikacjach, takich jak aplikacje zamiany tekstu na mowę i asystenci głosowi. „Zdolność do szybkiej syntezy wielu ludzkich głosów będzie miała ogromny wpływ na produkty takie jak asystenci osobiści i czytniki e-booków w przyszłości. Na przykład każda postać Twojego eBooka może mieć unikalny głos podczas słuchania eBooka”.

Ulepsz swój styl życiaTrendy cyfrowe pomagają czytelnikom śledzić szybko zmieniający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zapowiedziom.