Baiduov Deep Voice 2 može imitirati ljudski glas

baidu
Baidu, velika tvrtka sa sjedištem u Pekingu koja kontrolira 80 posto kineskog tržišta internetskog pretraživanja, ulaže velika sredstva u umjetnu inteligenciju. Godine 2013. otvorio je Institute of Deep Learning, centar za istraživanje i razvoj usmjeren na strojno učenje. A u svibnju je skinula najnoviju verziju Dubok glas, njegov motor za pretvaranje teksta u govor pokretan umjetnom inteligencijom.

Dubok glas 2, koji slijedi nakon javnog debija Deep Voicea ranije ove godine, može proizvesti govor u stvarnom vremenu koji se gotovo ne razlikuje od ljudskog glasa. Što je još impresivnije, potrebno mu je samo trideset minuta zvuka za izradu radnog modela, a može imitirati regionalne naglaske stotina različitih zvučnika.

Preporučeni videozapisi

To je mnogo bolje od ranih verzija Deep Voicea, kojima je trebalo nekoliko sati da nauče jedan glas.

Njihov ključ je sposobnost Deep Voicea 2 da identificira sličnosti između stotina različitih govornika kako bi izgradio radni model ljudskog glasa. Zatim, autonomno izvodi jedinstvene glasove iz tog modela - za razliku od glasovnih asistenata poput Appleove Siri, koji zahtijevaju ljudski zapis tisuće sati govora koji inženjeri ručno podešavaju, Deep Voice 2 ne zahtijeva vodstvo ili priručnik intervencija.

Baidu (znak)

"Dajte mu prave podatke i on će sam naučiti koje su značajke važne", rekao je Andrew Gibiansky, istraživač u Baiduovom laboratoriju za umjetnu inteligenciju Silicijske doline, za The Verge.

Baidu nije jedina tvrtka koja ulaže u visokokvalitetnu tehnologiju pretvaranja teksta u govor. Googleov WaveNet, proizvod odjela DeepMind tvrtke, generira glasove uzorkovanjem stvarnog ljudskog govora i neovisnim stvaranjem vlastitih zvukova u različitim glasovima. Adobeov Project VoCo transkribira ljudski govor u tekst koji se može uređivati ​​u stvarnom vremenu. A Lyrebird, kanadski AI startup, licencira algoritme koji mogu imitirati bilo koji glas sa samo jednom minutom uzorka zvuka, stvoriti tisuću rečenica u manje od pola sekunde i može prožeti govor koji stvara emocijama poput ljutnje, suosjećanja i stres.

Ali nemojte očekivati ​​da će Deep Voice 2 ili WaveNet zamijeniti Siri Google pomoćnik, ili Amazonov Alexa uskoro — aplikacije za prevođenje koje pokreće AI zahtijevaju više resursa nego što ih današnji telefoni razumno mogu ponuditi. Ali Baidu vidi potencijal u aplikacijama kao što su aplikacije za pretvaranje teksta u govor i glasovni pomoćnici. “Sposobnost brze sintetizacije više ljudskih glasova imat će veliki učinak na proizvode kao što su osobni asistenti i čitači e-knjiga u budućnosti. Na primjer, svaki znak vaše e-knjige mogao bi imati jedinstven glas kada slušate e-knjigu.”

Nadogradite svoj životni stilDigitalni trendovi pomažu čitateljima da prate brzi svijet tehnologije sa svim najnovijim vijestima, zabavnim recenzijama proizvoda, pronicljivim uvodnicima i jedinstvenim brzim pregledima.