Globok glas 2, ki sledi javnemu prvencu skupine Deep Voice v začetku tega leta, lahko proizvede govor v realnem času, ki se skoraj ne razlikuje od človeškega glasu. Še bolj impresivno je, da potrebuje le trideset minut zvoka za izdelavo delujočega modela in lahko posnema regionalne poudarke na stotine različnih govorcev.
Priporočeni videoposnetki
To je skokovito boljše od zgodnjih različic Deep Voice, ki so potrebovale več ur, da so se naučile enega glasu.
Njihova ključna je sposobnost Deep Voice 2, da prepozna podobnosti med stotinami različnih zvočnikov, da sestavi delujoč model človeškega glasu. Nato avtonomno pridobi edinstvene glasove iz tega modela – za razliko od glasovnih pomočnikov, kot je Applova Siri, ki zahtevajo, da človeški zapis na tisoče ur govora, ki ga inženirji uglasijo ročno, Deep Voice 2 ne potrebuje navodil ali priročnika intervencija.
»Dajte mu prave podatke in sam se bo lahko naučil, katere funkcije so pomembne,« je za The Verge povedal Andrew Gibiansky, raziskovalec v Baidujevem laboratoriju za umetno inteligenco Silicon Valley.
Baidu ni edino podjetje, ki vlaga v visokokakovostno tehnologijo pretvorbe besedila v govor. Googlov WaveNet, produkt oddelka podjetja DeepMind, ustvarja glasove z vzorčenjem pravega človeškega govora in neodvisnim ustvarjanjem lastnih zvokov v različnih glasovih. Adobejev Project VoCo v realnem času prepiše človeški govor v besedilo, ki ga je mogoče urejati. In Lyrebird, kanadsko zagonsko podjetje z umetno inteligenco, licencira algoritme, ki lahko posnemajo kateri koli glas s samo eno minuto vzorčnega zvoka, ustvarjajo tisoč stavkov v manj kot pol sekunde in lahko govor, ki ga ustvari, prepoji s čustvi, kot so jeza, sočutje in stres.
Vendar ne pričakujte, da bosta Deep Voice 2 ali WaveNet nadomestila Siri, Google Assistant, ali Amazon Alexa kmalu — aplikacije za prevajanje, ki jih poganja umetna inteligenca, zahtevajo več sredstev, kot jih današnji telefoni razumno lahko zagotovijo. Toda Baidu vidi potencial v aplikacijah, kot so aplikacije za pretvorbo besedila v govor in glasovni pomočniki. »Zmožnost hitre sinteze več človeških glasov bo v prihodnosti močno vplivala na izdelke, kot so osebni pomočniki in bralniki e-knjig. Na primer, vsak znak vaše e-knjige bi lahko imel edinstven glas, ko poslušate e-knjigo.«
Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.