Baidu sügav hääl 2 võib jäljendada inimhäält

baidu
Baidu, Pekingis asuv juggernaut, kes haldab 80 protsenti Hiina Interneti-otsingu turust, investeerib palju tehisintellekti. 2013. aastal avas see masinõppele keskendunud teadus- ja arenduskeskuse Institute of Deep Learning. Ja mais võttis see kaaned välja selle uusima versiooni Sügav hääl, selle AI-toega teksti kõneks muutmise mootor.

Sügav hääl 2, mis järgneb Deep Voice'i avalikule debüüdile selle aasta alguses, suudab toota reaalajas kõnet, mis on inimhäälest peaaegu eristamatu. Seda muljetavaldavam on see, et see vajab toimiva mudeli loomiseks vaid kolmkümmend minutit heli ja suudab jäljendada sadade erinevate kõlarite piirkondlikke aktsente.

Soovitatud videod

See on hüppeliselt parem kui Deep Voice'i varased versioonid, mille ühe hääle õppimiseks kulus mitu tundi.

Nende võtmeks on Deep Voice 2 võime tuvastada sarnasusi sadade erinevate kõlarite vahel, et luua inimhäälest töötav mudel. Seejärel tuletab see sellest mudelist iseseisvalt ainulaadsed hääled – erinevalt hääleassistentidest nagu Apple Siri, mis nõuavad, et inimrekord tuhandeid tunde kõnet, mida insenerid käsitsi häälestavad, Deep Voice 2 ei vaja juhiseid ega käsitsi sekkumine.

Baidu (märk)

"Andke talle õiged andmed ja ta saab ise õppida, millised funktsioonid on olulised," ütles Baidu Silicon Valley AI Labi teadur Andrew Gibiansky The Verge'ile.

Baidu ei ole ainus ettevõte, mis investeerib kvaliteetsesse kõnesünteesi tehnoloogiasse. Google'i WaveNet, ettevõtte DeepMindi divisjoni toode, genereerib hääli, proovides reaalset inimkõnet ja luues iseseisvalt oma helisid mitmesuguste häältega. Adobe Project VoCo transkribeerib inimkõne reaalajas redigeeritavaks tekstiks. Ja Lyrebird, Kanada tehisintellekti idufirma, litsentsib algoritme, mis suudavad vaid ühe minuti helinäidisega imiteerida mis tahes häält, tuhat lauset vähem kui poole sekundiga ja võib tekitatud kõnes tekitada emotsioone, nagu viha, kaastunne ja stress.

Kuid ärge oodake, et Deep Voice 2 või WaveNet asendaks Siri Google'i assistentvõi Amazoni oma Alexa niipea – AI-toega tõlkerakendused nõuavad rohkem ressursse, kui tänapäeva telefonid suudavad mõistlikult pakkuda. Kuid Baidu näeb potentsiaali sellistes rakendustes nagu teksti kõneks muutmise rakendused ja häälepõhised assistendid. „Võimalus kiiresti sünteesida mitut inimhäält avaldab tulevikus tohutut mõju sellistele toodetele nagu isiklikud assistendid ja e-raamatute lugejad. Näiteks võib teie e-raamatu igal tegelasel olla unikaalne hääl, kui kuulate e-raamatut.

Uuenda oma elustiiliDigitaalsed suundumused aitavad lugejatel hoida silma peal kiirel tehnikamaailmal kõigi viimaste uudiste, lõbusate tooteülevaadete, sisukate juhtkirjade ja ainulaadsete lühiülevaadetega.