„Baidu's Deep Voice 2“ gali imituoti žmogaus balsą

baidu
Baidu, Pekine įsikūręs žmogžudys, valdantis 80 procentų Kinijos interneto paieškos rinkos, daug investuoja į dirbtinį intelektą. 2013 m. atidarytas giluminio mokymosi institutas – mokslinių tyrimų ir plėtros centras, orientuotas į mašininį mokymąsi. O gegužę ji apėmė naujausią versiją Gilus balsas, jo AI varomas teksto į kalbą variklis.

Gilus balsas 2„Deep Voice“ debiutuojant viešai šių metų pradžioje, gali sukurti kalbą realiuoju laiku, kuri beveik nesiskiria nuo žmogaus balso. Dar įspūdingiau, kad norint sukurti veikiantį modelį, reikia vos trisdešimties minučių garso ir gali imituoti šimtų skirtingų garsiakalbių regioninius akcentus.

Rekomenduojami vaizdo įrašai

Tai daug geriau nei ankstyvosios „Deep Voice“ versijos, kurioms išmokti vieną balsą prireikė kelių valandų.

Svarbiausia yra „Deep Voice 2“ galimybė nustatyti panašumus tarp šimtų skirtingų garsiakalbių, kad būtų sukurtas veikiantis žmogaus balso modelis. Tada jis savarankiškai sukuria unikalius to modelio balsus – skirtingai nei balso padėjėjai, tokie kaip „Apple Siri“, kuriems reikia žmogus įrašo tūkstančius valandų kalbos, kurią inžinieriai derina ranka, „Deep Voice 2“ nereikalauja nurodymų ar vadovo intervencija.

Baidu (ženklas)

„Suteikite jai tinkamus duomenis, ir jis gali pats sužinoti, kokios funkcijos yra svarbios“, – „The Verge“ pasakojo Baidu Silicio slėnio AI laboratorijos mokslininkas Andrew Gibiansky.

„Baidu“ nėra vienintelė įmonė, investuojanti į aukštos kokybės teksto į kalbą technologijas. Google WaveNet, bendrovės DeepMind padalinio produktas, generuoja balsus atrinkdamas tikrą žmogaus kalbą ir savarankiškai kurdamas savo garsus įvairiais balsais. „Adobe“ projektas VoCo realiuoju laiku transkribuoja žmogaus kalbą į redaguojamą tekstą. Ir „Lyrebird“, Kanados dirbtinio intelekto startuolis, licencijuoja algoritmus, galinčius imituoti bet kokį balsą tik per vieną minutę garso pavyzdį. tūkstantį sakinių per mažiau nei pusę sekundės, o sukuriamą kalbą gali užkrėsti emocijomis, tokiomis kaip pyktis, užuojauta ir streso.

Tačiau nesitikėkite, kad „Deep Voice 2“ ar „WaveNet“ pakeis „Siri“. „Google“ padėjėjas, arba „Amazon“. Alexa bet kada – dirbtinio intelekto pagrįstoms vertimo programoms reikia daugiau išteklių, nei gali pagrįstai suteikti šiuolaikiniai telefonai. Tačiau Baidu mato potencialą tokiose programose kaip teksto į kalbą programos ir balso padėjėjai. „Gebėjimas greitai susintetinti kelis žmonių balsus turės didžiulį poveikį tokiems produktams kaip asmeniniai asistentai ir elektroninių knygų skaitytuvai. Pavyzdžiui, kiekvienas jūsų el. knygos veikėjas gali turėti unikalų balsą, kai klausotės el. knygos.

Atnaujinkite savo gyvenimo būdąSkaitmeninės tendencijos padeda skaitytojams stebėti sparčiai besivystantį technologijų pasaulį – pateikiamos visos naujausios naujienos, smagios produktų apžvalgos, įžvalgūs vedamieji leidiniai ir unikalūs žvilgsniai.