Baidu's Deep Voice 2 var atdarināt cilvēka balsi

baidu
Baidu, Pekinas juggernauts, kas pārvalda 80 procentus Ķīnas interneta meklēšanas tirgus, iegulda lielus līdzekļus mākslīgajā intelektā. 2013. gadā tika atvērts Dziļās mācīšanās institūts — pētniecības un attīstības centrs, kas koncentrējas uz mašīnmācību. Un maijā tika ieviesta jaunākā versija Dziļa balss, tā ar AI darbināms teksta pārveides runā dzinējs.

Dziļā balss 2, kas seko Deep Voice publiskās debijas papēžiem šī gada sākumā, var radīt reāllaika runu, kas gandrīz neatšķiras no cilvēka balss. Vēl jo iespaidīgāk ir tas, ka tam ir vajadzīgas tikai trīsdesmit minūtes audio, lai izveidotu funkcionējošu modeli, un tas var atdarināt simtiem dažādu skaļruņu reģionālos akcentus.

Ieteiktie videoklipi

Tas ir daudz labāk nekā Deep Voice sākotnējās versijas, kurām bija nepieciešamas vairākas stundas, lai iemācītos vienu balsi.

Galvenais ir Deep Voice 2 spēja noteikt līdzības starp simtiem dažādu skaļruņu, lai izveidotu funkcionējošu cilvēka balss modeli. Pēc tam tas autonomi iegūst unikālas balsis no šī modeļa — atšķirībā no balss palīgiem, piemēram, Apple Siri, kas prasa, lai cilvēku ieraksta tūkstošiem runas stundu, ko inženieri noregulē ar roku, Deep Voice 2 nav nepieciešama vadība vai manuāla iejaukšanās.

Baidu (zīme)

"Piešķiriet tai pareizos datus, un tas pats par sevi var uzzināt, kāda veida funkcijas ir svarīgas," The Verge pastāstīja Endrjū Gibianskis, Baidu Silīcija ielejas AI laboratorijas pētnieks.

Baidu nav vienīgais uzņēmums, kas iegulda augstas kvalitātes teksta pārveides runā tehnoloģijā. Google WaveNet, uzņēmuma DeepMind nodaļas produkts, ģenerē balsis, iztverot reālu cilvēka runu un neatkarīgi veidojot savas skaņas dažādās balsīs. Adobe Project VoCo reāllaikā pārraksta cilvēka runu rediģējamā tekstā. Un Lyrebird, Kanādas AI starta uzņēmums, licencē algoritmus, kas var atdarināt jebkuru balsi tikai ar vienu minūti audio parauga, tūkstoš teikumu mazāk nekā pussekundē, un tā radītajā runā var ieplūst tādas emocijas kā dusmas, līdzjūtība un stress.

Bet negaidiet, ka Deep Voice 2 vai WaveNet aizstās Siri, the Google palīgsvai Amazon Alexa drīzumā — AI darbināmām tulkošanas lietotnēm ir nepieciešams vairāk resursu, nekā mūsdienu tālruņi spēj nodrošināt. Taču Baidu saskata potenciālu tādās lietojumprogrammās kā teksta-runas lietotnes un balss palīgi. “Spējai ātri sintezēt vairākas cilvēku balsis nākotnē būs milzīga ietekme uz tādiem produktiem kā personīgie asistenti un e-grāmatu lasītāji. Piemēram, katram jūsu e-grāmatas tēlam var būt unikāla balss, kad klausāties e-grāmatu.

Uzlabojiet savu dzīvesveiduDigitālās tendences palīdz lasītājiem sekot līdzi straujajai tehnoloģiju pasaulei, izmantojot visas jaunākās ziņas, jautrus produktu apskatus, ieskatu saturošus rakstus un unikālus ieskatus.