Deep Voice 2, som følger i hælene på Deep Voices offentlige debut tidligere i år, kan producere tale i realtid, der næsten ikke kan skelnes fra en menneskelig stemme. Så meget desto mere imponerende, den behøver kun tredive minutters lyd for at bygge en fungerende model, og den kan efterligne de regionale accenter fra hundredvis af forskellige højttalere.
Anbefalede videoer
Det er spring og grænser bedre end tidlige versioner af Deep Voice, som tog flere timer at lære én stemme.
De vigtigste er Deep Voice 2s evne til at identificere ligheder mellem hundredvis af forskellige højttalere for at bygge en fungerende model af en menneskelig stemme. Derefter udleder den selvstændigt unikke stemmer fra den model - i modsætning til stemmeassistenter som Apples Siri, som kræver, at en mennesker registrerer tusindvis af timers tale, som ingeniører tuner i hånden, Deep Voice 2 kræver ikke vejledning eller manual intervention.
"Giv den de rigtige data, og den kan selv lære, hvilke slags funktioner der er vigtige," fortalte Andrew Gibiansky, en forsker ved Baidu's Silicon Valley AI Lab, til The Verge.
Baidu er ikke den eneste virksomhed, der investerer i tekst-til-tale-teknologi af høj kvalitet. Googles WaveNet, et produkt fra virksomhedens DeepMind-afdeling, genererer stemmer ved at sample ægte menneskelig tale og selvstændigt skabe sine egne lyde i en række forskellige stemmer. Adobes Project VoCo transskriberer menneskelig tale til redigerbar tekst i realtid. Og Lyrebird, en canadisk AI-startup, licenserer algoritmer, der kan efterligne enhver stemme med blot et enkelt minuts prøvelyd, skabe tusind sætninger på mindre end et halvt sekund og kan tilføre talen, den skaber følelser som vrede, sympati og stress.
Men forvent ikke, at Deep Voice 2 eller WaveNet erstatter Siri, den Google Assistant, eller Amazons Alexa når som helst snart - AI-drevne oversættelsesapps kræver flere ressourcer, end nutidens telefoner med rimelighed kan levere. Men Baidu ser potentiale i applikationer som tekst-til-tale-apps og stemmebaserede assistenter. "Evnen til hurtigt at syntetisere flere menneskelige stemmer vil have en enorm effekt på produkter som personlige assistenter og e-bogslæsere i fremtiden. For eksempel kan hver karakter i din e-bog have en unik stemme, når du lytter til e-bogen."
Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.