Baidu's Deep Voice 2 kan imitere en menneskelig stemme

baidu
Baidu, den Beijing-baserte juggernauten som kontrollerer 80 prosent av det kinesiske internettsøkemarkedet, investerer tungt i kunstig intelligens. I 2013 åpnet det Institute of Deep Learning, et FoU-senter med fokus på maskinlæring. Og i mai tok den av seg den nyeste versjonen av Dyp stemme, dens AI-drevne tekst-til-tale-motor.

Deep Voice 2, som følger i hælene på Deep Voices offentlige debut tidligere i år, kan produsere sanntidstale som nesten ikke kan skilles fra en menneskelig stemme. Desto mer imponerende, den trenger bare tretti minutter med lyd for å bygge en fungerende modell, og kan imitere de regionale aksentene til hundrevis av forskjellige høyttalere.

Anbefalte videoer

Det er store sprang bedre enn tidlige versjoner av Deep Voice, som tok flere timer å lære én stemme.

De viktigste er Deep Voice 2s evne til å identifisere likheter mellom hundrevis av forskjellige høyttalere for å bygge en fungerende modell av en menneskelig stemme. Deretter henter den autonomt unike stemmer fra den modellen - i motsetning til stemmeassistenter som Apples Siri, som krever at en mennesker registrerer tusenvis av timer med tale som ingeniører stiller inn for hånd, Deep Voice 2 krever ikke veiledning eller manual innblanding.

Baidu (tegn)

"Gi den de riktige dataene, og den kan lære på egenhånd hva slags funksjoner som er viktige," sa Andrew Gibiansky, en forsker ved Baidu's Silicon Valley AI Lab, til The Verge.

Baidu er ikke det eneste selskapet som investerer i tekst-til-tale-teknologi av høy kvalitet. Googles WaveNet, et produkt fra selskapets DeepMind-divisjon, genererer stemmer ved å sample ekte menneskelig tale og uavhengig skape sine egne lyder i en rekke stemmer. Adobes Project VoCo transkriberer menneskelig tale til redigerbar tekst i sanntid. Og Lyrebird, en kanadisk AI-oppstart, lisensierer algoritmer som kan imitere hvilken som helst stemme med bare ett minutt med prøvelyd, lage tusen setninger på mindre enn et halvt sekund, og kan fylle talen den skaper med følelser som sinne, sympati og understreke.

Men ikke forvent at Deep Voice 2 eller WaveNet skal erstatte Siri Google Assistant, eller Amazons Alexa når som helst snart – AI-drevne oversettelsesapper krever mer ressurser enn dagens telefoner med rimelighet kan levere. Men Baidu ser potensiale i applikasjoner som tekst-til-tale-apper og stemmebaserte assistenter. "Evnen til raskt å syntetisere flere menneskelige stemmer vil ha en enorm effekt på produkter som personlige assistenter og eBok-lesere i fremtiden. For eksempel kan hvert tegn i e-boken din ha en unik stemme når du lytter til e-boken."

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.