Baidu's Deep Voice 2 kan een menselijke stem imiteren

baidoe
Baidu, de in Beijing gevestigde moloch die 80 procent van de Chinese internetzoekmarkt beheerst, investeert zwaar in kunstmatige intelligentie. In 2013 opende het het Institute of Deep Learning, een R&D-centrum gericht op machine learning. En in mei haalde het de wraps van de nieuwste versie van Diepe stem, de door AI aangedreven tekst-naar-spraak-engine.

Diepe stem 2, dat volgde op het publieke debuut van Deep Voice eerder dit jaar, kan real-time spraak produceren die bijna niet te onderscheiden is van een menselijke stem. Des te indrukwekkender, het heeft slechts dertig minuten audio nodig om een ​​werkend model te bouwen en kan de regionale accenten van honderden verschillende sprekers imiteren.

Aanbevolen video's

Dat is veel beter dan eerdere versies van Deep Voice, die meerdere uren nodig hadden om één stem te leren.

De sleutel is het vermogen van Deep Voice 2 om overeenkomsten tussen honderden verschillende sprekers te identificeren om een ​​werkend model van een menselijke stem te bouwen. Vervolgens ontleent het autonoom unieke stemmen aan dat model - in tegenstelling tot stemassistenten zoals Apple's Siri, die vereisen dat een mensen registreren duizenden uren spraak die technici met de hand afstemmen, Deep Voice 2 heeft geen begeleiding of handleiding nodig interventie.

Baidu (teken)

"Geef het de juiste gegevens en het kan zelf leren wat voor soort functies belangrijk zijn", vertelde Andrew Gibiansky, een onderzoekswetenschapper bij Baidu's Silicon Valley AI Lab, aan The Verge.

Baidu is niet het enige bedrijf dat investeert in hoogwaardige tekst-naar-spraaktechnologie. Google's WaveNet, een product van de DeepMind-divisie van het bedrijf, genereert stemmen door echte menselijke spraak te samplen en onafhankelijk zijn eigen geluiden te creëren in een verscheidenheid aan stemmen. Project VoCo van Adobe zet menselijke spraak in realtime om in bewerkbare tekst. En Lyrebird, een Canadese AI-startup, licentieert algoritmen die elke stem kunnen imiteren met slechts één minuut aan voorbeeldaudio, creëren duizend zinnen in minder dan een halve seconde, en kan de spraak die het creëert doordrenken met emoties als woede, sympathie en spanning.

Maar verwacht niet dat Deep Voice 2 of WaveNet Siri, de Google Assistent, of die van Amazon Alexa elk moment binnenkort - AI-aangedreven vertaal-apps hebben meer middelen nodig dan de telefoons van vandaag redelijkerwijs kunnen bieden. Maar Baidu ziet mogelijkheden in toepassingen zoals tekst-naar-spraak-apps en spraakgestuurde assistenten. “De mogelijkheid om snel meerdere menselijke stemmen te synthetiseren zal in de toekomst een enorm effect hebben op producten zoals persoonlijke assistenten en eBook-readers. Elk karakter van je eBook kan bijvoorbeeld een unieke stem hebben als je naar het eBook luistert.”

Upgrade je levensstijlDigital Trends helpt lezers de snelle wereld van technologie in de gaten te houden met het laatste nieuws, leuke productrecensies, verhelderende hoofdartikelen en unieke sneak peeks.