![baidu](/f/7b0607c26119d0a5d3a0d32cbe4847a1.jpeg)
Deep Voice 2, som följer i hälarna på Deep Voices offentliga debut tidigare i år, kan producera realtidstal som nästan inte går att skilja från en mänsklig röst. Desto mer imponerande, den behöver bara trettio minuter ljud för att bygga en fungerande modell och kan imitera de regionala accenterna hos hundratals olika högtalare.
Rekommenderade videor
Det är språng och gränser bättre än tidiga versioner av Deep Voice, som tog flera timmar att lära sig en röst.
De viktigaste är Deep Voice 2:s förmåga att identifiera likheter mellan hundratals olika högtalare för att bygga en fungerande modell av en mänsklig röst. Sedan hämtar den självständigt unika röster från den modellen - till skillnad från röstassistenter som Apples Siri, som kräver att en mänskliga rekord tusentals timmar av tal som ingenjörer ställer in för hand, Deep Voice 2 kräver ingen vägledning eller manual intervention.
![Baidu (tecken)](/f/276fb420345256934e4f206e2ebe69f9.jpg)
"Ge den rätt data, och den kan lära sig på egen hand vilken typ av funktioner som är viktiga," sa Andrew Gibiansky, en forskare vid Baidus Silicon Valley AI Lab, till The Verge.
Baidu är inte det enda företaget som investerar i högkvalitativ text-till-tal-teknik. Googles WaveNet, en produkt från företagets DeepMind-division, genererar röster genom att sampla verkligt mänskligt tal och självständigt skapa sina egna ljud i en mängd olika röster. Adobes Project VoCo transkriberar mänskligt tal till redigerbar text i realtid. Och Lyrebird, en kanadensisk AI-startup, licensierar algoritmer som kan imitera vilken röst som helst med bara en enda minuts provljud, skapa tusen meningar på mindre än en halv sekund, och kan ingjuta talet det skapar med känslor som ilska, sympati och påfrestning.
Men förvänta dig inte att Deep Voice 2 eller WaveNet ska ersätta Siri Google Assistant, eller Amazons Alexa när som helst snart – AI-drivna översättningsappar kräver mer resurser än vad dagens telefoner rimligen kan leverera. Men Baidu ser potential i applikationer som text-till-tal-appar och röstbaserade assistenter. "Förmågan att snabbt syntetisera flera mänskliga röster kommer att ha en enorm effekt på produkter som personliga assistenter och e-boksläsare i framtiden. Till exempel kan varje karaktär i din e-bok ha en unik röst när du lyssnar på e-boken."
Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.