![baidu](/f/7b0607c26119d0a5d3a0d32cbe4847a1.jpeg)
Voz profunda 2, que segue a estreia pública do Deep Voice no início deste ano, pode produzir fala em tempo real quase indistinguível de uma voz humana. Ainda mais impressionante, ele precisa de apenas trinta minutos de áudio para construir um modelo funcional e pode imitar os sotaques regionais de centenas de falantes diferentes.
Vídeos recomendados
Isso é muito melhor do que as versões anteriores do Deep Voice, que levava várias horas para aprender uma voz.
A chave é a capacidade do Deep Voice 2 de identificar semelhanças entre centenas de falantes diferentes para construir um modelo de trabalho de uma voz humana. Em seguida, deriva autonomamente vozes únicas desse modelo - ao contrário de assistentes de voz como o Siri da Apple, que exigem que um humano registra milhares de horas de fala que os engenheiros ajustam manualmente, o Deep Voice 2 não requer orientação ou manual intervenção.
![Baidu (sinal)](/f/276fb420345256934e4f206e2ebe69f9.jpg)
“Dê a ele os dados certos e ele pode aprender por conta própria que tipo de recursos são importantes”, disse Andrew Gibiansky, cientista pesquisador do Laboratório de IA do Vale do Silício da Baidu, ao The Verge.
A Baidu não é a única empresa que investe em tecnologia de conversão de texto em fala de alta qualidade. O WaveNet do Google, um produto da divisão DeepMind da empresa, gera vozes por amostragem da fala humana real e criando de forma independente seus próprios sons em uma variedade de vozes. O Projeto VoCo da Adobe transcreve a fala humana em texto editável em tempo real. E a Lyrebird, uma startup canadense de IA, licencia algoritmos que podem imitar qualquer voz com apenas um único minuto de amostra de áudio, criar mil frases em menos de meio segundo e pode infundir o discurso que cria com emoções como raiva, simpatia e estresse.
Mas não espere que Deep Voice 2 ou WaveNet substituam a Siri, a Assistente do Google, ou da Amazon Alexa a qualquer momento — os aplicativos de tradução baseados em IA exigem mais recursos do que os telefones de hoje podem razoavelmente fornecer. Mas o Baidu vê potencial em aplicativos como aplicativos de conversão de texto em fala e assistentes baseados em voz. “A capacidade de sintetizar rapidamente várias vozes humanas terá um grande efeito em produtos como assistentes pessoais e leitores de e-books no futuro. Por exemplo, cada personagem do seu eBook pode ter uma voz única quando você ouve o eBook.”
Atualize seu estilo de vidaO Digital Trends ajuda os leitores a acompanhar o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais perspicazes e prévias exclusivas.