Deep Voice 2 de Baidu puede imitar una voz humana

Baidu
Baidu, el gigante con sede en Beijing que controla el 80 por ciento del mercado chino de búsquedas en Internet, está invirtiendo fuertemente en inteligencia artificial. En 2013 abrió el Institute of Deep Learning, un centro de I+D centrado en el aprendizaje automático. Y en mayo, presentó la versión más reciente de Voz profunda, su motor de conversión de texto a voz impulsado por IA.

Voz profunda 2, que sigue los pasos del debut público de Deep Voice a principios de este año, puede producir voz en tiempo real que es casi indistinguible de una voz humana. Lo que es aún más impresionante es que sólo necesita treinta minutos de audio para construir un modelo funcional y puede imitar los acentos regionales de cientos de hablantes diferentes.

Vídeos recomendados

Esto es mucho mejor que las primeras versiones de Deep Voice, que requerían varias horas para aprender una sola voz.

La clave es la capacidad de Deep Voice 2 para identificar similitudes entre cientos de hablantes diferentes para construir un modelo funcional de una voz humana. Luego, obtiene de forma autónoma voces únicas de ese modelo, a diferencia de los asistentes de voz como Siri de Apple, que requieren que un Los humanos graban miles de horas de voz que los ingenieros ajustan a mano. Deep Voice 2 no requiere guía ni manual. intervención.

Baidu (signo)

"Si se le dan los datos correctos, podrá aprender por sí solo qué tipo de características son importantes", dijo a The Verge Andrew Gibiansky, científico investigador del Laboratorio de Inteligencia Artificial de Silicon Valley de Baidu.

Baidu no es la única empresa que invierte en tecnología de conversión de texto a voz de alta calidad. WaveNet de Google, un producto de la división DeepMind de la compañía, genera voces muestreando el habla humana real y creando de forma independiente sus propios sonidos en una variedad de voces. El Proyecto VoCo de Adobe transcribe el habla humana en texto editable en tiempo real. Y Lyrebird, una startup canadiense de inteligencia artificial, licencia algoritmos que pueden imitar cualquier voz con solo un minuto de audio de muestra, crea mil frases en menos de medio segundo y puede infundir en el discurso que crea emociones como ira, simpatía y estrés.

Pero no espere que Deep Voice 2 o WaveNet reemplacen a Siri, el Asistente de Google, o de Amazon alexa En el corto plazo: las aplicaciones de traducción impulsadas por IA requieren más recursos de los que los teléfonos actuales pueden proporcionar razonablemente. Pero Baidu ve potencial en aplicaciones como las de conversión de texto a voz y los asistentes de voz. “La capacidad de sintetizar rápidamente múltiples voces humanas tendrá un efecto enorme en productos como asistentes personales y lectores de libros electrónicos en el futuro. Por ejemplo, cada carácter de tu libro electrónico podría tener una voz única cuando lo escuches”.

Mejora tu estilo de vidaDigital Trends ayuda a los lectores a mantenerse al tanto del vertiginoso mundo de la tecnología con las últimas noticias, reseñas divertidas de productos, editoriales interesantes y adelantos únicos.