Voix profonde 2, qui fait suite aux débuts publics de Deep Voice plus tôt cette année, peut produire un discours en temps réel presque impossible à distinguer d'une voix humaine. D'autant plus impressionnant, il ne nécessite que trente minutes d'audio pour construire un modèle fonctionnel et peut imiter les accents régionaux de centaines de locuteurs différents.
Vidéos recommandées
C'est à pas de géant que les premières versions de Deep Voice, qui prenaient plusieurs heures pour apprendre une voix.
La clé est la capacité de Deep Voice 2 à identifier les similitudes entre des centaines de locuteurs différents pour construire un modèle de travail d'une voix humaine. Ensuite, il dérive de manière autonome des voix uniques à partir de ce modèle - contrairement aux assistants vocaux comme Siri d'Apple, qui exigent qu'un enregistrement humain de milliers d'heures de parole que les ingénieurs règlent à la main, Deep Voice 2 ne nécessite pas de conseils ou de manuel intervention.
"Donnez-lui les bonnes données, et il pourra apprendre par lui-même quel type de fonctionnalités sont importantes", a déclaré Andrew Gibiansky, chercheur au Silicon Valley AI Lab de Baidu, à The Verge.
Baidu n'est pas la seule entreprise à investir dans une technologie de synthèse vocale de haute qualité. WaveNet de Google, un produit de la division DeepMind de la société, génère des voix en échantillonnant de vraies paroles humaines et en créant indépendamment ses propres sons dans une variété de voix. Le projet VoCo d'Adobe transcrit la parole humaine en texte modifiable en temps réel. Et Lyrebird, une startup canadienne de l'IA, octroie des licences pour des algorithmes capables d'imiter n'importe quelle voix avec une seule minute d'échantillon audio, de créer mille phrases en moins d'une demi-seconde, et peut imprégner le discours qu'il crée d'émotions comme la colère, la sympathie et stresser.
Mais ne vous attendez pas à ce que Deep Voice 2 ou WaveNet remplacent Siri, le Assistant Google, ou d'Amazon Alexa bientôt - les applications de traduction basées sur l'IA nécessitent plus de ressources que les téléphones actuels ne peuvent raisonnablement fournir. Mais Baidu voit du potentiel dans des applications telles que les applications de synthèse vocale et les assistants vocaux. « La capacité de synthétiser rapidement plusieurs voix humaines aura un effet énorme sur les produits tels que les assistants personnels et les lecteurs de livres électroniques à l'avenir. Par exemple, chaque personnage de votre eBook peut avoir une voix unique lorsque vous écoutez l'eBook.
Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde trépidant de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.