La nouvelle technologie vocale d'IBM se veut surhumaine

IBM a a dévoilé ViaVoice 4.4 intégré, qui propose des services de reconnaissance de commandes de forme libre, de traduction et de sous-titrage à la volée, et peut prétendre comprendre certaines nuances de l'anglais parlé. La technologie est conçue pour permettre aux utilisateurs de contrôler les systèmes intégrés dans les véhicules, les appareils portables et autres systèmes non informatiques. applications pour parler de manière flexible et naturelle aux appareils sans avoir à mémoriser et à prononcer soigneusement des paroles prédéfinies commandes.

À titre d'exemple de « reconnaissance de commande de forme libre », IBM propose qu'une commande permettant de changer une station de radio dans une voiture en 104,3 FM, les utilisateurs peuvent prononcez diverses commandes telles que « Passer à 104,3 », « Régler sur 104,3 FM » ou « Régler la station de radio sur 104,3 ». Permettre au système de comprendre une plus grande gamme de commandes intuitives permettra d'utiliser la technologie de reconnaissance vocale avec plus de succès dans un plus large éventail de domaines applications. ViaVoice utilise désormais l'analyse statistique et sémantique des commandes pour interpréter les commandes en dehors d'un ensemble prédéfini et mémorisé, et la modélisation acoustique améliorée offre une plus grande précision dans des conditions bruyantes et lorsque la parole est interrompue par des transitoires. des bruits.

Vidéos recommandées

Deux autres projets de reconnaissance vocale chez IBM, MASTOR et Tales, offrent deux nouvelles orientations fascinantes pour la recherche vocale. MAÎTRE (Multilingual Automatic Speech-to-Speech Translator), un projet de recherche d'IBM, peut traduire dynamiquement l'anglais vers le chinois mandarin. Un utilisateur parle dans un microphone en anglais et MASTOR traduit la phrase en mandarin à la volée. MASTOR utilise une analyse statistique de la saisie orale, en décompilant d'abord la phrase en un ensemble de paramètres structurels. et des modèles conceptuels, puis en compilant une phrase traduite dans la langue cible en utilisant ces mêmes motifs. Une certaine latence est inévitable dans des systèmes comme celui-ci

Recommandations des rédacteurs

  • Le meilleur logiciel de synthèse vocale pour 2022
  • La technologie de reconnaissance faciale pour les ours vise à assurer la sécurité des humains
  • IBM ne développera ni ne recherchera plus de technologie de reconnaissance faciale

Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde en évolution rapide de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.