Une nouvelle méthode de reconnaissance vocale apprend grâce aux images

améliorations des messages Android les téléphones s'envoyant des SMS
Olga Lebedeva/123RF.com
Les systèmes de reconnaissance vocale ne sont peut-être pas encore parfaits, mais comme le montrent Amazon Echo, ils s’améliorent et deviennent de plus en plus omniprésents.

UN nouvelle recherche par des enquêteurs du département d’informatique et d’intelligence artificielle du Massachusetts Institute of Technology (CSAIL) propose une nouvelle technique pour entraîner ces systèmes — en leur faisant apprendre en regardant images.

Vidéos recommandées

"Il s'agit d'une tentative pour que les machines nécessitent moins de formation supervisée pour apprendre le langage parlé." Jim Verre, chercheur scientifique principal au CSAIL, a déclaré à Digital Trends. « La manière conventionnelle de former les systèmes de reconnaissance vocale consiste à utiliser des enregistrements de personnes parlant et, pour chaque énoncé, à transcrire exactement les mots qui ont été prononcés. Idéalement, vous disposez de centaines ou de milliers d’heures de parole pour que le système fonctionne correctement. Certaines des plus grandes entreprises qui le font, comme Baidu et Google, consacrent des dizaines de milliers d'heures à la formation. Plus ils disposent de données annotées, plus ces systèmes sont performants.

Alors, qu’est-ce qui ne va pas? Après tout, comme indiqué précédemment, la technologie de reconnaissance vocale ne cesse de s’améliorer. Tout ce que font les informaticiens fonctionne évidemment.

C’est peut-être vrai, mais cette nouvelle approche est intéressante pour plusieurs raisons. Premièrement, ouvrir la capacité d'une machine à s'entraîner à comprendre en regardant des images et du son combinés. (en fin de compte, vous pourriez l'imaginer s'entraîner en regardant YouTube) est beaucoup plus proche de la façon dont nous apprenons en tant qu'êtres humains. des êtres.

Deuxièmement – ​​et c’est sans doute le plus important –, cela pourrait contribuer à introduire la reconnaissance vocale dans des régions du monde qui pourraient grandement bénéficier de ce type de technologie.

"Les données annotées coûtent cher à produire", a poursuivi Glass. « La reconnaissance vocale existe depuis des décennies et concerne en grande partie les langues de pays qui peuvent se permettre d'investir dans ce type de ressources. Lorsqu’il s’agit de langues, il s’agit généralement de celles qui, selon les entreprises, les aideront à réaliser des bénéfices. L'anglais a reçu de loin le plus d'attention, suivi par les langues d'Europe occidentale et d'autres langues comme le japonais et le mandarin. Le problème est qu’il existe environ 7 000 langues parlées dans le monde et qu’environ 300 sont parlées par plus d’un million de personnes. Beaucoup d’entre eux n’ont tout simplement pas reçu beaucoup d’attention, voire aucune.

Dans les régions du monde où les niveaux d’alphabétisation sont faibles, il est facile de comprendre à quel point la reconnaissance vocale pourrait changer la donne en termes d’accès à l’information. Espérons que cette technologie puisse contribuer à atteindre cet objectif.

Aussi passionnante que soit la recherche, Glass note qu’elle en est encore à ses tout premiers stades. À l'heure actuelle, les chercheurs du CSAIL alimentent leur système avec une base de données de 1 000 images, chacune étant accompagnée d'une description verbale libre qui s'y rapporte d'une manière ou d'une autre. Ils testent ensuite le système en lui faisant un enregistrement et en lui demandant de récupérer 10 images qui correspondent le mieux à ce qu'il entend.

Au fil du temps, on espère que ces approches de reconnaissance vocale gagneront en efficacité au point où l’étiquetage laborieux des données d’apprentissage de la parole ne sera plus considéré comme une nécessité.

Si tout se passe comme prévu, cela devrait être mieux pour tout le monde, que vous soyez anglophone aux États-Unis ou xhosa en Afrique du Sud.

Recommandations des rédacteurs

  • Une nouvelle IA intelligente le système promet de dresser votre chien pendant que vous êtes loin de chez vous
  • Une nouvelle recherche « louche » du MIT utilise les ombres pour voir ce que les caméras ne peuvent pas voir
  • I.A. des chercheurs créent un système de reconnaissance faciale pour les chimpanzés
  • MIT, la nouvelle A.I. d'Adobe pourrait apporter la suppression de l'arrière-plan en un clic, des filtres sociaux

Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde en évolution rapide de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.