Новая речевая технология IBM стремится стать сверхчеловеческой

ИБМ имеет представил встроенный ViaVoice 4.4, который предлагает распознавание команд произвольной формы, оперативный перевод и услуги субтитров, а также может утверждать, что понимает некоторые нюансы разговорного английского языка. Технология предназначена для того, чтобы пользователи могли управлять системами, встроенными в транспортные средства, портативные устройства и другие некомпьютерные устройства. приложения, позволяющие гибко и естественно разговаривать с устройствами без необходимости запоминать и тщательно произносить заранее заданные разговорные фразы. команды.

В качестве примера «распознавания команд произвольной формы» IBM предлагает команду переключения радиостанции в автомобиле на 104,3 FM. произносите различные команды, такие как «Изменить на 104,3», «Настроиться на 104,3 FM» или «Установить радиостанцию ​​на 104,3». Включение системы в понимание большего количества интуитивных команд позволит более успешно использовать технологию распознавания голоса в более широком диапазоне Приложения. ViaVoice теперь использует статистический и семантический анализ команд для интерпретации команд за пределами заранее определенного, запомненного набора. а улучшенное акустическое моделирование обеспечивает большую точность в шумных условиях и там, где речь прерывается переходными процессами. шумы.

Рекомендуемые видео

Два других проекта IBM по распознаванию речи, MASTOR и Tales, предлагают два новых интригующих направления для исследований речи. МАСТОР (Многоязычный автоматический речевой переводчик), исследовательский проект IBM, может динамически переводить английскую речь на китайский язык. Пользователь говорит в микрофон на английском языке, а MASTOR на лету переводит предложение на китайский язык. MASTOR использует статистический анализ устной речи, сначала декомпилируя предложение в набор структурных слов. и концептуальные модели, а затем составить переведенное предложение на целевой язык, используя те же самые узоры. Некоторая задержка неизбежна в таких системах

Рекомендации редакции

  • Лучшее программное обеспечение для преобразования речи в текст на 2022 год
  • Технология распознавания лиц медведей призвана обеспечить безопасность людей
  • IBM больше не будет разрабатывать и исследовать технологию распознавания лиц

Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.