Распознавание речи в 3 раза быстрее, чем вы можете набрать

Стэнфордский эксперимент показал, что распознавание речи позволяет писать тексты быстрее, чем большие пальцы

Компьютерный диктант стал намного лучше, чем десять лет назад, но насколько лучше? Это была сложная задача для ученых-компьютерщиков из Стэнфордского университета, Вашингтонского университета и китайского технологического гиганта Baidu. недавно провел эксперимент, в котором люди сражались с новейшим программным обеспечением для распознавания речи как по скорости, так и по скорости. точность.

Стэнфордский профессор информатики Джеймс Лэндей сказал, что исследование началось как «разговор в кафе» между ним и адъюнкт-профессором Стэнфорда Эндрю Нг, в настоящее время главный научный сотрудник Baidu. «Эндрю сказал, что инструменты распознавания речи Baidu стали действительно великолепными, но они не знали, какой эксперимент позволит их количественно оценить», — сказал Лэндей Digital Trends.

Рекомендуемые видео

Облачное программное обеспечение для распознавания речи Baidu Deep Speech 2 основано на нейронной сети глубокого обучения: впечатляющий инструмент машинного обучения, который способен обучаться, анализируя огромные наборы данных реальных речь.

Связанный

  • А.И. можно узнать, хороший ли ты хирург, просто просканировав свой мозг
  • А.И. Исследователи создают систему распознавания лиц для шимпанзе

«Раньше у нас не было данных и вычислительных возможностей для построения этих моделей, чтобы компьютер мог понимать разные акценты и модели речи», — продолжил Лэндей.

В конце концов непринужденная беседа Лэндэя и Нг превратилась в полноценный эксперимент, в котором приняли участие 32 участника, говорящих либо по-китайски, либо по-английски. Все участники привыкли к обмену текстовыми сообщениями, и оба использовали стандартную клавиатуру, поставляемую в комплекте с iPhone.

Для англоговорящих это означало обычную QWERTY-клавиатуру iOS, а для говорящих на китайском языке использовалась клавиатура Apple Pinyin. В обоих случаях распознавание речи происходило примерно в три раза быстрее, чем пользователи могли печатать. этот показатель был на 20,4 процента ниже для распознавания английской речи и на 63,4 процента ниже для китайского языка. эквивалент.

«Я ожидал, что речь будет быстрее, чем текст», — сказал Лэндей. «Мы знаем это, потому что вы можете говорить быстрее, чем печатать. Проблема в прошлом заключалась в том, что при распознавании речи возникало много ошибок, и это замедляло работу. Я думал, что речь окажется быстрее. Чего я не ожидал, так это того, что он окажется в три раза быстрее. Я подумал, что, может быть, мы добьемся успеха процентов на 50 быстрее. Напротив, это было нечто большее».

Конечно, тест не является исчерпывающим на 100 процентов. На данный момент самой быстрой мобильной клавиатурой в мире (по крайней мере, на английском языке) является клавиатура Fleksy стороннего производителя. В Книге рекордов Гиннеса 2014 года по скорости отправки текстовых сообщений пользователь смог набрать Предложение из 126 букв всего за 18,44 секунды. Однако Лэндей отметил, что в ходе исследования была выбрана обычная клавиатура iPhone, поскольку она дает хорошее представление о типичной машинистке. «Большинство людей не тратят время на изучение альтернативных клавиатур», — сказал он.

Что касается значения исследования, Лэндей предполагает, что оно представляет собой важный ориентир в распознавании речи. «Еще есть куда совершенствоваться, но мы думаем, что какой-то переломный момент уже пройден», — сказал он. «Дальнейшие улучшения коснутся распознавания имен, лучшей работы в шумной обстановке и т. д.».

Это, по его словам, открывает перед разработчиками больше возможностей более серьезно задуматься о включении распознавания речи в свои системы, не беспокоясь. «Что будет иметь все больший смысл, так это полагаться на речь», — сказал он. «Например, мультимодальные интерфейсы, сочетающие речь с другими элементами, чтобы помочь людям ориентироваться. Однако самой большой проблемой будет понимание значение слов и предложений. Эту часть еще предстоит пройти».

Рекомендации редакции

  • Использовать Alexa сложно, если у вас нарушения речи. Voiceitt может это исправить
  • Китайская фирма работает над системой распознавания лиц, которая сможет идентифицировать вас под маской
  • Gboard от Google скоро станет намного лучше в распознавании речи

Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.