Тексти з розпізнаванням мовлення втричі швидше, ніж ви можете набрати

Стенфордський експеримент показує, що система розпізнавання мовлення пише тексти швидше, ніж великі пальці

Комп’ютерний диктант набагато кращий, ніж десять років тому, але наскільки краще? Це був виклик комп’ютерникам зі Стенфордського університету, Вашингтонського університету та китайського технологічного гіганта Baidu нещодавно провели експеримент, щоб порівняти людей із найновішим програмним забезпеченням розпізнавання мовлення як за швидкістю, так і за точність.

Професор інформатики Стенфордського університету Джеймс Лендей сказав, що дослідження почалося як «розмова в кав’ярні» між ним і ад’юнкт-професором Стенфордського університету Андрій Нг, нині головний науковий співробітник Baidu. «Ендрю сказав, що інструменти розпізнавання мовлення Baidu стають справді чудовими, але вони не знають правильного експерименту для кількісної оцінки», — сказав Лендей Digital Trends.

Рекомендовані відео

Хмарне програмне забезпечення розпізнавання мовлення Baidu Deep Speech 2 базується на нейронній мережі глибокого навчання: вражаючий інструмент машинного навчання, здатний навчатися, аналізуючи величезні набори реальних даних мова.

Пов'язані

  • А.І. може визначити, чи ти хороший хірург, просто просканувавши свій мозок
  • А.І. Дослідники створили систему розпізнавання облич шимпанзе

«Раніше у нас не було даних і обчислювальних можливостей для створення цих моделей, щоб комп’ютер міг розуміти різні акценти та шаблони мови», — продовжив Лендей.

Зрештою, невимушена розмова між Ленді та Нґ перетворилася на повномасштабний експеримент, у якому взяли участь 32 учасники, які розмовляли китайською або англійською. Усі учасники виросли в обміні текстовими повідомленнями, і обидва використовували стандартні клавіатури, які постачаються з iPhone.

Для англомовних це означало звичайну клавіатуру iOS QWERTY, тоді як для носіїв китайської мови використовувалася клавіатура Apple Pinyin. В обох випадках розпізнавання мовлення було приблизно в три рази швидшим, ніж користувачі могли ввести — під час помилки показник був на 20,4 відсотка нижчим для розпізнавання англійської мови та на 63,4 відсотка нижчим для китайської мови еквівалент.

«Я очікував, що мовлення буде швидшим, ніж текст», — сказав Лендей. «Ми це знаємо, тому що ви можете говорити швидше, ніж друкувати. Проблема в минулому полягала в тому, що ви отримували багато помилок під час розпізнавання мовлення, і це сповільнювало вашу роботу. Я думав, що мова пройде швидше. Я не очікував, що він виявиться втричі швидшим. Я подумав, що, можливо, ми досягнемо відсотків на 50 швидше. Натомість це було набагато більше, ніж це».

Тест, звичайно, не є 100-відсотковим вичерпним. Наразі найшвидшою у світі мобільною клавіатурою (принаймні англійською) є клавіатура Fleksy стороннього виробника. У Книзі рекордів Гіннесса за найшвидше надсилання текстових повідомлень 2014 року користувач міг набрати a Речення із 126 літер всього за 18,44 секунди. Однак Лендей зауважив, що в цьому дослідженні була обрана звичайна клавіатура iPhone, оскільки вона дає гарне уявлення про типову друкарку. «Більшість людей не витрачають час на вивчення альтернативних клавіатур», — сказав він.

Щодо значення цього дослідження, Лендей припускає, що воно є важливим орієнтиром для розпізнавання мовлення. «Ще є куди вдосконалюватися, але ми вважаємо, що якийсь переломний момент пройдено», — сказав він. «Подальші вдосконалення стосуватимуться розпізнавання імен, кращої роботи в шумному середовищі тощо».

Це, за його словами, відкриває більше можливостей для розробників серйозніше подумати про включення розпізнавання мовлення у свої системи без занепокоєння. «Що більше матиме сенс, так це покладатися на мову», — сказав він. «Наприклад, мультимодальні інтерфейси, що поєднують мову з іншими елементами, щоб допомогти людям орієнтуватися. Однак найбільшою проблемою буде розуміння значення слів і речень. Ця частина ще має зробити шлях».

Рекомендації редакції

  • Використовувати Alexa складно, якщо у вас є порушення мовлення. Voiceitt може це виправити
  • Китайська фірма працює над розпізнаванням обличчя, яке може ідентифікувати вас під маскою
  • Gboard від Google скоро стане набагато кращим у розпізнаванні мовлення

Оновіть свій спосіб життяDigital Trends допомагає читачам стежити за динамічним світом технологій завдяки всім останнім новинам, цікавим оглядам продуктів, проникливим редакційним статтям і унікальним у своєму роді коротким оглядам.