Стенфордський експеримент показує, що система розпізнавання мовлення пише тексти швидше, ніж великі пальці
Професор інформатики Стенфордського університету Джеймс Лендей сказав, що дослідження почалося як «розмова в кав’ярні» між ним і ад’юнкт-професором Стенфордського університету Андрій Нг, нині головний науковий співробітник Baidu. «Ендрю сказав, що інструменти розпізнавання мовлення Baidu стають справді чудовими, але вони не знають правильного експерименту для кількісної оцінки», — сказав Лендей Digital Trends.
Рекомендовані відео
Хмарне програмне забезпечення розпізнавання мовлення Baidu Deep Speech 2 базується на нейронній мережі глибокого навчання: вражаючий інструмент машинного навчання, здатний навчатися, аналізуючи величезні набори реальних даних мова.
Пов'язані
- А.І. може визначити, чи ти хороший хірург, просто просканувавши свій мозок
- А.І. Дослідники створили систему розпізнавання облич шимпанзе
«Раніше у нас не було даних і обчислювальних можливостей для створення цих моделей, щоб комп’ютер міг розуміти різні акценти та шаблони мови», — продовжив Лендей.
Зрештою, невимушена розмова між Ленді та Нґ перетворилася на повномасштабний експеримент, у якому взяли участь 32 учасники, які розмовляли китайською або англійською. Усі учасники виросли в обміні текстовими повідомленнями, і обидва використовували стандартні клавіатури, які постачаються з iPhone.
Для англомовних це означало звичайну клавіатуру iOS QWERTY, тоді як для носіїв китайської мови використовувалася клавіатура Apple Pinyin. В обох випадках розпізнавання мовлення було приблизно в три рази швидшим, ніж користувачі могли ввести — під час помилки показник був на 20,4 відсотка нижчим для розпізнавання англійської мови та на 63,4 відсотка нижчим для китайської мови еквівалент.
«Я очікував, що мовлення буде швидшим, ніж текст», — сказав Лендей. «Ми це знаємо, тому що ви можете говорити швидше, ніж друкувати. Проблема в минулому полягала в тому, що ви отримували багато помилок під час розпізнавання мовлення, і це сповільнювало вашу роботу. Я думав, що мова пройде швидше. Я не очікував, що він виявиться втричі швидшим. Я подумав, що, можливо, ми досягнемо відсотків на 50 швидше. Натомість це було набагато більше, ніж це».
Тест, звичайно, не є 100-відсотковим вичерпним. Наразі найшвидшою у світі мобільною клавіатурою (принаймні англійською) є клавіатура Fleksy стороннього виробника. У Книзі рекордів Гіннесса за найшвидше надсилання текстових повідомлень 2014 року користувач міг набрати a Речення із 126 літер всього за 18,44 секунди. Однак Лендей зауважив, що в цьому дослідженні була обрана звичайна клавіатура iPhone, оскільки вона дає гарне уявлення про типову друкарку. «Більшість людей не витрачають час на вивчення альтернативних клавіатур», — сказав він.
Щодо значення цього дослідження, Лендей припускає, що воно є важливим орієнтиром для розпізнавання мовлення. «Ще є куди вдосконалюватися, але ми вважаємо, що якийсь переломний момент пройдено», — сказав він. «Подальші вдосконалення стосуватимуться розпізнавання імен, кращої роботи в шумному середовищі тощо».
Це, за його словами, відкриває більше можливостей для розробників серйозніше подумати про включення розпізнавання мовлення у свої системи без занепокоєння. «Що більше матиме сенс, так це покладатися на мову», — сказав він. «Наприклад, мультимодальні інтерфейси, що поєднують мову з іншими елементами, щоб допомогти людям орієнтуватися. Однак найбільшою проблемою буде розуміння значення слів і речень. Ця частина ще має зробити шлях».
Рекомендації редакції
- Використовувати Alexa складно, якщо у вас є порушення мовлення. Voiceitt може це виправити
- Китайська фірма працює над розпізнаванням обличчя, яке може ідентифікувати вас під маскою
- Gboard від Google скоро стане набагато кращим у розпізнаванні мовлення
Оновіть свій спосіб життяDigital Trends допомагає читачам стежити за динамічним світом технологій завдяки всім останнім новинам, цікавим оглядам продуктів, проникливим редакційним статтям і унікальним у своєму роді коротким оглядам.