Новий метод розпізнавання мовлення навчається через зображення

android повідомлення вдосконалення телефони надсилання текстових повідомлень один одному — Ольга Лебедєва/123RF.com

Системи розпізнавання мовлення, можливо, ще не ідеальні, але, як показують Amazon Echo, вони стають кращими та все більш поширеними.

А нове дослідження дослідники з комп’ютерних наук і штучного інтелекту Массачусетського технологічного інституту Лабораторія (CSAIL) пропонує нову техніку для навчання цих систем — змусити їх навчатися, дивлячись зображення.

Рекомендовані відео

«Це спроба змусити машини вимагати менше навчання під наглядом, щоб вивчати розмовну мову», Джим Гласс, старший науковий співробітник CSAIL, розповів Digital Trends. «Традиційним способом навчання систем розпізнавання мовлення є використання записів розмови людей і транскрибування для кожного висловлювання саме сказаних слів. В ідеалі у вас є сотні або тисячі годин розмови, щоб система працювала належним чином. Деякі з найбільших компаній, які займаються цим, як-от Baidu та Google, витрачають десятки тисяч годин на навчання. Чим більше анотованих даних вони мають, тим краще працюють ці системи».

Так що в цьому не так? Зрештою, як зазначалося, технології розпізнавання мови постійно вдосконалюються. Що б не робили інформатики, очевидно, це працює.

Це може бути правдою, але цей новий підхід цікавий з кількох причин. По-перше, відкриття здатності машини навчитися розуміти, дивлячись на комбіновані зображення та аудіо (зрештою, ви можете уявити, як це тренується, переглядаючи YouTube) набагато ближче до того, як ми навчаємося як люди істоти.

По-друге — і, мабуть, важливіше — це те, що це може допомогти розпізнавати мову в частинах світу, які можуть отримати значну користь від такого роду технологій.

«Створювати анотовані дані дорого», — продовжив Гласс. «Розпізнавання мовлення триває десятиліттями, і більшість з них стосується мов у країнах, які можуть дозволити собі інвестувати в такі ресурси. Що стосується мов, то це, як правило, ті, які, на думку компаній, допоможуть їм отримати прибуток. Найбільше уваги приділено англійській мові, за нею йдуть західноєвропейські мови та інші мови, такі як японська та китайська. Проблема полягає в тому, що у світі існує близько 7000 мов, а приблизно 300 мовами розмовляють понад 1 мільйон людей. Багато з них просто не привернули особливої уваги — якщо взагалі привернули її».

У частинах світу, де рівень грамотності низький, легко зрозуміти, як розпізнавання мовлення може змінити ситуацію з точки зору надання людям доступу до інформації. Сподіваємось, ця технологія може допомогти досягти цієї мети.

Незважаючи на захоплююче дослідження, Гласс зазначає, що воно все ще перебуває на дуже ранніх стадіях. Наразі дослідники CSAIL заповнюють свою систему базою даних із 1000 зображень, кожне з яких має словесний опис у вільній формі, який певним чином до нього відноситься. Потім вони перевіряють систему, надаючи їй запис і просячи отримати 10 зображень, які найкраще відповідають тому, що вона чує.

Є надія, що з часом такі підходи до розпізнавання мовлення покращать свою ефективність до точки, коли трудомістке маркування даних навчання мовленню більше не буде вважатися необхідністю.

Якщо все піде за планом, це має бути краще для всіх — незалежно від того, хто ви розмовляєте англійською мовою в США чи мовою коса в Південній Африці.

Новий метод розпізнавання мовлення навчається через зображення

Рекомендації редакції

Категорії

Останні

AOL купує Content Aggregator Sphere

Symantec, Microsoft вирішують спір щодо зберігання

Nokia 6212 рекламує технологію Near Field Communication