Текстове за разпознаване на реч 3 пъти по-бързо, отколкото можете да въвеждате

Експериментът на Станфорд показва, че разпознаването на реч пише текстове по-бързо от палците

Компютърната диктовка е много по-добра, отколкото беше преди десетилетие, но точно колко по-добра? Това беше предизвикателство за компютърни учени от Станфордския университет, Вашингтонския университет и китайския технологичен гигант Baidu наскоро участва в експеримент, който изправя хората срещу най-новия авангарден софтуер за разпознаване на реч както по отношение на скоростта, така и точност.

Професор по компютърни науки в Станфорд Джеймс Ландей каза, че проучването е започнало като „разговор в кафене“ между него и помощник-професора от Станфорд Андрю Нг, в момента главен учен в Baidu. „Андрю каза, че инструментите за разпознаване на реч на Baidu стават наистина страхотни, но не са знаели правилния експеримент, за да го определят количествено“, каза Ландей пред Digital Trends.

Препоръчани видеоклипове

Базираният в облака софтуер за разпознаване на реч Deep Speech 2 на Baidu е базиран на невронна мрежа за дълбоко обучение: впечатляващ инструмент за машинно обучение, който е в състояние да се обучава чрез анализиране на огромни масиви от реални данни реч.

Свързани

  • ИИ може да разбере дали сте добър хирург само като сканира мозъка ви
  • ИИ изследователи създават система за лицево разпознаване на шимпанзета

„Преди това нямахме данните и изчислителната способност да изградим тези модели, така че компютърът да може да разбира различни акценти и модели на речта“, продължи Ландей.

В крайна сметка непринуденият разговор между Ландей и Нг се превърна в пълноценен експеримент, включващ 32 участници, говорещи или китайски, или английски. Всички участници бяха пораснали в текстови съобщения и двамата използваха стандартните клавиатури, които идват с iPhone.

За англоговорящите това означаваше обикновената QWERTY клавиатура на iOS, докато говорителите на мандарин използваха пинин клавиатурата на Apple. И в двата случая разпознаването на реч беше около три пъти по-бързо, отколкото потребителите успяха да въведат - докато грешката процентът е с 20,4% по-нисък за разпознаването на английски език и 63,4% по-нисък за мандарин еквивалентен.

„Очаквах, че речта ще бъде по-бърза от текста“, каза Ландей. „Ние знаем това, защото можете да говорите по-бързо, отколкото можете да пишете. Проблемът в миналото беше, че получавате много грешки при разпознаването на реч и това ви забавяше. Мислех, че речта ще се окаже по-бърза. Това, което не очаквах, беше, че ще се окаже три пъти по-бързо. Реших, че може би ще стигнем 50 процента по-бързо. Вместо това беше много повече от това.

Тестът не е 100 процента изчерпателен, разбира се. В момента най-бързата мобилна клавиатура в света (поне на английски) е клавиатурата Fleksy на трета страна. В световен рекорд на Гинес за 2014 г. за най-бързо изпращане на текстови съобщения, потребител е успял да напише a Изречение от 126 букви само за 18,44 секунди. Ландей обаче отбеляза, че това проучване е избрало обикновена клавиатура на iPhone, защото дава добра индикация за типичния машинописец. „Повечето хора не отделят време да научат алтернативни клавиатури“, каза той.

Що се отнася до значението на изследването, Ландей предполага, че то представлява важен показател за разпознаване на реч. „Все още има какво да се подобрява, но смятаме, че е премината някаква инфлексна точка“, каза той. „Допълнителни подобрения ще дойдат в разпознаването на имена, по-добро представяне в шумна среда и т.н.“

Това, каза той, отваря повече възможности за разработчиците да мислят по-сериозно за включването на разпознаване на реч в своите системи без притеснение. „Това, което все повече ще има смисъл, е да разчитаме на речта“, каза той. „Например мултимодални интерфейси, комбиниращи реч с други елементи, за да помогнат на хората да се ориентират. Най-голямото предизвикателство обаче ще бъде разбирането на значение на думи и изречения. Тази част все още има път.

Препоръки на редакторите

  • Използването на Alexa е трудно, ако имате говорни увреждания. Voiceitt може да поправи това
  • Китайска фирма работи върху лицево разпознаване, което може да ви идентифицира под маска
  • Gboard на Google е на път да стане много по-добър в разпознаването на реч

Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.