Експеримент Стенфорда показује да препознавање говора пише текстове брже од палчева
Професор информатике на Станфорду Џејмс Лендеј рекао је да је студија почела као „разговор у кафићу“ између њега и ванредног професора са Станфорда Андрев Нг, тренутно главни научник у Баиду. „Ендру је рекао да Баидуови алати за препознавање говора постају заиста сјајни, али да нису знали прави експеримент да га квантификују“, рекао је Лендеј за Дигитал Трендс.
Препоручени видео снимци
Баидуов Дееп Спеецх 2 софтвер за препознавање говора у облаку заснован је на неуронској мрежи дубоког учења: импресиван алат за машинско учење који је у стању да се обучи анализирајући огромне скупове података стварних говор.
Повезан
- А.И. можете да утврдите да ли сте добар хирург само скенирањем вашег мозга
- А.И. истраживачи креирају систем за препознавање лица за шимпанзе
„Раније нисмо имали податке и рачунску способност да направимо ове моделе, тако да компјутер може да разуме различите акценте и обрасце говора“, наставио је Лендеј.
На крају, необавезни разговор између Ландаја и Нг-а претворио се у потпуни експеримент, који је укључивао 32 учесника који говоре кинески или енглески. Сви учесници су одрасли да размењују текстуалне поруке и обоје су користили стандардне тастатуре које долазе уз иПхоне.
За говорнике енглеског ово је значило обичну иОС КВЕРТИ тастатуру, док су говорници Мандарина користили Аппле-ову Пиниин тастатуру. У оба случаја, препознавање говора је било око три пута брже него што су корисници могли да куцају - док је грешка стопа је била 20,4 одсто нижа за препознавање енглеског говора, а 63,4 одсто нижа за мандарински еквивалент.
„Очекивао сам да ће говор бити бржи од текста“, рекао је Лендеј. „Ми то знамо, јер можете причати брже него што можете куцати. Проблем у прошлости је био што сте имали много грешака са препознавањем говора, а то вас је успоравало. Мислио сам да ће говор бити бржи. Оно што нисам очекивао је да ће завршити три пута брже. Мислио сам да ћемо можда добити 50 посто брже. Уместо тога, било је много више од тога.”
Тест није 100 посто свеобухватан, наравно. Тренутно најбржа мобилна тастатура на свету (барем на енглеском) је Флекси тастатура треће стране. У Гинисовом светском рекорду из 2014. за најбрже слање порука, корисник је могао да откуца а Реченица од 126 слова за само 18,44 секунде. Међутим, Лендеј је приметио да је ова студија одабрала обичну тастатуру за иПхоне јер даје добру индикацију типичног дактилографа. „Већина људи не одваја време да научи алтернативне тастатуре“, рекао је он.
Што се тиче тога шта студија значи, Лендеј сугерише да представља важно мерило за препознавање говора. „Има још простора за побољшање, али мислимо да је нека врста преломне тачке прошла“, рекао је он. „Даља побољшања ће доћи у препознавању имена, бољем раду у бучним окружењима итд.“
Ово, како је рекао, отвара више могућности за програмере да озбиљније размисле о укључивању препознавања говора у своје системе без бриге. „Оно што ће све више имати смисла је ослањање на говор“, рекао је он. „На пример, мултимодални интерфејси који комбинују говор са другим елементима како би помогли људима да се крећу. Највећи изазов ће, међутим, бити разумевање значење од речи и реченица. Тај део још увек има пут."
Препоруке уредника
- Коришћење Алека-е је тешко ако имате говорни поремећај. Воицеитт би то могао поправити
- Кинеска фирма која ради на препознавању лица која вас може идентификовати под маском
- Гоогле-ов Гбоард ускоро ће постати много бољи у препознавању говора
Надоградите свој животни стилДигитални трендови помажу читаоцима да прате убрзани свет технологије са свим најновијим вестима, забавним рецензијама производа, проницљивим уводницима и јединственим кратким прегледима.