Tekstovi za prepoznavanje govora 3 puta brže nego što možete tipkati

Stanfordski eksperiment pokazuje da prepoznavanje govora piše tekst brže nego palcem

Računalni diktat puno je bolji nego prije deset godina, ali koliko je točno bolji? Bio je to izazov računalnim znanstvenicima sa Sveučilišta Stanford, Sveučilišta Washington i kineskog tehnološkog diva Baidu nedavno su sudjelovali u eksperimentu suprotstavljajući ljude najnovijem vrhunskom softveru za prepoznavanje govora u brzini i točnost.

Profesor informatike na Stanfordu James Landay rekao je da je studija započela kao "razgovor u kafiću" između njega i pomoćnog profesora na Stanfordu Andrija Ng, trenutno glavni znanstvenik u Baiduu. "Andrew je rekao da Baiduovi alati za prepoznavanje govora postaju stvarno izvrsni, ali da nisu znali pravi eksperiment za to kvantificirati", rekao je Landay za Digital Trends.

Preporučeni videozapisi

Baiduov Deep Speech 2 softver za prepoznavanje govora temeljen na oblaku temelji se na neuronskoj mreži dubokog učenja: impresivan alat za strojno učenje koji se može uvježbati analizom golemih skupova podataka stvarnih govor.

Povezano

  • A.I. može reći jeste li dobar kirurg samo skeniranjem vašeg mozga
  • A.I. istraživači stvaraju sustav za prepoznavanje lica za čimpanze

"Prije nismo imali podatke i računalne sposobnosti za izradu ovih modela, tako da računalo može razumjeti različite naglaske i obrasce govora", nastavio je Landay.

Na kraju se ležerni razgovor između Landaya i Nga pretvorio u pravi eksperiment u kojem su sudjelovala 32 sudionika koji govore ili kineski ili engleski. Svi su sudionici odrasli u razmjeni tekstualnih poruka i oboje su koristili standardne tipkovnice koje dolaze s iPhoneom.

Za govornike engleskog to je značilo uobičajenu iOS QWERTY tipkovnicu, dok su govornici mandarinskog jezika koristili Appleovu Pinyin tipkovnicu. U oba slučaja, prepoznavanje govora bilo je oko tri puta brže nego što su korisnici mogli tipkati - dok je pogreška stopa je bila 20,4 posto niža za prepoznavanje engleskog govora, a 63,4 posto niža za mandarinski ekvivalent.

"Očekivao sam da će govor biti brži od teksta", rekao je Landay. “Znamo to, jer možete pričati brže nego što možete tipkati. Problem u prošlosti bio je taj što ste dobivali puno pogrešaka s prepoznavanjem govora, a to vas je usporavalo. Mislio sam da će govor biti brži. Ono što nisam očekivao je da će biti tri puta brži. Mislio sam da ćemo možda dobiti 50 posto brže. Umjesto toga, bilo je mnogo više od toga.”

Test, naravno, nije 100 posto sveobuhvatan. Trenutačno najbrža mobilna tipkovnica na svijetu (barem na engleskom) je Fleksy tipkovnica treće strane. U Guinnessovom svjetskom rekordu za najbrže slanje poruka iz 2014., korisnik je mogao upisati a Rečenica od 126 slova u samo 18,44 sekunde. Međutim, Landay je primijetio da je ova studija odabrala običnu iPhone tipkovnicu jer daje dobar pokazatelj tipičnog tipkača. “Većina ljudi ne odvoji vremena za učenje alternativnih tipkovnica”, rekao je.

Što se tiče značenja studije, Landay sugerira da ona predstavlja važno mjerilo za prepoznavanje govora. "Još ima prostora za napredak, ali mislimo da je prijeđena neka vrsta prekretnice", rekao je. "Doći će do daljnjih poboljšanja u prepoznavanju imena, boljoj izvedbi u bučnim okruženjima itd."

Ovo, rekao je, otvara više mogućnosti programerima da bez brige ozbiljnije razmisle o uključivanju prepoznavanja govora u svoje sustave. "Ono što će sve više imati smisla je oslanjanje na govor", rekao je. “Na primjer, multimodalna sučelja koja kombiniraju govor s drugim elementima kako bi se ljudima pomoglo u navigaciji. Najveći izazov, međutim, bit će razumijevanje značenje riječi i rečenica. Taj dio još mora proći.”

Preporuke urednika

  • Korištenje Alexe je teško ako imate govorne teškoće. Voiceitt bi to mogao popraviti
  • Kineska tvrtka radi na prepoznavanju lica koje vas može identificirati pod maskom
  • Googleov Gboard uskoro će postati puno bolji u prepoznavanju govora

Nadogradite svoj životni stilDigitalni trendovi pomažu čitateljima da prate brzi svijet tehnologije sa svim najnovijim vijestima, zabavnim recenzijama proizvoda, pronicljivim uvodnicima i jedinstvenim brzim pregledima.