Besedila za prepoznavanje govora 3x hitreje, kot jih lahko vnesete

click fraud protection

Stanfordski eksperiment kaže, da prepoznavanje govora piše besedilo hitreje kot palec

Računalniško narekovanje je veliko boljše kot pred desetletjem, toda koliko boljše? To je bil izziv računalniškim znanstvenikom z Univerze Stanford, Univerze v Washingtonu in kitajskega tehnološkega velikana Baidu pred kratkim so se lotili poskusa, v katerem so se ljudje soočili z najnovejšo vrhunsko programsko opremo za prepoznavanje govora tako glede hitrosti kot natančnost.

Stanfordski profesor računalništva James Landay je dejal, da se je študija začela kot "pogovor v kavarni" med njim in stanfordskim pomožnim profesorjem Andrej Ng, trenutno glavni znanstvenik pri Baiduju. »Andrew je rekel, da Baidujeva orodja za prepoznavanje govora postajajo res odlična, a da niso poznali pravega eksperimenta, s katerim bi to kvantificirali,« je Landay povedal za Digital Trends.

Priporočeni videoposnetki

Baidujeva programska oprema za prepoznavanje govora v oblaku Deep Speech 2 temelji na nevronski mreži globokega učenja: impresivno orodje za strojno učenje, ki se lahko uri z analizo ogromnih podatkovnih nizov resničnih govor.

Povezano

  • A.I. lahko ugotovi, ali ste dober kirurg, samo s skeniranjem vaših možganov
  • A.I. raziskovalci izdelajo sistem za prepoznavanje obrazov za šimpanze

"Prej nismo imeli podatkov in računalniških zmožnosti za izdelavo teh modelov, tako da bi računalnik lahko razumel različne poudarke in vzorce govora," je nadaljeval Landay.

Na koncu se je priložnostni pogovor med Landayem in Ng sprevrgel v popoln eksperiment, ki je vključeval 32 udeležencev, ki so govorili kitajsko ali angleško. Vsi udeleženci so pošiljali besedilna sporočila odraslim in oba sta uporabljala standardne tipkovnice, ki so priložene iPhonu.

Za angleško govoreče je to pomenilo običajno tipkovnico iOS QWERTY, medtem ko so govorci mandarinščine uporabljali Applovo tipkovnico Pinyin. V obeh primerih je bilo prepoznavanje govora približno trikrat hitrejše, kot so lahko uporabniki tipkali - medtem ko je napaka stopnja je bila 20,4 odstotka nižja pri prepoznavanju angleškega govora in 63,4 odstotka nižja pri mandarinščini enakovreden.

"Pričakoval sem, da bo govor hitrejši od besedila," je dejal Landay. »To vemo, ker lahko govoriš hitreje kot tipkaš. Težava v preteklosti je bila, da ste imeli veliko napak pri prepoznavanju govora, kar vas je upočasnilo. Mislil sem, da bo govor hitrejši. Nisem pričakoval, da bo trikrat hitrejši. Mislil sem, da bomo morda dobili 50 odstotkov hitreje. Namesto tega je bilo veliko več kot to.«

Test seveda ni 100-odstotno celovit. Trenutno najhitrejša mobilna tipkovnica na svetu (vsaj v angleščini) je tipkovnica Fleksy drugega proizvajalca. V Guinnessovi knjigi rekordov za najhitrejše pošiljanje sporočil iz leta 2014 je uporabnik lahko vnesel a 126-črkovni stavek v samo 18,44 sekunde. Vendar pa je Landay opozoril, da je ta študija izbrala navadno tipkovnico za iPhone, ker daje dober pokazatelj tipičnega strojepisca. "Večina ljudi si ne vzame časa za učenje alternativnih tipkovnic," je dejal.

Kar zadeva pomen študije, Landay predlaga, da predstavlja pomembno merilo za prepoznavanje govora. "Še vedno je prostor za izboljšave, vendar menimo, da je bila nekakšna prelomnica dosežena," je dejal. "Nadaljnje izboljšave bodo prišle na področju prepoznavanja imen, boljšega delovanja v hrupnem okolju itd."

To po njegovih besedah ​​razvijalcem odpira več možnosti, da brez skrbi resneje razmislijo o vključitvi prepoznavanja govora v svoje sisteme. "Kar bo vse bolj smiselno, je zanašanje na govor," je dejal. »Na primer večmodalni vmesniki, ki združujejo govor z drugimi elementi za pomoč ljudem pri navigaciji. Največji izziv pa bo razumevanje pomen besed in stavkov. Ta del še vedno čaka.«

Priporočila urednikov

  • Uporaba Alexa je težavna, če imate težave z govorom. Voiceitt bi to lahko popravil
  • Kitajsko podjetje, ki dela na prepoznavanju obraza, ki vas lahko identificira pod masko
  • Googlova Gboard bo kmalu postala veliko boljša pri prepoznavanju govora

Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.