Stenforda eksperiments parāda, ka runas atpazīšana tekstu raksta ātrāk nekā īkšķi
Stenfordas datorzinātņu profesors Džeimss Lendejs sacīja, ka pētījums sākās kā "saruna kafejnīcā" starp viņu un Stenfordas adjunktu Endrjū Ng, šobrīd Baidu galvenais zinātnieks. "Endrjū teica, ka Baidu runas atpazīšanas rīki kļūst patiešām lieliski, taču viņi nezināja pareizo eksperimentu, lai to kvantitatīvi noteiktu," Lendejs pastāstīja Digital Trends.
Ieteiktie videoklipi
Baidu Deep Speech 2 mākoņa runas atpazīšanas programmatūra ir balstīta uz dziļas mācīšanās neironu tīklu: iespaidīgs mašīnmācīšanās rīks, kas spēj sevi apmācīt, analizējot milzīgas reālas datu kopas runa.
Saistīts
- A.I. var noteikt, vai esat labs ķirurgs, tikai skenējot jūsu smadzenes
- A.I. pētnieki izveido šimpanžu sejas atpazīšanas sistēmu
"Iepriekš mums nebija datu un skaitļošanas iespēju, lai izveidotu šos modeļus, lai dators varētu saprast dažādus runas akcentus un modeļus," turpināja Lendejs.
Galu galā gadījuma saruna starp Landeju un Ng pārvērtās par pilnvērtīgu eksperimentu, kurā piedalījās 32 dalībnieki, kas runāja vai nu ķīniešu, vai angļu valodā. Visi dalībnieki bija pieauguši, izmantojot īsziņas, un abi izmantoja standarta tastatūras, kas nāk komplektā ar iPhone.
Angļu valodā runājošajiem tas nozīmēja parasto iOS QWERTY tastatūru, savukārt mandarīnu valodas skaļruņi izmantoja Apple Pinyin tastatūru. Abos gadījumos runas atpazīšana bija aptuveni trīs reizes ātrāka, nekā lietotāji varēja rakstīt, kamēr radās kļūda angļu valodas runas atpazīšanas rādītājs bija par 20,4 procentiem zemāks, bet mandarīnu valodā – par 63,4 procentiem zemāks. ekvivalents.
"Es cerēju, ka runa būs ātrāka nekā teksts," sacīja Lendejs. "Mēs to zinām, jo jūs varat runāt ātrāk nekā rakstīt. Agrāk problēma bija tāda, ka runas atpazīšanas laikā radās daudz kļūdu, un tas palēnināja jūsu darbību. Es domāju, ka runa izrādīsies ātrāk. Es negaidīju, ka tas būs trīs reizes ātrāks. Es domāju, ka mēs varētu iegūt par 50 procentiem ātrāk. Tā vietā tas bija daudz vairāk. ”
Protams, pārbaude nav 100% visaptveroša. Pašlaik pasaulē ātrākā mobilā tastatūra (vismaz angļu valodā) ir trešās puses Fleksy tastatūra. 2014. gada Ginesa pasaules rekordā par ātrāko īsziņu sūtīšanu lietotājs varēja ierakstīt a 126 burtu teikums tikai 18,44 sekundēs. Tomēr Lendejs atzīmēja, ka šajā pētījumā tika izvēlēta parasta iPhone tastatūra, jo tā sniedz labu norādi par tipisko mašīnrakstītāju. "Lielākā daļa cilvēku netērē laiku, lai apgūtu alternatīvas tastatūras," viņš teica.
Attiecībā uz pētījuma nozīmi Lendejs norāda, ka tas ir svarīgs runas atpazīšanas etalons. "Joprojām ir vietas, ko uzlabot, bet mēs domājam, ka ir pārvarēts kaut kāds pagrieziena punkts," viņš teica. "Turpmāki uzlabojumi būs vārdu atpazīšana, labāka darbība trokšņainā vidē utt."
Viņš teica, ka tas paver izstrādātājiem vairāk iespēju nopietnāk domāt par runas atpazīšanas iekļaušanu savās sistēmās bez raizēm. "Arvien lielāka jēga būs paļaušanās uz runu," viņš teica. “Piemēram, multimodālas saskarnes, kas apvieno runu ar citiem elementiem, lai palīdzētu cilvēkiem orientēties. Tomēr lielākais izaicinājums būs saprast nozīmē vārdiem un teikumiem. Šai daļai vēl ir jāstrādā."
Redaktoru ieteikumi
- Alexa lietošana ir sarežģīta, ja jums ir runas traucējumi. Voiceitt varētu to salabot
- Ķīnas uzņēmums, kas strādā pie sejas atpazīšanas, kas var jūs identificēt zem maskas
- Google Gboard runas atpazīšana kļūs daudz labāka
Uzlabojiet savu dzīvesveiduDigitālās tendences palīdz lasītājiem sekot līdzi steidzīgajai tehnoloģiju pasaulei, izmantojot visas jaunākās ziņas, jautrus produktu apskatus, ieskatu saturošus rakstus un unikālus ieskatus.