Kõnetuvastustekstid kolm korda kiiremini, kui jõuate tippida

Stanfordi eksperiment näitab, et kõnetuvastus kirjutab tekste kiiremini kui pöidlad

Arvuti dikteerimine on palju parem kui kümme aastat tagasi, kuid kui palju parem? See oli väljakutse Stanfordi ülikooli, Washingtoni ülikooli ja Hiina tehnoloogiahiiglase Baidu arvutiteadlastele Hiljuti tegi katse, kus inimesed vastandasid uusimat tipptasemel kõnetuvastustarkvara nii kiiruse kui ka täpsust.

Stanfordi arvutiteaduse professor James Landay ütles, et uuring algas "kohvikuvestlusena" tema ja Stanfordi abiprofessori vahel Andrew Ng, praegu Baidu peateadlane. "Andrew ütles, et Baidu kõnetuvastustööriistad muutuvad tõesti suurepäraseks, kuid nad ei teadnud õiget katset selle kvantifitseerimiseks," rääkis Landy Digital Trendsile.

Soovitatavad videod

Baidu pilvepõhine kõnetuvastustarkvara Deep Speech 2 põhineb sügava õppimisega närvivõrgul: muljetavaldav masinõppetööriist, mis suudab end treenida, analüüsides tohutuid reaalandmekogumeid kõne.

Seotud

  • A.I. saate oma aju skannides öelda, kas olete hea kirurg
  • A.I. teadlased loovad šimpanside jaoks näotuvastussüsteemi

"Varem ei olnud meil andmeid ja arvutusvõimet nende mudelite koostamiseks, nii et arvuti saaks aru erinevatest aktsenditest ja kõnemustritest," jätkas Landy.

Lõpuks muutus Landy ja Ng vaheline juhuslik vestlus täielikuks eksperimendiks, milles osales 32 osalejat, kes rääkisid kas hiina või inglise keeles. Kõik osalejad olid tekstisõnumite saatmiseks üles kasvanud ja mõlemad kasutasid iPhone'iga kaasasolevaid standardseid klaviatuure.

Inglise keele kõnelejate jaoks tähendas see tavalist iOS-i QWERTY-klaviatuuri, mandariini kõnelejad aga Apple'i pinyini klaviatuuri. Mõlemal juhul oli kõnetuvastus umbes kolm korda kiirem, kui kasutajad suutsid tippida – samas kui viga ilmnes Inglise keele kõnetuvastuse määr oli 20,4 protsenti madalam ja mandariini keele puhul 63,4 protsenti madalam samaväärne.

"Ootasin, et kõne oleks kiirem kui tekst," ütles Landy. "Me teame seda, sest saate rääkida kiiremini kui kirjutada. Varem oli probleem selles, et teil tekkis kõnetuvastusega palju vigu ja see aeglustas teie tegevust. Arvasin, et kõne osutub kiiremini. Mida ma ei oodanud, oli see, et see lõppeb kolm korda kiiremini. Arvasin, et ehk saame 50 protsenti kiiremini. Selle asemel oli see palju enamat."

Test ei ole muidugi 100 protsenti kõikehõlmav. Praegu on maailma kiireim mobiiliklaviatuur (vähemalt inglise keeles) kolmanda osapoole Fleksy klaviatuur. 2014. aasta Guinnessi rekordi järgi kiireima sõnumite saatmise kohta suutis kasutaja sisestada a 126-täheline lause kõigest 18,44 sekundiga. Landy märkis siiski, et selles uuringus valiti tavaline iPhone'i klaviatuur, kuna see annab hea ülevaate tüüpilisest masinakirjutajast. "Enamik inimesi ei võta aega alternatiivsete klaviatuuride õppimiseks," ütles ta.

Mis puudutab uuringu tähendust, siis Landday soovitab, et see on kõnetuvastuse oluline võrdlusalus. "Arenguruumi on veel, kuid me arvame, et mingi pöördepunkt on läbitud," sõnas ta. "Edasised täiustused tulevad nimede äratundmisele, mürarikkas keskkonnas paremaks toimimiseks jne."

Ta ütles, et see avab arendajatele rohkem võimalusi mõelda tõsisemalt kõnetuvastuse lisamisele oma süsteemidesse muretult. "Mis muutub üha mõttekamaks, on kõnele toetumine," ütles ta. "Näiteks multimodaalsed liidesed, mis ühendavad kõne teiste elementidega, et aidata inimestel navigeerida. Suurim väljakutse on aga selle mõistmine tähenduses sõnadest ja lausetest. Sellel osal on veel käia."

Toimetajate soovitused

  • Alexa kasutamine on keeruline, kui teil on kõnepuue. Voiceitt võiks selle parandada
  • Hiina ettevõte, mis töötab näotuvastusega, mis suudab teid maski all tuvastada
  • Google'i Gboard muutub kõnetuvastuse osas palju paremaks

Uuenda oma elustiiliDigitaalsed suundumused aitavad lugejatel hoida silma peal kiirel tehnikamaailmal kõigi viimaste uudiste, lõbusate tooteülevaadete, sisukate juhtkirjade ja ainulaadsete lühiülevaadetega.