Stanford-eksperiment viser, at talegenkendelse skriver tekster hurtigere end tommelfingre
Stanford professor i datalogi James Landay sagde, at undersøgelsen begyndte som en "cafésamtale" mellem ham selv og Stanford adjungeret professor Andrew Ng, i øjeblikket chefforsker ved Baidu. "Andrew sagde, at Baidus talegenkendelsesværktøjer blev virkelig fantastiske, men at de ikke kendte det rigtige eksperiment til at kvantificere det," sagde Landay til Digital Trends.
Anbefalede videoer
Baidus Deep Speech 2 cloud-baserede talegenkendelsessoftware er baseret på et neuralt netværk med dyb indlæring: et imponerende maskinlæringsværktøj, der er i stand til at træne sig selv ved at analysere enorme datasæt af ægte tale.
Relaterede
- A.I. kan fortælle om du er en god kirurg bare ved at scanne din hjerne
- A.I. forskere skaber et ansigtsgenkendelsessystem til chimpanser
"Tidligere havde vi ikke data og beregningsevne til at bygge disse modeller, så en computer kunne forstå forskellige accenter og talemønstre," fortsatte Landay.
I sidste ende blev den afslappede samtale mellem Landay og Ng til et komplet eksperiment, der involverede 32 deltagere, der talte enten kinesisk eller engelsk. Alle deltagere var vokset op med at sende tekstbeskeder, og begge brugte de standardtastaturer, der følger med iPhone.
For de engelsktalende betød dette det almindelige iOS QWERTY-tastatur, mens mandarin-højttalerne brugte Apples Pinyin-tastatur. I begge tilfælde var talegenkendelse omkring tre gange hurtigere, end brugerne var i stand til at skrive - mens fejlen raten var 20,4 procent lavere for engelsk talegenkendelse og 63,4 procent lavere for mandarin tilsvarende.
"Min forventning var, at tale ville være hurtigere end tekst," sagde Landay. ”Vi ved det, for du kan tale hurtigere, end du kan skrive. Problemet tidligere var, at du fik en masse fejl med talegenkendelse, og det bremsede dig. Jeg troede, at tale ville vise sig hurtigere. Hvad jeg ikke havde forventet var, at det ville ende med at være tre gange hurtigere. Jeg regnede med, at vi måske ville blive 50 procent hurtigere. I stedet var det meget mere end det.”
Testen er selvfølgelig ikke 100 procent omfattende. I øjeblikket er verdens hurtigste mobile tastatur (i det mindste på engelsk) tredjeparts Fleksy-tastaturet. I en 2014 Guinness verdensrekord for hurtigste sms'er var en bruger i stand til at skrive en 126-bogstavs sætning på kun 18,44 sekunder. Landay bemærkede dog, at denne undersøgelse valgte et almindeligt iPhone-tastatur, fordi det giver en god indikation af den typiske maskinskriver. "De fleste mennesker tager sig ikke tid til at lære alternative tastaturer," sagde han.
Med hensyn til, hvad undersøgelsen betyder, foreslår Landay, at det repræsenterer et vigtigt benchmark for talegenkendelse. "Der er stadig plads til at forbedre, men vi tror, at en form for bøjningspunkt er passeret," sagde han. "Yderligere forbedringer vil komme i at genkende navne, yde bedre i støjende omgivelser osv."
Dette, sagde han, åbner flere muligheder for udviklere til at tænke mere seriøst om at inkorporere talegenkendelse i deres systemer uden bekymring. "Hvad der i stigende grad vil give mening, er at stole på tale," sagde han. "For eksempel multimodale grænseflader, der kombinerer tale med andre elementer for at hjælpe folk med at navigere. Den største udfordring bliver dog at forstå betyder af ord og sætninger. Den del har stadig et stykke vej at gå."
Redaktørens anbefalinger
- Det er vanskeligt at bruge Alexa, hvis du har et talehandicap. Voiceitt kunne ordne det
- Kinesisk firma, der arbejder på ansigtsgenkendelse, der kan identificere dig under en maske
- Googles Gboard er ved at blive meget bedre til talegenkendelse
Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.