Talegjenkjenningstekster 3 ganger raskere enn du kan skrive

Stanford-eksperiment viser at talegjenkjenning skriver tekster raskere enn tomler

Datadiktering er mye bedre enn for ti år siden, men nøyaktig hvor mye bedre? Det var en utfordring informatikere fra Stanford University, University of Washington og den kinesiske teknologigiganten Baidu tok nylig på i et eksperiment som setter mennesker opp mot den nyeste banebrytende programvaren for talegjenkjenning i både hastighet og nøyaktighet.

Stanford professor i informatikk James Landay sa at studien begynte som en "kafésamtale" mellom ham selv og Stanford adjunkt Andrew Ng, for tiden sjefforsker ved Baidu. "Andrew sa at Baidus talegjenkjenningsverktøy ble virkelig flotte, men at de ikke visste det riktige eksperimentet for å kvantifisere det," sa Landay til Digital Trends.

Anbefalte videoer

Baidus Deep Speech 2 skybaserte talegjenkjenningsprogramvare er basert på et dypt læringsnevralt nettverk: et imponerende maskinlæringsverktøy som er i stand til å trene seg selv ved å analysere enorme datasett med ekte tale.

I slekt

  • A.I. kan fortelle om du er en god kirurg bare ved å skanne hjernen din
  • A.I. forskere lager et ansiktsgjenkjenningssystem for sjimpanser

"Tidligere hadde vi ikke data og beregningsevne til å bygge disse modellene, slik at en datamaskin kunne forstå forskjellige aksenter og talemønstre," fortsatte Landay.

Til slutt ble den tilfeldige samtalen mellom Landay og Ng et fullverdig eksperiment, som involverte 32 deltakere som snakket enten kinesisk eller engelsk. Alle deltakerne hadde vokst opp med tekstmeldinger, og begge brukte standardtastaturene som følger med iPhone.

For de engelsktalende betydde dette det vanlige iOS QWERTY-tastaturet, mens Mandarin-høyttalerne brukte Apples Pinyin-tastatur. I begge tilfeller var talegjenkjenning rundt tre ganger raskere enn brukere var i stand til å skrive - mens feilen raten var 20,4 prosent lavere for engelsk talegjenkjenning, og 63,4 prosent lavere for mandarin tilsvarende.

"Min forventning var at tale ville være raskere enn tekst," sa Landay. "Vi vet dette, fordi du kan snakke raskere enn du kan skrive. Problemet tidligere var at du fikk mange feil med talegjenkjenning, og dette bremset deg. Jeg trodde tale ville vise seg raskere. Det jeg ikke forventet var at det ville ende opp med å være tre ganger raskere. Jeg regnet med at vi kanskje ville komme 50 prosent raskere. I stedet var det mye mer enn det.»

Testen er ikke 100 prosent omfattende, selvfølgelig. For øyeblikket er verdens raskeste mobile tastatur (minst på engelsk) tredjeparts Fleksy-tastaturet. I en 2014 Guinness verdensrekord for raskeste tekstmeldinger, var en bruker i stand til å skrive en 126-bokstavssetning på bare 18,44 sekunder. Landay bemerket imidlertid at denne studien valgte et vanlig iPhone-tastatur fordi det gir en god indikasjon på den typiske maskinskriveren. "De fleste tar seg ikke tid til å lære alternative tastaturer," sa han.

Når det gjelder hva studien betyr, antyder Landay at den representerer en viktig målestokk for talegjenkjenning. "Det er fortsatt rom for forbedring, men vi tror at et slags bøyningspunkt har blitt passert," sa han. "Ytterligere forbedringer vil komme i å gjenkjenne navn, prestere bedre i støyende miljøer, etc."

Dette, sa han, åpner for flere muligheter for utviklere til å tenke mer seriøst på å inkorporere talegjenkjenning i systemene sine uten å bekymre seg. "Det som i økende grad vil gi mening er å stole på tale," sa han. "For eksempel multimodale grensesnitt som kombinerer tale med andre elementer for å hjelpe folk med å navigere. Den største utfordringen er imidlertid å forstå betydning av ord og setninger. Den delen har fortsatt en vei å gå.»

Redaktørenes anbefalinger

  • Å bruke Alexa er vanskelig hvis du har en talevansker. Voiceitt kunne fikse det
  • Kinesisk firma som jobber med ansiktsgjenkjenning som kan identifisere deg under en maske
  • Googles Gboard er i ferd med å bli mye bedre på talegjenkjenning

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.