Spraakherkenningsteksten 3x sneller dan u kunt typen

Stanford-experiment laat zien dat spraakherkenning teksten sneller schrijft dan duimen

Computerdicteren is een stuk beter dan tien jaar geleden, maar hoeveel beter precies? Dat was een uitdaging voor computerwetenschappers van Stanford University, de University of Washington en de Chinese technologiegigant Baidu nam onlangs deel aan een experiment waarbij mensen het moesten opnemen tegen de nieuwste geavanceerde spraakherkenningssoftware, zowel qua snelheid als qua snelheid nauwkeurigheid.

Hoogleraar informatica aan Stanford James Landay zei dat het onderzoek begon als een ‘coffeeshopgesprek’ tussen hemzelf en adjunct-professor aan Stanford Andreas Ng, momenteel hoofdwetenschapper bij Baidu. “Andrew zei dat de spraakherkenningstools van Baidu echt geweldig werden, maar dat ze niet het juiste experiment kenden om het te kwantificeren”, vertelde Landay aan Digital Trends.

Aanbevolen video's

Baidu's Deep Speech 2 cloudgebaseerde spraakherkenningssoftware is gebaseerd op een deep learning neuraal netwerk: een indrukwekkende machine learning-tool die zichzelf kan trainen door enorme datasets van echte data te analyseren toespraak.

Verwant

  • AI kunt u zien of u een goede chirurg bent, gewoon door uw hersenen te scannen
  • AI Onderzoekers creëren een gezichtsherkenningssysteem voor chimpansees

“Vroeger beschikten we niet over de data en het rekenvermogen om deze modellen te bouwen, zodat een computer verschillende accenten en spraakpatronen kon begrijpen,” vervolgde Landay.

Uiteindelijk veranderde het informele gesprek tussen Landay en Ng in een volwaardig experiment, waarbij 32 deelnemers Chinees of Engels spraken. Alle deelnemers waren volwassen met sms'en en gebruikten allebei de standaardtoetsenborden die bij de iPhone worden geleverd.

Voor de Engelstaligen betekende dit het reguliere iOS QWERTY-toetsenbord, terwijl de Mandarijnsprekers het Pinyin-toetsenbord van Apple gebruikten. In beide gevallen was de spraakherkenning ongeveer drie keer sneller dan gebruikers konden typen – terwijl de fout zich voordeed Het percentage was 20,4 procent lager voor de Engelse spraakherkenning en 63,4 procent lager voor de Mandarijn equivalent.

“Mijn verwachting was dat spraak sneller zou zijn dan tekst,” zei Landay. “Dat weten we omdat je sneller kunt praten dan typen. Het probleem in het verleden was dat je veel fouten kreeg met spraakherkenning, en dit vertraagde je. Ik dacht dat spraak sneller zou blijken. Wat ik niet had verwacht, was dat het drie keer zo snel zou zijn. Ik dacht dat we misschien 50 procent sneller zouden worden. In plaats daarvan was het veel meer dan dat.”

De test is uiteraard niet 100 procent volledig. Momenteel is het snelste mobiele toetsenbord ter wereld (althans in het Engels) het Fleksy-toetsenbord van derden. In een Guinness Wereldrecord uit 2014 voor het snelst sms'en kon een gebruiker a typen Zin van 126 letters in slechts 18,44 seconden. Landay merkte echter op dat in dit onderzoek voor een normaal iPhone-toetsenbord werd gekozen omdat dit een goede indicatie geeft van de typische typist. “De meeste mensen nemen niet de tijd om alternatieve toetsenborden te leren,” zei hij.

Wat betreft wat de studie betekent, suggereert Landay dat het een belangrijke maatstaf is voor spraakherkenning. “Er is nog steeds ruimte voor verbetering, maar we denken dat er een keerpunt is gepasseerd”, zei hij. “Verdere verbeteringen zullen komen in het herkennen van namen, beter presteren in luidruchtige omgevingen, enz.”

Dit biedt ontwikkelaars volgens hem meer mogelijkheden om serieuzer na te denken over het zonder zorgen integreren van spraakherkenning in hun systemen. “Wat steeds logischer zal worden, is vertrouwen op spraak”, zei hij. “Bijvoorbeeld multimodale interfaces die spraak combineren met andere elementen om mensen te helpen navigeren. De grootste uitdaging is echter het begrijpen van de betekenis van woorden en zinnen. Dat deel heeft nog een weg te gaan.”

Aanbevelingen van de redactie

  • Het gebruik van Alexa is lastig als je een spraakstoornis hebt. Voiceitt zou dat kunnen oplossen
  • Chinees bedrijf werkt aan gezichtsherkenning die je onder een masker kan identificeren
  • Google's Gboard staat op het punt een stuk beter te worden in spraakherkenning

Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.