A beszédfelismerő szövegek háromszor gyorsabbak, mint amennyit be tudsz írni

A Stanford-kísérlet azt mutatja, hogy a beszédfelismerés gyorsabban ír szöveget, mint a hüvelykujj

A számítógépes diktálás sokkal jobb, mint egy évtizeddel ezelőtt volt, de pontosan mennyivel jobb? Ez kihívás volt a Stanford Egyetem, a Washingtoni Egyetem és a kínai technológiai óriás, a Baidu informatikusai számára a közelmúltban egy kísérletbe kezdett, amely az embereket és a legújabb csúcstechnológiájú beszédfelismerő szoftvert állítja szembe a sebességgel és a beszédfelismerő szoftverrel pontosság.

Stanford informatika professzor James Landay elmondta, hogy a tanulmány egy „kávézós beszélgetésnek” indult közte és Stanford adjunktusa között Andrew Ng, jelenleg a Baidu vezető tudósa. "Andrew azt mondta, hogy a Baidu beszédfelismerő eszközei nagyon jók lettek, de nem tudták a megfelelő kísérletet a számszerűsítésére" - mondta Landay a Digital Trendsnek.

Ajánlott videók

A Baidu Deep Speech 2 felhőalapú beszédfelismerő szoftvere egy mélytanulási neurális hálózaton alapul: Lenyűgöző gépi tanulási eszköz, amely képes önmagát képezni hatalmas valódi adatkészletek elemzésével beszéd.

Összefüggő

  • A.I. pusztán az agyát vizsgálva meg tudja állapítani, hogy jó sebész-e
  • A.I. a kutatók arcfelismerő rendszert hoznak létre a csimpánzok számára

"Korábban nem rendelkeztünk adatokkal és számítási képességgel ezeknek a modelleknek az elkészítéséhez, hogy a számítógép megértse a különböző akcentusokat és beszédmintákat" - folytatta Landay.

Végül Landay és Ng kötetlen beszélgetése egy teljes körű kísérletté fajult, amelyben 32 kínaiul vagy angolul beszélő résztvevő vett részt. Minden résztvevő felnőtt szöveges üzenetküldő volt, és mindketten az iPhone-hoz mellékelt szabványos billentyűzeteket használták.

Az angolul beszélők számára ez a szokásos iOS QWERTY billentyűzetet jelentette, míg a mandarin hangszórók az Apple Pinyin billentyűzetét használták. A beszédfelismerés mindkét esetben körülbelül háromszor gyorsabb volt, mint amennyit a felhasználók be tudtak írni – miközben a hiba történt az angol beszédfelismerésnél 20,4 százalékkal, a mandarinnál 63,4 százalékkal volt alacsonyabb. egyenértékű.

„Azt vártam, hogy a beszéd gyorsabb lesz, mint a szöveg” – mondta Landay. – Tudjuk ezt, mert gyorsabban tudsz beszélni, mint gépelni. A múltban az volt a probléma, hogy sok hiba volt a beszédfelismerésnél, és ez lelassította. Azt hittem, a beszéd gyorsabb lesz. Arra nem számítottam, hogy háromszor gyorsabb lesz. Arra gondoltam, hogy talán 50 százalékkal gyorsabbak leszünk. Ehelyett sokkal több volt annál.”

A teszt természetesen nem 100 százalékosan átfogó. Jelenleg a világ leggyorsabb mobil billentyűzete (legalábbis angolul) a harmadik féltől származó Fleksy billentyűzet. A 2014-es Guinness-rekord szerint a leggyorsabb szöveges üzenetküldés során egy felhasználó be tudta írni a 126 betűs mondat mindössze 18,44 másodperc alatt. Landay azonban megjegyezte, hogy ez a tanulmány egy hagyományos iPhone-billentyűzetet választott, mert az jól mutatja a tipikus gépírót. „A legtöbb ember nem szán arra időt, hogy alternatív billentyűket tanuljon” – mondta.

Ami a tanulmány jelentését illeti, Landay azt sugallja, hogy a beszédfelismerés fontos mércéje. „Van még hova fejlődni, de úgy gondoljuk, hogy egyfajta inflexiós ponton túljutottunk” – mondta. "További fejlesztések lesznek a nevek felismerésében, a jobb teljesítményben zajos környezetben stb."

Ez szerinte több lehetőséget nyit meg a fejlesztők számára, hogy komolyabban elgondolkodjanak azon, hogy a beszédfelismerést aggodalom nélkül beépítsék rendszereikbe. "Ami egyre inkább értelmes lesz, az a beszédre hagyatkozni" - mondta. „Például multimodális interfészek, amelyek a beszédet más elemekkel kombinálják, hogy segítsék az emberek eligazodását. A legnagyobb kihívás azonban az, hogy megértsük a jelentése szavakból és mondatokból. Ennek a résznek még van mit tennie.”

Szerkesztői ajánlások

  • Az Alexa használata bonyolult, ha beszédfogyatékos. Voiceitt meg tudná oldani
  • Kínai cég olyan arcfelismeréssel foglalkozik, amely képes azonosítani Önt egy maszk alatt
  • A Google Gboardja hamarosan sokkal jobb lesz a beszédfelismerés terén

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.