Stanfordský experiment ukazuje, že rozpoznávanie reči píše texty rýchlejšie ako palce
Stanfordský profesor informatiky James Landay povedal, že štúdia začala ako „konverzácia v kaviarni“ medzi ním a stanfordským pomocným profesorom Ondrej Ng, v súčasnosti hlavný vedec v Baidu. „Andrew povedal, že nástroje na rozpoznávanie reči Baidu sú skutočne skvelé, ale nepoznali správny experiment na ich kvantifikáciu,“ povedal Landay pre Digital Trends.
Odporúčané videá
Cloudový softvér na rozpoznávanie reči Baidu Deep Speech 2 je založený na neurónovej sieti s hlbokým učením: pôsobivý nástroj strojového učenia, ktorý sa dokáže trénovať analýzou obrovských súborov skutočných údajov reč.
Súvisiace
- A.I. môžete zistiť, či ste dobrý chirurg, len skenovaním vášho mozgu
- A.I. výskumníci vytvorili systém rozpoznávania tváre pre šimpanzov
„Predtým sme nemali údaje a výpočtovú schopnosť na zostavenie týchto modelov, aby počítač mohol porozumieť rôznym prízvukom a vzorom reči,“ pokračoval Landay.
Nakoniec sa neformálna konverzácia medzi Landayom a Ngom zmenila na plnohodnotný experiment, do ktorého sa zapojilo 32 účastníkov hovoriacich čínsky alebo anglicky. Všetci účastníci mali odrastené textové správy a obaja používali štandardné klávesnice, ktoré sa dodávajú s iPhone.
Pre anglicky hovoriacich to znamenalo bežnú iOS QWERTY klávesnicu, zatiaľ čo mandarínski reproduktory používali klávesnicu Apple Pinyin. V oboch prípadoch bolo rozpoznávanie reči približne trikrát rýchlejšie, ako používatelia dokázali písať – pričom došlo k chybe miera bola o 20,4 percenta nižšia v prípade anglického rozpoznávania reči a o 63,4 percenta nižšia v prípade mandarínčiny ekvivalent.
"Očakával som, že reč bude rýchlejšia ako text," povedal Landay. "Vieme to, pretože môžete hovoriť rýchlejšie ako písať." Problém v minulosti bol, že ste mali veľa chýb pri rozpoznávaní reči, čo vás spomalilo. Myslel som, že reč bude rýchlejšia. Nečakal som, že to bude trikrát rýchlejšie. Myslel som si, že možno budeme o 50 percent rýchlejší. Namiesto toho to bolo oveľa viac."
Test samozrejme nie je 100% komplexný. V súčasnosti je najrýchlejšou mobilnou klávesnicou na svete (aspoň v angličtine) klávesnica Fleksy tretej strany. V Guinessovej knihe rekordov v roku 2014 za najrýchlejšie posielanie SMS správ bol používateľ schopný napísať a 126-písmenová veta len za 18,44 sekundy. Landay však poznamenal, že táto štúdia si vybrala bežnú klávesnicu pre iPhone, pretože dobre naznačuje typického pisára. "Väčšina ľudí nemá čas naučiť sa alternatívne klávesnice," povedal.
Pokiaľ ide o to, čo štúdia znamená, Landay naznačuje, že predstavuje dôležitý štandard pre rozpoznávanie reči. "Stále je čo zlepšovať, ale myslíme si, že nejaký inflexný bod už prešiel," povedal. "Ďalšie vylepšenia prídu v rozpoznávaní mien, lepšom výkone v hlučnom prostredí atď."
To podľa neho otvára viac možností pre vývojárov, aby sa vážnejšie zamysleli nad začlenením rozpoznávania reči do svojich systémov bez obáv. "Čo bude čoraz viac dávať zmysel, je spoliehanie sa na reč," povedal. „Napríklad multimodálne rozhrania kombinujúce reč s inými prvkami, ktoré ľuďom pomáhajú pri navigácii. Najväčšou výzvou však bude pochopenie význam slov a viet. Táto časť má ešte pred sebou."
Odporúčania redaktorov
- Používanie Alexa je zložité, ak máte poruchu reči. Voiceitt by to mohol opraviť
- Čínska firma pracuje na rozpoznávaní tváre, ktoré vás dokáže identifikovať pod maskou
- Gboard od Googlu bude v rozpoznávaní reči oveľa lepší
Zlepšite svoj životný štýlDigitálne trendy pomáhajú čitateľom mať prehľad o rýchlo sa rozvíjajúcom svete technológií so všetkými najnovšími správami, zábavnými recenziami produktov, užitočnými úvodníkmi a jedinečnými ukážkami.