Nová metoda rozpoznávání řeči se učí prostřednictvím obrázků

Zprávy pro Android vylepšují telefony, které si navzájem posílají textové zprávy
Olga Lebedeva/123RF.com
Systémy rozpoznávání řeči možná ještě nejsou dokonalé, ale jak ukazují například Amazon Echo, jsou stále lepší a všudypřítomnější.

A nový výzkum od vyšetřovatelů z Massachusetts Institute of Technology’s Computer Science and Artificial Intelligence Laboratory (CSAIL) navrhuje novou techniku ​​pro trénování těchto systémů – tím, že je přiměje, aby se učily pohledem snímky.

Doporučená videa

"Jde o pokus přimět stroje, aby vyžadovaly méně kontrolovaný výcvik, aby se naučily mluvenou řeč," Jim Glass, vedoucí vědecký pracovník CSAIL, řekl Digital Trends. „Konvenčním způsobem, jak trénovat systémy rozpoznávání řeči, je použití nahrávek mluvících lidí a pro každý výrok přesně přepsat, jaká slova byla vyslovena. V ideálním případě máte stovky nebo tisíce hodin řeči, aby systém správně fungoval. Některé z největších společností, které to dělají – jako Baidu a Google – využívají desítky tisíc hodin na školení. Čím více anotovaných dat mají, tím lépe tyto systémy fungují.“

tak co je na tom špatného? Koneckonců, jak bylo uvedeno, technologie rozpoznávání řeči se neustále zlepšuje. Cokoliv počítačoví vědci dělají, evidentně funguje.

To může být pravda, ale tento nový přístup je zajímavý z několika důvodů. Za prvé, otevírání schopnosti stroje trénovat se, aby porozuměl, tím, že se dívá na kombinované obrázky a zvuk (nakonec si to dokážete představit trénovat sledováním YouTube) je mnohem blíže způsobu, jakým se učíme jako lidé bytosti.

Za druhé – a pravděpodobně ještě důležitější – je skutečnost, že by to mohlo pomoci přinést rozpoznávání řeči do částí světa, které by mohly mít z tohoto druhu technologie velký prospěch.

„Produkce anotovaných dat je nákladná,“ pokračoval Glass. „Rozpoznávání řeči probíhá po desetiletí a většina z nich se týkala jazyků v zemích, které si mohou dovolit investovat do těchto zdrojů. Pokud jde o jazyk, bývají to ty, o kterých si společnosti myslí, že jim pomohou dosáhnout zisku. Zdaleka největší pozornost si získala angličtina, následovaná západoevropskými jazyky a dalšími jazyky jako japonština a mandarínština. Problém je, že na světě se mluví asi 7 000 jazyky a asi 300 jazyky, kterými mluví více než 1 milion lidí. Spoustě z nich se prostě nevěnovala velká pozornost – pokud vůbec nějaká.“

V částech světa, kde je úroveň gramotnosti nízká, je snadné vidět, jak může rozpoznávání řeči změnit hru, pokud jde o poskytování přístupu k informacím lidem. Doufejme, že tato technologie může pomoci k dosažení tohoto cíle.

Jakkoli je výzkum vzrušující, Glass poznamenává, že je stále ve velmi raných fázích. V současné době vědci CSAIL zásobují svůj systém databází 1000 obrázků, z nichž každý obsahuje slovní popis ve volné formě, který se k němu nějakým způsobem vztahuje. Poté otestují systém tak, že mu poskytnou nahrávku a požádají jej, aby načetl 10 obrázků, které nejlépe odpovídají tomu, co slyší.

Doufáme, že postupem času se účinnost takových přístupů k rozpoznávání řeči zlepší do té míry, že pracné označování dat z tréninku řeči již nebude považováno za nutnost.

Pokud vše půjde podle plánu, mělo by to být lepší pro všechny – ať už mluvíte anglicky v USA nebo mluvíte xhosou v Jižní Africe.

Doporučení redakce

  • Chytrá nová A.I. systém slibuje, že vašeho psa vycvičí, když jste mimo domov
  • Nový „stinný“ výzkum z MIT využívá stíny k tomu, aby viděl, co kamery nemohou
  • A.I. výzkumníci vytvořili systém rozpoznávání obličeje pro šimpanze
  • MIT, nová A.I společnosti Adobe může přinést odstranění pozadí jedním kliknutím, sociální filtry

Upgradujte svůj životní stylDigitální trendy pomáhají čtenářům mít přehled o rychle se měnícím světě technologií se všemi nejnovějšími zprávami, zábavnými recenzemi produktů, zasvěcenými úvodníky a jedinečnými náhledy.