А ново изследване от изследователи от Масачузетския технологичен институт по компютърни науки и изкуствен интелект Лабораторията (CSAIL) предлага нова техника за обучение на тези системи - като ги накара да се учат чрез гледане изображения.
Препоръчани видеоклипове
„Това е опит да накараме машините да изискват по-малко контролирано обучение, за да научат говоримия език,“ Джим Глас, старши научен сътрудник в CSAIL, каза пред Digital Trends. „Конвенционалният начин за обучение на системи за разпознаване на реч е чрез използване на записи на хора, които говорят, и за всяко изказване, преписване на точно казаните думи. В идеалния случай имате стотици или хиляди часове реч, за да може системата да работи правилно. Някои от най-големите компании, които правят това – като Baidu и Google – използват десетки хиляди часове за обучение. Колкото повече анотирани данни имат, толкова по-добре работят тези системи.“
И така, какво лошо има в това? В крайна сметка, както беше отбелязано, технологията за разпознаване на реч непрекъснато се подобрява. Каквото и да правят компютърните учени, очевидно работи.
Това може да е вярно, но този нов подход е интересен поради няколко причини. Първо, отваряне на способността на машината да се обучава да разбира, като разглежда комбинирани изображения и аудио (в крайна сметка можете да си представите, че тренира, като гледа YouTube) е много по-близо до начина, по който се учим като хора същества.
На второ място - и може би по-важно - е фактът, че може да помогне за разпознаването на реч в части от света, които биха могли да се възползват значително от този вид технология.
„Производството на анотирани данни е скъпо“, продължи Глас. „Разпознаването на реч се извършва от десетилетия и по-голямата част от него е за езици в страни, които могат да си позволят да инвестират в този вид ресурси. Що се отнася до езика, това са тези, които компаниите смятат, че ще им помогнат да направят печалба. Английският е получил най-голямо внимание, следван от западноевропейските езици и други езици като японски и мандарин. Проблемът е, че в света се говорят около 7000 езика и около 300, които се говорят от повече от 1 милион души. Много от тях просто не са получили много внимание - ако има такова.
В части от света, където нивата на грамотност са ниски, е лесно да се види как разпознаването на реч може да промени играта по отношение на предоставянето на достъп на хората до информация. Надяваме се, че тази технология може да помогне за тази цел.
Колкото и вълнуващо да е изследването обаче, Глас отбелязва, че то все още е в много ранен етап. Понастоящем изследователите на CSAIL захранват своята система с база данни от 1000 изображения, всяко със словесно описание в свободна форма, което се отнася до него по някакъв начин. След това тестват системата, като й дават запис и я карат да извлече 10 изображения, които най-добре отговарят на това, което чува.
С течение на времето се надяваме, че подобни подходи за разпознаване на реч ще подобрят своята ефективност до точката, в която трудоемкото етикетиране на данни за обучение на реч вече не се счита за необходимост.
Ако всичко върви по план, това би трябвало да е по-добре за всички - независимо дали говорите английски в САЩ или говорите коса коса в Южна Африка.
Препоръки на редакторите
- Умен нов A.I. системата обещава да обучи вашето куче, докато сте далеч от дома
- Ново „сенчесто“ изследване от MIT използва сенки, за да види какво не могат камерите
- ИИ изследователи създават система за лицево разпознаване на шимпанзета
- MIT, новият ИИ на Adobe може да доведе до премахване на фона с едно кликване, социални филтри
Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.