Nova metoda prepoznavanja govora uči kroz slike

android poruke poboljšanja telefoni slanje poruka jedni drugima
Olga Lebedeva/123RF.com
Sustavi za prepoznavanje govora možda još nisu savršeni, ali kao što pokazuju Amazon Echo, postaju sve bolji i sveprisutniji.

A novo istraživanje istražitelji s Massachusetts Institute of Technology za računalne znanosti i umjetnu inteligenciju Laboratorij (CSAIL) predlaže novu tehniku ​​za treniranje ovih sustava — tako da ih se natjera da uče gledajući slike.

Preporučeni videozapisi

"Ovo je pokušaj da se strojevima natjera manje obuke pod nadzorom za učenje govornog jezika," Jim Glass, viši znanstvenik u CSAIL-u, rekao je za Digital Trends. “Konvencionalni način treniranja sustava za prepoznavanje govora je korištenje snimaka ljudi koji govore i, za svaki izgovor, prepisivanje točno onoga što je izgovoreno. U idealnom slučaju, imate stotine ili tisuće sati govora kako bi sustav ispravno radio. Neke od najvećih kompanija koje to rade — poput Baidua i Googlea — koriste desetke tisuća sati za obuku. Što više označenih podataka imaju, ti sustavi rade bolje."

Dakle, što nije u redu s tim? Uostalom, kao što je navedeno, tehnologija prepoznavanja govora neprestano postaje bolja. Što god računalni znanstvenici rade očito funkcionira.

To može biti istina, ali ovaj novi pristup je zanimljiv iz nekoliko razloga. Prvo, otvaranje sposobnosti stroja da se osposobi za razumijevanje promatranjem kombiniranih slika i zvuka (na kraju, možete zamisliti da trenira gledajući YouTube) mnogo je bliži načinu na koji učimo kao ljudi bića.

Drugo - i nedvojbeno važnije - je činjenica da bi to moglo pomoći u prepoznavanju govora u dijelovima svijeta koji bi mogli imati velike koristi od ove vrste tehnologije.

"Podatke s komentarima skupo je proizvesti", nastavio je Glass. “Prepoznavanje govora odvija se desetljećima i većina se odnosi na jezike u zemljama koje si mogu priuštiti ulaganje u ovakvu vrstu resursa. Kada je riječ o jeziku, to su uglavnom oni za koje tvrtke misle da će im pomoći da ostvare profit. Engleski je dobio daleko najviše pažnje, a slijede ga zapadnoeuropski jezici, te drugi jezici poput japanskog i mandarinskog. Problem je što se u svijetu govori oko 7000 jezika i oko 300 koje govori više od milijun ljudi. Mnogi od njih jednostavno nisu dobili mnogo pažnje - ako je i bilo."

U dijelovima svijeta gdje su razine pismenosti niske, lako je vidjeti kako bi prepoznavanje govora moglo promijeniti pravila igre u smislu pružanja ljudima pristupa informacijama. Nadamo se da ova tehnologija može pomoći u postizanju tog cilja.

Međutim, koliko god istraživanje bilo uzbudljivo, Glass napominje da je još uvijek u vrlo ranoj fazi. Trenutačno istraživači CSAIL-a napajaju svoj sustav bazom podataka od 1000 slika, od kojih svaka ima verbalni opis u slobodnom obliku koji je na neki način povezan s njom. Zatim testiraju sustav dajući mu snimku i tražeći od njega da preuzme 10 slika koje najbolje odgovaraju onome što čuje.

Nadamo se da će se s vremenom takvi pristupi prepoznavanju govora poboljšati u svojoj učinkovitosti do točke u kojoj se naporno označavanje podataka govornog treninga više ne smatra nužnim.

Ako sve bude išlo po planu, to bi trebalo biti bolje za sve - bilo da govorite engleski u SAD-u ili govorite Xhosa u Južnoj Africi.

Preporuke urednika

  • Pametan novi A.I. sustav obećava da će trenirati vašeg psa dok ste odsutni od kuće
  • Novo 'sumnjivo' istraživanje s MIT-a koristi sjene kako bi vidjelo što kamere ne mogu
  • A.I. istraživači stvaraju sustav za prepoznavanje lica za čimpanze
  • MIT, Adobeov novi A.I. mogao donijeti uklanjanje pozadine jednim klikom, društvene filtre

Nadogradite svoj životni stilDigitalni trendovi pomažu čitateljima da prate brzi svijet tehnologije sa svim najnovijim vijestima, zabavnim recenzijama proizvoda, pronicljivim uvodnicima i jedinstvenim brzim pregledima.