Nova metoda za prepoznavanje govora se uči skozi slike

click fraud protection
android sporočila izboljšave telefoni medsebojno pošiljanje sporočil
Olga Lebedeva/123RF.com
Sistemi za prepoznavanje govora morda še niso popolni, a kot kažejo podobni Amazon Echo, postajajo vedno boljši in vse bolj razširjeni.

A nova raziskava raziskovalci na Inštitutu za računalništvo in umetno inteligenco Massachusetts Institute of Technology Laboratorij (CSAIL) predlaga novo tehniko za usposabljanje teh sistemov - tako, da se učijo z gledanjem slike.

Priporočeni videoposnetki

"To je poskus, da bi stroji zahtevali manj nadzorovanega usposabljanja za učenje govorjenega jezika," Jim Glass, višji raziskovalec pri CSAIL, je povedal za Digital Trends. »Konvencionalen način za usposabljanje sistemov za prepoznavanje govora je uporaba posnetkov ljudi, ki se pogovarjajo, in za vsako izrečeno prepis točno tistih besed, ki so bile izrečene. Idealno je, če imate na stotine ali tisoče ur govora, da sistem pravilno deluje. Nekatera največja podjetja, ki to počnejo, kot sta Baidu in Google, porabijo več deset tisoč ur za usposabljanje. Več kot imajo označenih podatkov, bolje delujejo ti sistemi.«

Torej, kaj je narobe s tem? Konec koncev, kot že omenjeno, se tehnologija za prepoznavanje govora nenehno izboljšuje. Kar koli počnejo računalničarji, očitno deluje.

To je morda res, vendar je ta novi pristop zanimiv iz več razlogov. Prvič, odpiranje zmožnosti stroja, da se nauči razumeti z gledanjem kombiniranih slik in zvoka (sčasoma si lahko predstavljate, da trenira z gledanjem YouTuba) je veliko bližje načinu, kako se učimo kot ljudje bitja.

Drugič - in verjetno še pomembneje - je dejstvo, da bi lahko pomagal pri prepoznavanju govora v delih sveta, ki bi lahko imeli veliko koristi od te vrste tehnologije.

"Izdelava označenih podatkov je draga," je nadaljeval Glass. »Prepoznavanje govora poteka že desetletja in večina je bila za jezike v državah, ki si lahko privoščijo vlaganje v tovrstne vire. Ko gre za jezike, so to ponavadi tisti, za katere podjetja menijo, da jim bodo pomagali ustvariti dobiček. Daleč največ pozornosti je bila deležna angleščina, sledijo ji zahodnoevropski jeziki in drugi jeziki, kot sta japonščina in mandarinščina. Težava je v tem, da se na svetu govori približno 7000 jezikov in približno 300 jezikov, ki jih govori več kot milijon ljudi. Veliko teh preprosto ni prejelo veliko pozornosti - če sploh.«

V delih sveta, kjer je stopnja pismenosti nizka, je zlahka videti, kako bi lahko prepoznavanje govora spremenilo igro v smislu zagotavljanja dostopa do informacij ljudem. Upajmo, da lahko ta tehnologija pomaga pri doseganju tega cilja.

Čeprav je raziskava vznemirljiva, Glass ugotavlja, da je še vedno v zelo zgodnjih fazah. Trenutno raziskovalci CSAIL hranijo svoj sistem z bazo podatkov s 1000 slikami, od katerih ima vsaka besedni opis v prosti obliki, ki se na nek način nanaša nanjo. Nato sistem preizkusijo tako, da mu dajo posnetek in ga prosijo, naj pridobi 10 slik, ki se najbolj ujemajo s tem, kar sliši.

Sčasoma upamo, da se bodo takšni pristopi k prepoznavanju govora izboljšali v svoji učinkovitosti do točke, ko težko označevanje podatkov o govornem treningu ne bo več nujno.

Če bo šlo vse po načrtu, bi moralo biti to bolje za vse – ne glede na to, ali govorite angleško v ZDA ali govorite jezik Xhosa v Južni Afriki.

Priporočila urednikov

  • Pameten novi A.I. sistem obljublja, da bo treniral vašega psa, ko ste zdoma
  • Nova "senčna" raziskava MIT uporablja sence, da vidi, česar kamere ne morejo
  • A.I. raziskovalci izdelajo sistem za prepoznavanje obrazov za šimpanze
  • MIT, novi A.I. lahko prinese odstranitev ozadja z enim klikom, socialne filtre

Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.