![androidi sõnumid täiustavad telefonid, mis saadavad üksteisele sõnumeid](/f/3c6ae9f568a84ee260dced6cac72cba0.jpg)
A uus uurimustöö Massachusettsi Tehnoloogiainstituudi arvutiteaduse ja tehisintellekti uurijate poolt Laboratory (CSAIL) soovitab nende süsteemide koolitamiseks uut tehnikat – pannes need õppima vaadates pilte.
Soovitatud videod
"See on katse panna masinad nõudma kõnekeele õppimiseks vähem juhendatud koolitust," Jim Glass, CSAILi vanemteadur, rääkis Digital Trendsile. "Tavapärane viis kõnetuvastussüsteemide treenimiseks on kasutada kõnelevate inimeste salvestisi ja iga lausumise puhul täpselt öeldud sõnu transkribeerida. Ideaalis on teil sadu või tuhandeid tunde kõnet, et süsteem korralikult töötaks. Mõned suurimad seda tegevad ettevõtted – nagu Baidu ja Google – kasutavad koolituseks kümneid tuhandeid tunde. Mida rohkem märkustega andmeid neil on, seda paremini need süsteemid toimivad.
Mis selles siis viga on? Lõppude lõpuks, nagu märgitud, muutub kõnetuvastustehnoloogia pidevalt paremaks. Kõik, mida arvutiteadlased teevad, töötab ilmselgelt.
See võib olla tõsi, kuid see uus lähenemisviis on huvitav mitmel põhjusel. Esiteks avab masina võime harjutada end mõistma, vaadates kombineeritud pilte ja heli (lõpuks võite ette kujutada, et see treenib YouTube'i vaadates) on palju lähemal sellele, kuidas me inimesena õpime olendid.
Teiseks – ja väidetavalt veelgi olulisem – on asjaolu, et see võib aidata kõnetuvastust tuua maailma osadesse, mis võivad sellisest tehnoloogiast palju kasu saada.
"Annoteeritud andmete tootmine on kallis," jätkas Glass. „Kõnetuvastus on kestnud aastakümneid ja suurem osa sellest on olnud keelte jaoks riikides, kus on võimalik seda tüüpi ressurssidesse investeerida. Keele puhul kipuvad olema need, mis ettevõtete arvates aitavad neil kasumit teenida. Kõige rohkem tähelepanu on pälvinud inglise keel, millele järgnevad Lääne-Euroopa keeled ja teised keeled, nagu jaapani keel ja mandariini keel. Probleem on selles, et maailmas räägitakse umbes 7000 keelt ja umbes 300 keelt, mida räägib rohkem kui miljon inimest. Paljud neist pole lihtsalt palju tähelepanu pälvinud – kui üldse.”
Nendes maailma osades, kus kirjaoskuse tase on madal, on lihtne mõista, kuidas kõnetuvastus võib inimestele teabele juurdepääsu pakkumisel mängu muuta. Loodetavasti aitab see tehnoloogia seda eesmärki saavutada.
Nii põnev kui uurimistöö ka pole, märgib Glass, et see on alles väga varajases staadiumis. Praegu on CSAIL-i teadlased oma süsteemi varustanud 1000 pildiga andmebaasiga, millest igaühel on vabas vormis sõnaline kirjeldus, mis sellega mingil moel seostub. Seejärel testivad nad süsteemi, salvestades selle ja paludes sellel hankida 10 pilti, mis vastavad kõige paremini kuuletule.
Aja jooksul on lootus, et sellised kõnetuvastuse lähenemisviisid parandavad oma tõhusust niivõrd, et kõnetreeningu andmete vaevarikast märgistamist ei peeta enam vajalikuks.
Kui kõik läheb plaanipäraselt, peaks see olema parem kõigile – olenemata sellest, kas olete inglise keele kõneleja USA-s või xhosa keele kõneleja Lõuna-Aafrikas.
Toimetajate soovitused
- Nutikas uus A.I. süsteem lubab teie koera koolitada, kui olete kodust eemal
- MIT-i uued "varjulised" uuringud kasutavad varje, et näha, mida kaamerad ei suuda
- A.I. teadlased loovad šimpanside jaoks näotuvastussüsteemi
- MIT, Adobe uus A.I. võib tuua ühe klõpsuga tausta eemaldamise, sotsiaalsed filtrid
Uuenda oma elustiiliDigitaalsed suundumused aitavad lugejatel hoida silma peal kiirel tehnikamaailmal kõigi viimaste uudiste, lõbusate tooteülevaadete, sisukate juhtkirjade ja ainulaadsete lühiülevaadetega.