Noua metodă de recunoaștere a vorbirii învață prin imagini

Îmbunătățirea mesajelor Android telefoanele trimite mesaje unul altuia
Olga Lebedeva/123RF.com
Este posibil ca sistemele de recunoaștere a vorbirii să nu fie încă perfecte, dar, așa cum arată Amazon Echo, ele devin tot mai bune și mai omniprezente.

A noua cercetare de anchetatorii de la Institutul de Tehnologie din Massachusetts, Știința Informatică și Inteligența Artificială Laboratorul (CSAIL) sugerează o nouă tehnică de instruire a acestor sisteme - prin a le face să învețe uitându-se la imagini.

Videoclipuri recomandate

„Aceasta este o încercare de a face ca mașinile să necesite o instruire mai puțin supravegheată pentru a învăța despre limbajul vorbit.” Jim Glass, un cercetător senior la CSAIL, a declarat pentru Digital Trends. „Modul convențional de a antrena sistemele de recunoaștere a vorbirii este prin utilizarea înregistrărilor oamenilor care vorbesc și, pentru fiecare enunț, transcrierea exactă a cuvintelor care au fost spuse. În mod ideal, aveți sute sau mii de ore de vorbire pentru ca sistemul să funcționeze corect. Unele dintre cele mai mari companii care fac acest lucru - precum Baidu și Google - folosesc zeci de mii de ore pentru formare. Cu cât au mai multe date adnotate, cu atât aceste sisteme funcționează mai bine.”

Deci, ce este în neregulă cu asta? La urma urmei, după cum sa menționat, tehnologia de recunoaștere a vorbirii este din ce în ce mai bună. Orice fac oamenii de știință în informatică, evident, funcționează.

Acest lucru poate fi adevărat, dar această nouă abordare este interesantă din câteva motive. În primul rând, deschiderea capacității unei mașini de a se antrena să înțeleagă uitându-se la imagini și sunet combinate (în cele din urmă, v-ați putea imagina că se antrenează urmărind YouTube) este mult mai aproape de modul în care învățăm ca oameni ființe.

În al doilea rând - și, probabil, mai important - este faptul că ar putea ajuta la aducerea recunoașterii vorbirii în părți ale lumii care ar putea beneficia foarte mult de acest tip de tehnologie.

„Datele adnotate sunt costisitoare de produs”, a continuat Glass. „Recunoașterea vorbirii se desfășoară de zeci de ani și cea mai mare parte a fost pentru limbi din țări care își permit să investească în acest tip de resurse. Când vine vorba de limbaj, tinde să fie acelea despre care companiile cred că le vor ajuta să obțină profit. Engleza a primit de departe cea mai mare atenție, urmată de limbile vest-europene și de alte limbi precum japoneză și mandarină. Problema este că există aproximativ 7.000 de limbi vorbite în lume și aproximativ 300 care sunt vorbite de peste 1 milion de oameni. Multe dintre acestea pur și simplu nu au primit prea multă atenție – dacă este cazul.”

În părțile lumii în care nivelul de alfabetizare este scăzut, este ușor de observat cum recunoașterea vorbirii ar putea schimba jocul în ceea ce privește oferirea oamenilor de acces la informații. Sperăm că această tehnologie poate ajuta la atingerea acestui obiectiv.

Oricât de interesantă este cercetarea, Glass observă că este încă în fazele sale incipiente. În prezent, cercetătorii CSAIL și-au alimentat sistemul cu o bază de date de 1.000 de imagini, fiecare cu o descriere verbală în formă liberă care se referă la ea într-un fel. Apoi testează sistemul dându-i o înregistrare și cerându-i să recupereze 10 imagini care se potrivesc cel mai bine cu ceea ce aude.

De-a lungul timpului, speranța este că astfel de abordări ale recunoașterii vorbirii își vor îmbunătăți eficiența până la punctul în care etichetarea laborioasă a datelor de formare a vorbirii nu mai este considerată o necesitate.

Dacă totul decurge conform planului, ar trebui să fie mai bine pentru toată lumea – indiferent dacă vorbiți engleza în SUA sau vorbiți xhosa în Africa de Sud.

Recomandările editorilor

  • Un nou inteligent A.I. sistemul promite să vă dreseze câinele în timp ce sunteți plecat de acasă
  • Noua cercetare „umbrită” de la MIT folosește umbre pentru a vedea ce nu pot camerele
  • A.I. cercetătorii creează un sistem de recunoaștere facială pentru cimpanzei
  • MIT, noul Adobe A.I. ar putea aduce eliminarea fundalului cu un singur clic, filtre sociale

Îmbunătățește-ți stilul de viațăDigital Trends îi ajută pe cititori să țină cont de lumea rapidă a tehnologiei cu toate cele mai recente știri, recenzii distractive despre produse, editoriale perspicace și anticipări unice.