Ny talegjenkjenningsmetode lærer gjennom bilder

Android meldingsforbedringer telefoner som sender tekstmeldinger til hverandre
Olga Lebedeva/123RF.com
Talegjenkjenningssystemer er kanskje ikke perfekte ennå, men som Amazon Echo viser, blir de både bedre og mer allestedsnærværende hele tiden.

EN nytt stykke forskning av etterforskere ved Massachusetts Institute of Technology's Computer Science and Artificial Intelligence Laboratory (CSAIL) foreslår en ny teknikk for å trene disse systemene - ved å få dem til å lære ved å se på Bilder.

Anbefalte videoer

"Dette er et forsøk på å få maskiner til å kreve mindre veiledet opplæring for å lære om talespråk," Jim Glass, en seniorforsker ved CSAIL, fortalte Digital Trends. "Den konvensjonelle måten å trene talegjenkjenningssystemer på er å bruke opptak av folk som snakker og, for hver ytring, transkribere nøyaktig hvilke ord som er sagt. Ideelt sett har du hundrevis eller tusenvis av timer med tale for at systemet skal fungere skikkelig. Noen av de største selskapene som gjør dette – som Baidu og Google – bruker titusenvis av timer på opplæring. Jo flere kommenterte data de har, jo bedre presterer disse systemene.»

Så hva er galt med det? Tross alt, som nevnt, blir teknologi for talegjenkjenning stadig bedre. Uansett hva informatikere gjør fungerer åpenbart.

Det kan være sant, men denne nye tilnærmingen er interessant av et par grunner. For det første, åpne opp for en maskins evne til å trene seg selv til å forstå ved å se på kombinerte bilder og lyd (til slutt kan du forestille deg at det trener ved å se YouTube) er mye nærmere måten vi lærer på som mennesker vesener.

For det andre - og kanskje enda viktigere - er det faktum at det kan bidra til å bringe talegjenkjenning til deler av verden som kan ha stor nytte av denne typen teknologi.

"Annoterte data er dyre å produsere," fortsatte Glass. «Talegjenkjenning har pågått i flere tiår, og mesteparten av det har vært for språk i land som har råd til å investere i denne typen ressurser. Når det gjelder språk, har det en tendens til å være de som bedrifter tror vil hjelpe dem med å tjene penger. Engelsk har fått desidert mest oppmerksomhet, etterfulgt av vesteuropeiske språk, og andre språk som japansk og mandarin. Problemet er at det er rundt 7000 språk som snakkes i verden og rundt 300 som snakkes av mer enn 1 million mennesker. Mange av disse har bare ikke fått mye oppmerksomhet - om noen."

I deler av verden hvor leseferdighetsnivået er lavt, er det lett å se hvordan talegjenkjenning kan være en forandring når det gjelder å gi folk tilgang til informasjon. Forhåpentligvis kan denne teknologien hjelpe mot dette målet.

Like spennende som forskningen er, bemerker Glass at den fortsatt er i de tidlige stadiene. For tiden har CSAIL-forskere matet systemet sitt med en database med 1000 bilder, hver med en fri-form verbal beskrivelse som er relatert til det på en eller annen måte. De tester deretter systemet ved å gi det et opptak og be det hente 10 bilder som passer best til det det hører.

Over tid er håpet at slike tilnærminger til talegjenkjenning vil forbedre effektiviteten til det punktet hvor møysommelig merking av taletreningsdata ikke lenger anses som en nødvendighet.

Hvis alt går etter planen, burde det være bedre for alle – enten du er engelsktalende i USA eller snakker Xhosa i Sør-Afrika.

Redaktørenes anbefalinger

  • Smart ny A.I. systemet lover å trene hunden din mens du er borte fra hjemmet
  • Ny "skyggefull" forskning fra MIT bruker skygger for å se hva kameraer ikke kan
  • A.I. forskere lager et ansiktsgjenkjenningssystem for sjimpanser
  • MIT, Adobes nye A.I. kan bringe bakgrunnsfjerning med ett klikk, sosiale filtre

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.