Uusi puheentunnistusmenetelmä oppii kuvien kautta

Android-viestit parannukset puhelimet lähettävät tekstiviestejä toisilleen
Olga Lebedeva/123RF.com
Puheentunnistusjärjestelmät eivät ehkä vielä ole täydellisiä, mutta kuten Amazon Echon kaltaiset osoittavat, ne paranevat ja yleistyvät koko ajan.

A uusi tutkimus Massachusetts Institute of Technologyn tietojenkäsittelytieteen ja tekoälyn tutkijat Laboratorio (CSAIL) ehdottaa uutta tekniikkaa näiden järjestelmien kouluttamiseen – saamalla ne oppimaan katsomalla kuvia.

Suositellut videot

"Tämä on yritys saada koneet vaatimaan vähemmän valvottua koulutusta puhutun kielen oppimiseen", Jim Glass, CSAILin vanhempi tutkija kertoi Digital Trendsille. "Perinteinen tapa kouluttaa puheentunnistusjärjestelmiä on käyttää äänitteitä ihmisten puhumisesta ja jokaisen lausunnon yhteydessä litteroimalla tarkalleen mitä sanoja on sanottu. Ihannetapauksessa sinulla on satoja tai tuhansia puhetunteja, jotta järjestelmä toimisi kunnolla. Jotkut tätä tekevistä suurimmista yrityksistä - kuten Baidu ja Google - käyttävät kymmeniä tuhansia tunteja koulutukseen. Mitä enemmän huomautuksia heillä on, sitä paremmin nämä järjestelmät toimivat."

Joten mikä siinä on vikana? Loppujen lopuksi, kuten todettiin, puheentunnistustekniikka paranee jatkuvasti. Mitä tahansa tietojenkäsittelytieteilijät tekevätkin, toimii ilmeisesti.

Se voi olla totta, mutta tämä uusi lähestymistapa on mielenkiintoinen muutamasta syystä. Ensinnäkin koneen kyky kouluttaa itsensä ymmärtämään katsomalla yhdistettyjä kuvia ja ääntä (Voit lopulta kuvitella sen harjoittelevan katsomalla YouTubea) on paljon lähempänä tapaa, jolla opimme ihmisenä olentoja.

Toiseksi – ja luultavasti tärkeämpää – on se, että se voisi auttaa tuomaan puheentunnistuksen sellaisiin osiin maailmaa, jotka voisivat hyötyä suuresti tällaisesta tekniikasta.

"Annotoitu data on kallista tuottaa", Glass jatkoi. ”Puuntunnistus on ollut käynnissä vuosikymmeniä ja suurin osa siitä on ollut kielille maissa, joissa on varaa investoida tällaisiin resursseihin. Mitä tulee kieleen, se on yleensä niitä, joiden yritykset ajattelevat auttavan niitä tuottamaan voittoa. Eniten huomiota on kiinnittänyt englanti, jota seuraavat Länsi-Euroopan kielet ja muut kielet, kuten japani ja mandariinikiina. Ongelmana on, että maailmassa puhutaan noin 7 000 kieltä ja noin 300 kieltä, joita puhuu yli miljoona ihmistä. Monet näistä eivät vain ole saaneet paljon huomiota - jos ollenkaan."

Niissä osissa maailmaa, joissa lukutaitotaso on alhainen, on helppo nähdä, kuinka puheentunnistus voisi olla pelin muuttaja tarjoamalla ihmisille pääsyn tietoihin. Toivottavasti tämä tekniikka voi auttaa tämän tavoitteen saavuttamisessa.

Niin jännittävää kuin tutkimus onkin, Glass toteaa, että se on vielä hyvin alkuvaiheessa. Tällä hetkellä CSAIL-tutkijat ovat syöttäneet järjestelmäänsä 1000 kuvan tietokannalla, joista jokaisessa on vapaamuotoinen sanallinen kuvaus, joka liittyy siihen jollain tavalla. Sitten he testaavat järjestelmää antamalla sille tallenteen ja pyytämällä sitä hakemaan 10 kuvaa, jotka parhaiten vastaavat kuulemaansa.

Ajan myötä on toivottavaa, että tällaiset puheentunnistuksen lähestymistavat parantavat tehokkuuttaan siihen pisteeseen, että puheenopetusdatan työläs merkitseminen ei enää ole välttämätöntä.

Jos kaikki menee suunnitelmien mukaan, sen pitäisi olla parempi kaikille – olitpa englannin puhuja Yhdysvalloissa tai xhosan puhuja Etelä-Afrikassa.

Toimittajien suositukset

  • Älykäs uusi A.I. järjestelmä lupaa kouluttaa koirasi, kun olet poissa kotoa
  • MIT: n uusi "varjoinen" tutkimus käyttää varjoja nähdäkseen, mitä kamerat eivät pysty
  • A.I. tutkijat luovat simpanssien kasvojentunnistusjärjestelmän
  • MIT, Adoben uusi A.I. voisi tuoda yhdellä napsautuksella taustan poiston, sosiaaliset suodattimet

Päivitä elämäntapasiDigital Trends auttaa lukijoita pysymään tekniikan nopeatempoisessa maailmassa uusimpien uutisten, hauskojen tuotearvostelujen, oivaltavien toimitusten ja ainutlaatuisten kurkistusten avulla.