Jaunā runas atpazīšanas metode mācās, izmantojot attēlus

android ziņas uzlabojumi tālruņi sūta īsziņas viens otram
Olga Ļebedeva/123RF.com
Runas atpazīšanas sistēmas, iespējams, vēl nav ideālas, taču, kā liecina, piemēram, Amazon Echo, tās visu laiku kļūst gan labākas, gan visuresošākas.

A jauns pētījums Masačūsetsas Tehnoloģiju institūta Datorzinātnes un mākslīgā intelekta izmeklētāji Laboratorija (CSAIL) iesaka jaunu paņēmienu šo sistēmu apmācībai — liekot tām mācīties, skatoties attēlus.

Ieteiktie videoklipi

"Šis ir mēģinājums panākt, lai mašīnām būtu nepieciešama mazāk uzraudzīta apmācība, lai apgūtu runāto valodu." Džims Glāss, CSAIL vecākais pētnieks pastāstīja Digital Trends. “Parastais veids, kā apmācīt runas atpazīšanas sistēmas, ir izmantot sarunu ierakstus un katram izteikumam pārrakstīt tieši tos vārdus, kas ir teikti. Ideālā gadījumā jums ir simtiem vai tūkstošiem runas stundu, lai sistēma darbotos pareizi. Daži no lielākajiem uzņēmumiem, kas to dara, piemēram, Baidu un Google, mācībām izmanto desmitiem tūkstošu stundu. Jo vairāk anotētu datu viņiem ir, jo labāk šīs sistēmas darbojas.

Tātad, kas ar to ir nepareizi? Galu galā, kā minēts, runas atpazīšanas tehnoloģija nepārtraukti uzlabojas. Neatkarīgi no tā, ko dara datorzinātnieki, tas acīmredzami darbojas.

Tā var būt taisnība, taču šī jaunā pieeja ir interesanta vairāku iemeslu dēļ. Pirmkārt, atverot mašīnas spēju apmācīt sevi saprast, aplūkojot apvienotos attēlus un audio (galu galā jūs varētu iedomāties, ka tas mācās, skatoties YouTube) ir daudz tuvāk tam, kā mēs mācāmies kā cilvēki būtnes.

Otrkārt — un, iespējams, vēl svarīgāk — ir fakts, ka tas varētu palīdzēt ieviest runas atpazīšanu tajās pasaules daļās, kuras varētu gūt lielu labumu no šāda veida tehnoloģijas.

"Anotētu datu iegūšana ir dārga," Glass turpināja. “Runas atpazīšana notiek jau vairākus gadu desmitus, un lielākā daļa no tā ir bijusi valodām valstīs, kuras var atļauties ieguldīt šāda veida resursos. Runājot par valodu, uzņēmumi domā, ka tie palīdzēs gūt peļņu. Angļu valodai ir pievērsta vislielākā uzmanība, tai seko Rietumeiropas valodas un citas valodas, piemēram, japāņu un mandarīnu valoda. Problēma ir tā, ka pasaulē runā aptuveni 7000 valodu un aptuveni 300 valodu, kurās runā vairāk nekā 1 miljons cilvēku. Daudzi no tiem vienkārši nav saņēmuši lielu uzmanību — ja tāda ir.

Tajās pasaules daļās, kur lasītprasmes līmenis ir zems, ir viegli saprast, kā runas atpazīšana var mainīt spēli, nodrošinot cilvēkiem piekļuvi informācijai. Cerams, ka šī tehnoloģija var palīdzēt sasniegt šo mērķi.

Lai cik aizraujošs būtu pētījums, Glass atzīmē, ka tas joprojām ir ļoti agrīnā stadijā. Pašlaik CSAIL pētnieki savu sistēmu papildina ar 1000 attēlu datubāzi, katrs ar brīvas formas verbālu aprakstu, kas ar to kaut kādā veidā ir saistīts. Pēc tam viņi pārbauda sistēmu, ierakstot tai un lūdzot izgūt 10 attēlus, kas vislabāk atbilst tam, ko tā dzird.

Laika gaitā ir cerība, ka šādas runas atpazīšanas pieejas uzlabos savu efektivitāti līdz tādam līmenim, ka runas apmācības datu darbietilpīga marķēšana vairs netiks uzskatīta par nepieciešamību.

Ja viss notiek saskaņā ar plānu, tam vajadzētu būt labākam ikvienam — neatkarīgi no tā, vai jūs runājat angļu valodā ASV vai khosu valodā Dienvidāfrikā.

Redaktoru ieteikumi

  • Gudrs jaunais A.I. sistēma sola apmācīt jūsu suni, kamēr jūs esat prom no mājām
  • Jauns MIT pētījums izmanto ēnas, lai redzētu, ko kameras nevar
  • A.I. pētnieki izveido šimpanžu sejas atpazīšanas sistēmu
  • MIT, Adobe jaunais A.I. varētu nodrošināt fona noņemšanu ar vienu klikšķi, sociālos filtrus

Uzlabojiet savu dzīvesveiduDigitālās tendences palīdz lasītājiem sekot līdzi steidzīgajai tehnoloģiju pasaulei, izmantojot visas jaunākās ziņas, jautrus produktu apskatus, ieskatu saturošus rakstus un unikālus ieskatus.