Naujas kalbos atpažinimo metodas mokosi per vaizdus

Android žinutės patobulinimai telefonai siunčia vienas kitam žinutes
Olga Lebedeva/123RF.com
Kalbos atpažinimo sistemos dar gali būti netobulos, tačiau, kaip rodo „Amazon Echo“, jos nuolat gerėja ir vis labiau paplitusios.

A naujas tyrimas Masačusetso technologijos instituto kompiuterių mokslo ir dirbtinio intelekto tyrėjai Laboratorija (CSAIL) siūlo naują šių sistemų mokymo metodą – priverčiant jas mokytis žiūrint vaizdai.

Rekomenduojami vaizdo įrašai

„Tai yra bandymas priversti mašinas reikalauti mažiau prižiūrimo mokymo norint išmokti šnekamąją kalbą“, Jimas GlasasCSAIL vyresnysis mokslo darbuotojas pasakojo „Digital Trends“. „Įprastas būdas lavinti kalbos atpažinimo sistemas yra naudoti kalbančių žmonių įrašus ir kiekvienos ištaros metu tiksliai perrašyti tuos žodžius, kurie buvo pasakyti. Idealiu atveju turite šimtus ar tūkstančius kalbos valandų, kad sistema tinkamai veiktų. Kai kurios didžiausios tai darančios įmonės, pavyzdžiui, „Baidu“ ir „Google“, mokymams naudoja dešimtis tūkstančių valandų. Kuo daugiau anotuotų duomenų jie turi, tuo geriau šios sistemos veikia.

Taigi kas su tuo negerai? Galų gale, kaip minėta, kalbos atpažinimo technologija nuolat tobulėja. Viskas, ką daro kompiuterių mokslininkai, akivaizdžiai veikia.

Tai gali būti tiesa, tačiau šis naujas požiūris įdomus dėl kelių priežasčių. Pirma, atveriant mašinai galimybę išmokti suprasti, žiūrint į bendrą vaizdą ir garsą (galų gale galite įsivaizduoti, kad tai treniruojasi žiūrėdami „YouTube“) yra daug artimesnis tam, kaip mes mokomės kaip žmonės būtybės.

Antra – ir, ko gero, dar svarbiau – yra tai, kad tai galėtų padėti atpažinti kalbą tose pasaulio dalyse, kurioms tokia technologija gali būti labai naudinga.

„Anotuotų duomenų gamyba yra brangi“, - tęsė Glassas. „Kalbos atpažinimas vykdomas dešimtmečius ir didžioji jo dalis buvo skirta kalboms šalyse, kurios gali sau leisti investuoti į tokius išteklius. Kalbant apie kalbą, įmonės mano, kad tai padės gauti pelno. Didžiausio dėmesio sulaukė anglų kalba, po jos seka Vakarų Europos kalbos ir kitos kalbos, pavyzdžiui, japonų ir mandarinų. Problema ta, kad pasaulyje kalbama apie 7000 kalbų ir apie 300 kalbų, kuriomis kalba daugiau nei 1 milijonas žmonių. Daugelis iš jų tiesiog nesulaukė daug dėmesio – jei tokių yra.

Tose pasaulio dalyse, kur raštingumo lygis yra žemas, nesunku suprasti, kaip kalbos atpažinimas gali pakeisti žaidimą ir suteikti žmonėms prieigą prie informacijos. Tikimės, kad ši technologija gali padėti pasiekti šį tikslą.

Kad ir koks įdomus būtų tyrimas, Glass pažymi, kad jis vis dar yra labai ankstyvoje stadijoje. Šiuo metu CSAIL tyrėjai aprūpina savo sistemą 1000 vaizdų duomenų baze, kurių kiekvienas turi laisvos formos žodinį aprašymą, kuris tam tikru būdu yra susijęs su ja. Tada jie išbando sistemą įrašydami jai ir paprašydami nuskaityti 10 vaizdų, kurie geriausiai atitinka tai, ką ji girdi.

Laikui bėgant tikimasi, kad tokie kalbos atpažinimo metodai padidės savo veiksmingumu tiek, kad sunkus kalbos mokymo duomenų žymėjimas nebebus laikomas būtinybe.

Jei viskas klostysis pagal planą, tai turėtų būti geriau visiems – nesvarbu, ar kalbate angliškai JAV, ar kalbate xhosa kalbą Pietų Afrikoje.

Redaktorių rekomendacijos

  • Protingas naujas A.I. sistema žada dresuoti jūsų šunį, kol esate toli nuo namų
  • Naujasis MIT atliktas šešėlinis tyrimas naudoja šešėlius, kad pamatytų, ko negali fotoaparatai
  • A.I. mokslininkai sukuria šimpanzių veido atpažinimo sistemą
  • MIT, naujasis „Adobe“ A.I. gali atnešti fono pašalinimą vienu spustelėjimu, socialinius filtrus

Atnaujinkite savo gyvenimo būdąSkaitmeninės tendencijos padeda skaitytojams stebėti sparčiai besivystantį technologijų pasaulį – pateikiamos visos naujausios naujienos, smagios produktų apžvalgos, įžvalgūs vedamieji leidiniai ir unikalūs žvilgsniai.