EN nyt stykke forskning af efterforskere ved Massachusetts Institute of Technology's Computer Science and Artificial Intelligence Laboratory (CSAIL) foreslår en ny teknik til træning af disse systemer - ved at få dem til at lære ved at se på billeder.
Anbefalede videoer
"Dette er et forsøg på at få maskiner til at kræve mindre overvåget træning for at lære om talt sprog," Jim Glass, en seniorforsker ved CSAIL, fortalte Digital Trends. "Den konventionelle måde at træne talegenkendelsessystemer på er ved at bruge optagelser af mennesker, der taler og, for hver ytring, transskribere præcis, hvilke ord der er blevet sagt. Ideelt set har du hundreder eller tusinder af timers tale, for at systemet kan fungere korrekt. Nogle af de største virksomheder, der gør dette - som Baidu og Google - bruger titusindvis af timer til træning. Jo flere kommenterede data de har, jo bedre yder disse systemer."
Så hvad er der galt med det? Som nævnt bliver teknologien til talegenkendelse hele tiden bedre. Uanset hvad dataloger gør, virker det åbenbart.
Det kan være rigtigt, men denne nye tilgang er interessant af et par grunde. For det første at åbne op for en maskines evne til at træne sig selv til at forstå ved at se på kombinerede billeder og lyd (til sidst kunne du forestille dig, at det trænes ved at se YouTube) er meget tættere på den måde, vi lærer på som mennesker væsener.
For det andet - og nok vigtigere - er det faktum, at det kunne hjælpe med at bringe talegenkendelse til dele af verden, der kan have stor gavn af denne form for teknologi.
"Kommenterede data er dyre at producere," fortsatte Glass. "Talegenkendelse har været i gang i årtier, og størstedelen af det har været for sprog i lande, som har råd til at investere i den slags ressourcer. Når det kommer til sprog, plejer det at være dem, som virksomheder tror vil hjælpe dem med at få overskud. Engelsk har fået langt den største opmærksomhed, efterfulgt af vesteuropæiske sprog og andre sprog som japansk og mandarin. Problemet er, at der tales omkring 7.000 sprog i verden og omkring 300, der tales af mere end 1 million mennesker. Mange af disse har bare ikke fået meget opmærksomhed - hvis nogen."
I dele af verden, hvor læsefærdighedsniveauet er lavt, er det let at se, hvordan talegenkendelse kan være en game changer i forhold til at give folk adgang til information. Forhåbentlig kan denne teknologi hjælpe mod dette mål.
Hvor spændende forskningen end er, bemærker Glass, at den stadig er i sin meget tidlige fase. På nuværende tidspunkt har CSAIL-forskere fodret deres system med en database med 1.000 billeder, hver med en fri-formig verbal beskrivelse, der relaterer til det på en eller anden måde. De tester derefter systemet ved at give det en optagelse og bede det om at hente 10 billeder, som bedst matcher det, det hører.
Med tiden er håbet, at sådanne tilgange til talegenkendelse vil forbedre deres effektivitet til det punkt, hvor besværlig mærkning af taletræningsdata ikke længere betragtes som en nødvendighed.
Hvis alt går efter planen, burde det være bedre for alle - uanset om du er engelsktalende i USA eller taler Xhosa i Sydafrika.
Redaktørens anbefalinger
- Smart ny A.I. systemet lover at træne din hund, mens du er væk hjemmefra
- Ny 'skyggefuld' forskning fra MIT bruger skygger til at se, hvad kameraer ikke kan
- A.I. forskere skaber et ansigtsgenkendelsessystem til chimpanser
- MIT, Adobes nye A.I. kunne bringe et-klik baggrundsfjernelse, sociale filtre
Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.