Nieuwe spraakherkenningsmethode leert door middel van afbeeldingen

verbeteringen aan Android-berichten, telefoons die elkaar sms'en
Olga Lebedeva/123RF.com
Spraakherkenningssystemen zijn misschien nog niet perfect, maar zoals Amazon Echo laat zien, worden ze steeds beter en alomtegenwoordiger.

A nieuw stukje onderzoek door onderzoekers van Computer Science and Artificial Intelligence van het Massachusetts Institute of Technology Laboratory (CSAIL) stelt een nieuwe techniek voor om deze systemen te trainen – door ze te laten leren door ernaar te kijken afbeeldingen.

Aanbevolen video's

“Dit is een poging om ervoor te zorgen dat machines minder training onder toezicht nodig hebben om gesproken taal te leren,” Jim Glas, een senior onderzoeker bij CSAIL, aan Digital Trends. “De conventionele manier om spraakherkenningssystemen te trainen is door opnames te gebruiken van mensen die praten en, voor elke uiting, precies te transcriberen wat er is gezegd. Idealiter beschikt u over honderden of duizenden uren spraak om het systeem goed te laten werken. Enkele van de grootste bedrijven die dit doen – zoals Baidu en Google – besteden tienduizenden uren aan training. Hoe meer geannoteerde gegevens ze hebben, hoe beter deze systemen presteren.”

Dus wat is daar mis mee? Zoals gezegd wordt de technologie voor spraakherkenning immers steeds beter. Wat computerwetenschappers ook doen, het werkt duidelijk.

Dat kan waar zijn, maar deze nieuwe aanpak is om een ​​aantal redenen interessant. In de eerste plaats door het vermogen van een machine te vergroten om zichzelf te leren begrijpen door naar gecombineerde beelden en audio te kijken (Uiteindelijk kun je je voorstellen dat trainen door YouTube te kijken) veel dichter bij de manier ligt waarop we als mens leren wezens.

Ten tweede – en misschien wel belangrijker – is het feit dat het zou kunnen helpen spraakherkenning naar delen van de wereld te brengen die enorm zouden kunnen profiteren van dit soort technologie.

“Geannoteerde gegevens zijn duur om te produceren”, vervolgde Glass. “Spraakherkenning gebeurt al tientallen jaren en het merendeel ervan is voor talen in landen die het zich kunnen veroorloven om in dit soort middelen te investeren. Als het op taal aankomt, zijn het meestal de taalvormen waarvan bedrijven denken dat ze hen zullen helpen winst te maken. Engels heeft veruit de meeste aandacht gekregen, gevolgd door West-Europese talen en andere talen zoals Japans en Mandarijn. Het probleem is dat er in de wereld ongeveer 7.000 talen worden gesproken, en ongeveer 300 talen die door meer dan 1 miljoen mensen worden gesproken. Veel hiervan hebben niet veel aandacht gekregen – als die er al is.”

In delen van de wereld waar het alfabetiseringsniveau laag is, is het gemakkelijk in te zien hoe spraakherkenning een gamechanger zou kunnen zijn als het gaat om het verschaffen van toegang tot informatie aan mensen. Hopelijk kan deze technologie dat doel helpen bereiken.

Hoe spannend het onderzoek ook is, Glass merkt op dat het zich nog in de beginfase bevindt. Momenteel hebben CSAIL-onderzoekers hun systeem gevoed met een database van duizend afbeeldingen, elk met een vrije verbale beschrijving die er op de een of andere manier mee verband houdt. Vervolgens testen ze het systeem door het een opname te geven en het te vragen tien beelden op te halen die het beste overeenkomen met wat het hoort.

De hoop is dat dergelijke benaderingen van spraakherkenning in de loop van de tijd zo effectief zullen worden dat het omslachtige labelen van spraaktrainingsgegevens niet langer als een noodzaak wordt beschouwd.

Als alles volgens plan verloopt, zou dat voor iedereen beter moeten zijn – of je nu Engels spreekt in de VS of Xhosa spreekt in Zuid-Afrika.

Aanbevelingen van de redactie

  • Slimme nieuwe A.I. systeem belooft uw hond te trainen terwijl u niet thuis bent
  • Nieuw ‘schaduwrijk’ onderzoek van MIT gebruikt schaduwen om te zien wat camera’s niet kunnen
  • AI Onderzoekers creëren een gezichtsherkenningssysteem voor chimpansees
  • MIT, de nieuwe A.I. van Adobe kan achtergrondverwijdering met één klik en sociale filters tot gevolg hebben

Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.