Ny taligenkänningsmetod lär sig genom bilder

click fraud protection
android meddelanden förbättringar telefoner som sms: ar varandra
Olga Lebedeva/123RF.com
Taligenkänningssystem kanske ännu inte är perfekta, men som Amazon Echo visar, blir de både bättre och mer allmänt förekommande hela tiden.

A ny forskning av utredare vid Massachusetts Institute of Technologys datavetenskap och artificiell intelligens Laboratory (CSAIL) föreslår en ny teknik för att träna dessa system - genom att få dem att lära sig genom att titta på bilder.

Rekommenderade videor

"Detta är ett försök att få maskiner att kräva mindre övervakad träning för att lära sig talat språk," Jim Glass, en senior forskare vid CSAIL, berättade för Digital Trends. "Det konventionella sättet att träna taligenkänningssystem är att använda inspelningar av människor som pratar och, för varje yttrande, transkribera exakt vilka ord som har sagts. Helst har du hundratals eller tusentals timmars tal för att systemet ska fungera korrekt. Några av de största företagen som gör detta - som Baidu och Google - använder tiotusentals timmar för utbildning. Ju fler annoterade data de har, desto bättre presterar dessa system.”

Så vad är det för fel med det? Trots allt, som nämnts, blir taligenkänningstekniken hela tiden bättre. Vad datavetare än gör fungerar uppenbarligen.

Det kan vara sant, men detta nya tillvägagångssätt är intressant av ett par anledningar. För det första, öppnar en maskins förmåga att träna sig själv att förstå genom att titta på kombinerade bilder och ljud (så småningom kan du tänka dig att det tränas genom att titta på YouTube) är mycket närmare det sätt som vi lär oss som människor varelser.

För det andra - och utan tvekan ännu viktigare - är det faktum att det skulle kunna bidra till att taigenkänning till delar av världen som kan ha stor nytta av denna typ av teknik.

"Kommenterad data är dyr att producera," fortsatte Glass. ”Taligenkänning har pågått i decennier och majoriteten av det har varit för språk i länder som har råd att investera i den här typen av resurser. När det kommer till språket tenderar det att vara de som företag tror kommer hjälpa dem att göra vinst. Engelska har fått överlägset mest uppmärksamhet, följt av västeuropeiska språk och andra språk som japanska och mandarin. Problemet är att det finns cirka 7 000 språk som talas i världen och cirka 300 som talas av mer än 1 miljon människor. Många av dessa har helt enkelt inte fått mycket uppmärksamhet - om någon."

I delar av världen där läskunnighetsnivåerna är låga är det lätt att se hur taligenkänning kan vara en förändring när det gäller att ge människor tillgång till information. Förhoppningsvis kan den här tekniken hjälpa till mot det målet.

Hur spännande forskningen än är, konstaterar Glass att den fortfarande är i ett mycket tidigt skede. För närvarande har CSAIL-forskare matat sitt system med en databas med 1 000 bilder, var och en med en fri form av verbal beskrivning som relaterar till det på något sätt. De testar sedan systemet genom att ge det en inspelning och be det hämta 10 bilder som bäst matchar det det hör.

Med tiden är förhoppningen att sådana tillvägagångssätt för taligenkänning kommer att förbättra sin effektivitet till den grad att mödosam märkning av talträningsdata inte längre anses vara en nödvändighet.

Om allt går enligt planerna borde det vara bättre för alla – oavsett om du är engelsktalande i USA eller talar Xhosa i Sydafrika.

Redaktörens rekommendationer

  • Smart ny A.I. systemet lovar att träna din hund när du är borta från hemmet
  • Ny "skumma" forskning från MIT använder skuggor för att se vad kameror inte kan
  • A.I. forskare skapar ett ansiktsigenkänningssystem för schimpanser
  • MIT, Adobes nya A.I. skulle kunna ta bort bakgrund med ett klick, sociala filter

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.