Нова метода препознавања говора учи кроз слике

Андроид поруке побољшања телефони слање порука једни другима — Олга Лебедева/123РФ.цом

Системи за препознавање говора можда још увек нису савршени, али као што показују Амазон Ецхо, они постају све бољи и свеприсутнији.

А ново истраживање истраживачи са Масачусетског института за технологију за компјутерске науке и вештачку интелигенцију Лабораторија (ЦСАИЛ) предлаже нову технику за обуку ових система – тако што ће их навести да уче гледајући слике.

Препоручени видео снимци

„Ово је покушај да се машинама захтевају мање надгледане обуке да би научиле о говорном језику“, Јим Гласс, виши научник у ЦСАИЛ-у, рекао је за Дигитал Трендс. „Конвенционални начин за обуку система за препознавање говора је коришћење снимака људи који говоре и, за сваки изговор, транскрибовање тачно изговорених речи. У идеалном случају, имате стотине или хиљаде сати говора да би систем исправно функционисао. Неке од највећих компанија које то раде — као што су Баиду и Гоогле — користе десетине хиљада сати за обуку. Што више података имају, то боље раде ови системи."

Па шта није у реду с тим? На крају крајева, као што је наведено, технологија препознавања говора стално постаје све боља. Шта год да раде компјутерски научници очигледно функционише.

То је можда тачно, али овај нови приступ је занимљив из неколико разлога. Прво, отварање способности машине да се обучи да разуме гледајући комбиноване слике и звук (на крају, можете замислити да тренирате гледајући ИоуТубе) је много ближи начину на који учимо као људи бића.

Друго - и вероватно још важније - је чињеница да би то могло помоћи да се препознавање говора донесе у делове света који би могли имати велике користи од ове врсте технологије.

„Подаци са коментарима су скупи за производњу“, наставио је Гласс. „Препознавање говора траје деценијама и већина се односила на језике у земљама које себи могу приуштити да улажу у овакве ресурсе. Када је у питању језик, то су обично они за које компаније мисле да ће им помоћи да остваре профит. Енглески је добио далеко највише пажње, затим западноевропски језици и други језици попут јапанског и мандаринског. Проблем је што се у свету говори око 7.000 језика и око 300 које говори више од милион људи. Многи од њих једноставно нису добили много пажње - ако их има."

У деловима света где је ниво писмености низак, лако је видети како би препознавање говора могло да промени игру у смислу пружања људима приступ информацијама. Надамо се да ова технологија може помоћи у постизању тог циља.

Колико год истраживање било узбудљиво, Гласс напомиње да је још увек у раној фази. Тренутно, истраживачи ЦСАИЛ-а напајају свој систем базом података од 1.000 слика, од којих свака има вербални опис слободног облика који се на неки начин односи на њу. Затим тестирају систем тако што му дају снимак и траже од њега да преузме 10 слика које најбоље одговарају ономе што чује.

Временом се надамо да ће такви приступи препознавању говора побољшати своју ефикасност до тачке у којој се напорно означавање података о говорној обуци више не сматра неопходном.

Ако све иде по плану, то би требало да буде боље за све - било да говорите енглески у САД или говорите џоса у Јужној Африци.

Препоруке уредника

Паметни нови А.И. систем обећава да ће тренирати вашег пса док сте одсутни од куће
Ново „сеновито“ истраживање МИТ-а користи сенке да види шта камере не могу
А.И. истраживачи креирају систем за препознавање лица за шимпанзе
МИТ, Адобе-ов нови А.И. може донети уклањање позадине једним кликом, друштвене филтере

Надоградите свој животни стилДигитални трендови помажу читаоцима да прате брзи свет технологије са свим најновијим вестима, забавним рецензијама производа, проницљивим уводницима и јединственим кратким прегледима.

Нова метода препознавања говора учи кроз слике

Препоруке уредника

Категорије

Скорашњи

Сони Кспериа 10 може имати исти раван дизајн у стилу иПхоне-а

Ексклузивно: Хонор 30С ће имати камеру од 64МП и 3к зум

Гармин Свим 2 пакета са здравственим и веллнесс функцијама погодним за базен