А новое исследование исследователи из Массачусетского технологического института компьютерных наук и искусственного интеллекта Лаборатория (CSAIL) предлагает новый метод обучения этих систем — заставляя их учиться, глядя на изображений.
Рекомендуемые видео
«Это попытка заставить машины требовать менее контролируемого обучения для изучения разговорной речи», Джим Гласс, старший научный сотрудник CSAIL, рассказал Digital Trends. «Обычный способ обучения систем распознавания речи — это использование записей разговоров людей и расшифровка для каждого произнесения именно тех слов, которые были сказаны. В идеале у вас есть сотни или тысячи часов выступлений, чтобы система работала правильно. Некоторые из крупнейших компаний, занимающихся этим, например, Baidu и Google, тратят на обучение десятки тысяч часов. Чем больше аннотированных данных у них есть, тем лучше работают эти системы».
Так что же в этом плохого? В конце концов, как уже отмечалось, технологии распознавания речи постоянно совершенствуются. Все, что делают ученые-компьютерщики, очевидно, работает.
Возможно, это и правда, но этот новый подход интересен по нескольким причинам. Во-первых, открытие способности машины обучаться пониманию, просматривая комбинированные изображения и аудио. (в конце концов, вы можете представить, как это тренируется, просматривая YouTube) намного ближе к тому способу, которым мы учимся, будучи людьми. существа.
Во-вторых — и, возможно, более важно — это тот факт, что это может помочь обеспечить распознавание речи в тех частях мира, которые могут получить большую выгоду от такого рода технологии.
«Производство аннотированных данных обходится дорого», — продолжил Гласс. «Распознавание речи ведется уже несколько десятилетий, и большая часть его приходится на языки в странах, которые могут позволить себе инвестировать в такого рода ресурсы. Что касается языка, то, как правило, это те языки, которые, по мнению компаний, помогут им получить прибыль. Наибольшее внимание уделяется английскому языку, за ним следуют западноевропейские языки и другие языки, такие как японский и китайский. Проблема в том, что в мире говорят около 7000 языков и около 300, на которых говорят более 1 миллиона человек. Многим из них просто не уделялось особого внимания — если вообще вообще было».
В тех частях мира, где уровень грамотности низок, легко увидеть, как распознавание речи может изменить правила игры с точки зрения предоставления людям доступа к информации. Будем надеяться, что эта технология может помочь в достижении этой цели.
Однако, каким бы захватывающим ни было исследование, Гласс отмечает, что оно все еще находится на очень ранней стадии. В настоящее время исследователи CSAIL снабжают свою систему базой данных из 1000 изображений, каждое из которых имеет словесное описание в свободной форме, которое каким-то образом связано с ним. Затем они тестируют систему, записав ей запись и попросив ее извлечь 10 изображений, которые лучше всего соответствуют тому, что она слышит.
Есть надежда, что со временем такие подходы к распознаванию речи повысят свою эффективность до такой степени, что трудоемкая маркировка данных обучения речи больше не будет считаться необходимостью.
Если все пойдет по плану, это будет лучше для всех — независимо от того, являетесь ли вы носителем английского языка в США или говорящим на языке коса в Южной Африке.
Рекомендации редакции
- Умный новый ИИ. система обещает дрессировать вашу собаку, пока вы находитесь вдали от дома
- Новое «теневое» исследование Массачусетского технологического института использует тени, чтобы увидеть то, чего не видят камеры
- А.И. Исследователи создают систему распознавания лиц для шимпанзе
- MIT, новый искусственный интеллект Adobe. может принести удаление фона в один клик, социальные фильтры
Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.