Новый метод распознавания речи обучается через изображения

Улучшения в сообщениях Android Телефоны отправляют друг другу текстовые сообщения — Ольга Лебедева/123RF.com

Системы распознавания речи, возможно, еще не совершенны, но, как показывают подобные Amazon Echo, они постоянно становятся лучше и более повсеместными.

А новое исследование исследователи из Массачусетского технологического института компьютерных наук и искусственного интеллекта Лаборатория (CSAIL) предлагает новый метод обучения этих систем — заставляя их учиться, глядя на изображений.

Рекомендуемые видео

«Это попытка заставить машины требовать менее контролируемого обучения для изучения разговорной речи», Джим Гласс, старший научный сотрудник CSAIL, рассказал Digital Trends. «Обычный способ обучения систем распознавания речи — это использование записей разговоров людей и расшифровка для каждого произнесения именно тех слов, которые были сказаны. В идеале у вас есть сотни или тысячи часов выступлений, чтобы система работала правильно. Некоторые из крупнейших компаний, занимающихся этим, например, Baidu и Google, тратят на обучение десятки тысяч часов. Чем больше аннотированных данных у них есть, тем лучше работают эти системы».

Так что же в этом плохого? В конце концов, как уже отмечалось, технологии распознавания речи постоянно совершенствуются. Все, что делают ученые-компьютерщики, очевидно, работает.

Возможно, это и правда, но этот новый подход интересен по нескольким причинам. Во-первых, открытие способности машины обучаться пониманию, просматривая комбинированные изображения и аудио. (в конце концов, вы можете представить, как это тренируется, просматривая YouTube) намного ближе к тому способу, которым мы учимся, будучи людьми. существа.

Во-вторых — и, возможно, более важно — это тот факт, что это может помочь обеспечить распознавание речи в тех частях мира, которые могут получить большую выгоду от такого рода технологии.

«Производство аннотированных данных обходится дорого», — продолжил Гласс. «Распознавание речи ведется уже несколько десятилетий, и большая часть его приходится на языки в странах, которые могут позволить себе инвестировать в такого рода ресурсы. Что касается языка, то, как правило, это те языки, которые, по мнению компаний, помогут им получить прибыль. Наибольшее внимание уделяется английскому языку, за ним следуют западноевропейские языки и другие языки, такие как японский и китайский. Проблема в том, что в мире говорят около 7000 языков и около 300, на которых говорят более 1 миллиона человек. Многим из них просто не уделялось особого внимания — если вообще вообще было».

В тех частях мира, где уровень грамотности низок, легко увидеть, как распознавание речи может изменить правила игры с точки зрения предоставления людям доступа к информации. Будем надеяться, что эта технология может помочь в достижении этой цели.

Однако, каким бы захватывающим ни было исследование, Гласс отмечает, что оно все еще находится на очень ранней стадии. В настоящее время исследователи CSAIL снабжают свою систему базой данных из 1000 изображений, каждое из которых имеет словесное описание в свободной форме, которое каким-то образом связано с ним. Затем они тестируют систему, записав ей запись и попросив ее извлечь 10 изображений, которые лучше всего соответствуют тому, что она слышит.

Есть надежда, что со временем такие подходы к распознаванию речи повысят свою эффективность до такой степени, что трудоемкая маркировка данных обучения речи больше не будет считаться необходимостью.

Если все пойдет по плану, это будет лучше для всех — независимо от того, являетесь ли вы носителем английского языка в США или говорящим на языке коса в Южной Африке.

Новый метод распознавания речи обучается через изображения

Рекомендации редакции

Категории

Недавний

Это классное видео о космической станции заставит вас улыбнуться

Посадочный модуль Insight переходит в режим гибернации на марсианскую зиму

Выход астронавта в открытый космос на МКС в воскресенье: как смотреть в прямом эфире