Робот Google научился ходить всего за два часа

Помните эту сцену из мультфильма Уолта Диснея? Бэмби где титулованный олененок учится вставать и ходить самостоятельно? Это очаровательный эпизод в фильме, демонстрирующий навыки, которые многие детеныши животных — от свиней до жирафов и, да, оленей — приобретают в течение нескольких минут после своего рождения. В течение первых нескольких часов жизни эти животные быстро совершенствуют свои двигательные навыки, пока не обретут полный контроль над собственным передвижением. Люди, которые учатся стоять и держаться за предметы примерно в семь месяцев и начинают ходить в 15 месяцев, по сравнению с ними безнадежно медлительны.

Содержание

Положительное подкрепление
Создание лучших роботов

Угадайте, в каком последнем задании роботы нас обыграли? В новом исследовании проведено исследователями Google, инженеры научили четвероногого робота Минитавра ходить мимо, причем на самом деле ему вообще не пришлось его многому учить. Скорее, они использовали своего рода целенаправленный искусственный интеллект, чтобы создать четвероногого робота.

научись идти вперед, назад и самостоятельно поворачиваться влево и вправо. Он смог успешно научиться делать это на трех разных поверхностях, включая ровную поверхность, мягкий матрас и коврик с щелями.

Рекомендуемые видео

«Роботы на ногах могут обладать большой мобильностью, поскольку ноги необходимы для перемещения по грунтовым дорогам и местам, предназначенным для людей», Цзе Тан, главный исследователь проекта и руководитель отдела продвижения Google, рассказал Digital Trends. «Мы заинтересованы в том, чтобы роботы с ногами могли перемещаться в нашей разнообразной и сложной среде реального мира. но сложно вручную спроектировать роботизированные контроллеры, способные справиться с таким разнообразием и сложность. Поэтому важно, чтобы роботы могли обучаться самостоятельно. Эта работа интересна, потому что это ранняя демонстрация того, что с помощью нашей системы робот на ногах может успешно научиться ходить самостоятельно».

Положительное подкрепление

Учимся ходить в реальном мире с минимальными человеческими усилиями

Технология, лежащая в основе этого конкретного проекта, — это так называемое глубокое обучение с подкреплением. особый подход к глубокому обучению, вдохновленный бихевиористской психологией и методом проб и ошибок. обучение. Программные агенты, получившие приказ максимизировать определенное вознаграждение, учатся предпринимать действия в среде, которые позволят достичь этих результатов наиболее точным и эффективным способом. Сила обучения с подкреплением была знаменито продемонстрировано в 2013 году когда компания DeepMind компании Google опубликовала документ, показывающий, как она обучила ИИ. играть в классические видеоигры Atari. Это было достигнуто без каких-либо инструкций, кроме счета на экране и примерно 30 000 пикселей, составляющих каждый кадр видеоигр, в которые он играл.

Видеоигры или, по крайней мере, симуляции также часто используются исследователями робототехники. Моделирование имеет смысл в теории, поскольку оно позволяет робототехникам обучать свои машины в виртуальном мире, прежде чем выходить в реальный. Это спасает роботов от неизбежных падений и износа, которым они подвергаются, когда учатся выполнять конкретную задачу. В качестве аналогии представьте, что все ваши уроки вождения проводились на симуляторе вождения. Можно было бы возразить, что вы научитесь быстрее, потому что вам не придется быть настолько осторожными, рискуя своей физической безопасностью или повреждая свою машину (или чужую). Вы также можете тренироваться быстрее, не дожидаясь назначенных уроков или того, чтобы лицензированный водитель согласился отвезти вас.

Проблема в том, что, как знает любой, кто когда-либо играл в видеоигру о вождении, чертовски сложно смоделировать реальный мир таким образом, чтобы он ощущался как, скажем так, реальный мир. Вместо этого исследователи Google начали разрабатывать улучшенные алгоритмы, которые позволяют роботу обучаться быстрее с меньшим количеством испытаний. Основываясь на предыдущем исследовании Google опубликовано в 2018 году, их робот смог научиться ходить всего за пару часов в ходе этой последней демонстрации.

Это также позволяет сделать упор на более осторожный и безопасный подход к обучению, предполагающий меньшее количество падений. В результате это сводит к минимуму количество вмешательств человека, которые необходимо предпринять, чтобы поднять робота и смахнуть с него пыль каждый раз, когда он падает.

Создание лучших роботов

Обучение ходьбе за два часа, возможно, не совсем соответствует уровню эффективности обучения ходьбе, но это очень далеко от того, чтобы инженерам пришлось явно программировать то, как робота обычно учат маневрировать. (И, как уже отмечалось, это намного лучше, чем могут сделать человеческие младенцы за такие сроки!)

«Хотя многие алгоритмы обучения без учителя или обучения с подкреплением были продемонстрированы в симуляции, применить их к реальным ножным роботам оказывается невероятно сложно», — Тан объяснил. «Во-первых, обучение с подкреплением требует больших объемов данных, а сбор данных роботов обходится дорого. Наша предыдущая работа решала эту проблему. Во-вторых, обучение требует, чтобы кто-то проводил много времени за наблюдением за роботом. Если нам нужен человек, который будет следить за роботом и вручную перезагружать его каждый раз, когда он спотыкается — сотни или тысячи раз — то для обучения робота потребуется много усилий и очень много времени. Чем больше времени это занимает, тем сложнее масштабировать обучение для множества роботов в самых разных средах».

Когда-нибудь это исследование может помочь создать более маневренных роботов, способных быстрее адаптироваться к различным ландшафтам. «Потенциальные применения многочисленны», — сказал Тан. Однако Тан подчеркнул, что это «все еще рано, и есть много проблем, которые нам еще предстоит преодолеть».

Однако, учитывая тему обучения с подкреплением, это, безусловно, награда, которую стоит максимизировать!

Робот Google научился ходить всего за два часа

Положительное подкрепление

Создание лучших роботов

Рекомендации редакции

Категории

Недавний

Павлин? Больше похоже на Поппикок. Я уже ненавижу нового стримера NBC

Посмотрите за кулисами Суперкубка LIV с Fox Sports

Я не злюсь, HBO Max, я просто разочарован