Робот Google навчився ходити всього за дві години

Пам'ятаєте ту сцену з Уолта Діснея? Бембі де титульне оленятко вчиться самостійно вставати і ходити? Це чарівна віньєтка у фільмі, яка демонструє навички, які багато дитинчат тварин — від свиней до жирафів і, так, оленів — оволодівають за кілька хвилин після народження. Протягом перших кількох годин життя ці тварини швидко вдосконалюють свої рухові навички, поки не отримають повний контроль над власним пересуванням. Люди, які вчаться стояти, тримаючись за речі, близько семи місяців і починають ходити в 15 місяців, у порівнянні з ними безнадійно мляві.

Зміст

Позитивне підкріплення
Створення кращих роботів

Вгадайте, у якому останньому завданні роботи перемогли нас? У новому дослідженні проведено дослідниками Google, інженери навчили чотирилапого робота-мінітавра ходити повз, ну, насправді його не потрібно було особливо вчити. Навпаки, вони використали певний тип цілеспрямованого штучного інтелекту, щоб створити чотирилапого робота навчитися йти вперед, назад і повертати ліворуч і праворуч цілком самостійно. Він зміг успішно навчитися робити це на трьох різних поверхнях, включаючи рівну землю, м’який матрац і килимок із щілинами.

Рекомендовані відео

«Роботи з ногами можуть мати велику мобільність, оскільки ноги необхідні для навігації по грунтових дорогах і місцях, призначених для людей», Цзе Тан, головний дослідник проекту та керівник відділу пересування Google, розповів Digital Trends. «Ми зацікавлені в тому, щоб роботи з ногами могли орієнтуватися в нашому різноманітному та складному реальному середовищі, але важко вручну розробити роботизовані контролери, які можуть працювати з такою різноманітністю складність. Тому важливо, щоб роботи могли навчатися самі. Ця робота захоплююча, тому що це рання демонстрація того, що за допомогою нашої системи робот з ногами може успішно навчитися ходити самостійно».

Позитивне підкріплення

Навчитися ходити в реальному світі з мінімальними людськими зусиллями

Технологія, яка лежить в основі цього конкретного проекту, — це те, що називається глибоким навчанням з підкріпленням, a особливий підхід до глибокого навчання, натхненний біхевіористською психологією та методом проб і помилок навчання. Програмні агенти, яким наказано максимізувати певну винагороду, вчаться діяти в середовищі, яке дозволить досягти цих результатів найточнішим і ефективним способом. Сила навчання з підкріпленням була знаменито продемонстровано в 2013 році коли компанія Google DeepMind опублікувала статтю, яка показує, як вона навчила ШІ. грати в класичні відеоігри Atari. Це було досягнуто без жодних інструкцій, крім оцінки на екрані та приблизно 30 000 пікселів, які складали кожен кадр відеоігор, у які він грає.

Дослідники робототехніки також часто використовують відеоігри або принаймні симуляції. Теоретично симуляція має сенс, оскільки вона дозволяє робототехнікам тренувати свою машину у віртуальному світі, перш ніж вийти в реальний. Це рятує роботів від неминучих помилок і зношування, яких вони зазнають, коли навчаться виконувати конкретне завдання. Як аналогію, уявіть, що всі ваші уроки водіння проводилися з використанням симулятора водіння. Можна стверджувати, що ви навчитеся швидше, тому що вам не доведеться бути настільки обережними щодо ризику для своєї фізичної безпеки чи пошкодження свого автомобіля (чи чиєїсь іншої). Ви також можете тренуватися швидше, не чекаючи виділених уроків або поки ліцензований водій захоче відвезти вас.

Проблема в цьому полягає в тому, що, як знає будь-хто, хто коли-небудь грав у відеоігри про водіння, досить біса важко змоделювати реальний світ таким чином, щоб він виглядав як, ну, реальний світ. Натомість дослідники Google почали розробляти вдосконалені алгоритми, які дозволяють їх роботам навчатися швидше з меншою кількістю випробувань. На основі попереднього дослідження Google опубліковано в 2018 році, їхній робот зміг навчитися ходити лише за пару годин під час цієї останньої демонстрації.

Він також може зробити це, наголошуючи на більш обережному та безпечнішому підході до навчання, що передбачає менше падінь. Як наслідок, це мінімізує кількість людських втручань, які необхідно зробити, щоб підняти робота та витерти з нього пил щоразу, коли він падає.

Створення кращих роботів

Навчання ходити за дві години може бути не дуже високим рівнем ефективності навчання ходьбі, але це далеко від того, щоб інженерам доводилося чітко програмувати, як робота зазвичай навчають маневрувати. (І, як зазначалося, це набагато краще, ніж людські немовлята можуть впоратися за такий часовий проміжок!)

«Хоча багато алгоритмів неконтрольованого навчання або навчання з підкріпленням було продемонстровано в симуляції, застосувати їх на справжніх ногих роботах виявляється неймовірно важко», – Тан пояснив. «По-перше, навчання з підкріпленням потребує даних, а збір даних роботів дорогий. Наша попередня робота розглядала цю проблему. По-друге, навчання вимагає, щоб хтось витрачав багато часу на нагляд за роботом. Якщо нам потрібна людина, яка б спостерігала за роботом і вручну скидала його щоразу, коли він спотикався — сотні чи тисячі разів — для навчання робота знадобиться багато зусиль і дуже довго. Чим довше це займає, тим складніше розширити навчання для багатьох роботів у різних середовищах».

Одного разу це дослідження може допомогти створити більш спритних роботів, які зможуть швидше адаптуватися до різноманітних рельєфів. «Потенційних застосувань багато», — сказав Тан. Проте Тан підкреслив, що це «все ще ранній період, і є багато проблем, які нам ще потрібно подолати».

Відповідно до теми навчання з підкріпленням, це, безумовно, винагорода, яку варто максимізувати!