DeepMind — обучение с подкреплением с помощью вспомогательных задач без присмотра
Первая добавленная задача для ускорения обучения ИИ — это способность понять, как управлять пикселями на экране. По мнению DeepMind, этот метод похож на то, как ребенок учится управлять своими руками, двигая ими и наблюдая за этими движениями. В случае с ИИ бот будет понимать визуальный ввод, управляя пикселями, что приведет к более высоким оценкам.
Рекомендуемые видео
«Представьте себе ребенка, который учится максимизировать совокупное количество красного, которое он наблюдает. Чтобы правильно спрогнозировать оптимальное значение, малыш должен понять, как увеличить «покраснение» различными способами, в том числе манипуляциями (поднесение красного предмета к глазам); локомоция (движение перед красным предметом); и общение (плач, пока родители не принесут красный предмет)», — говорится в статье DeepMind. «Такое поведение, вероятно, будет повторяться для многих других целей, с которыми впоследствии может столкнуться ребенок».
Связанный
- Этот бот уничтожит вас в Pictionary. Это также огромная веха для развития искусственного интеллекта.
- DeepMind от Google обучает беспилотные автомобили Waymo, такие как боты StarCraft II
- Google нашел способ использовать искусственный интеллект. повысить полезность энергии ветра
Вторая добавленная задача используется для обучения ИИ прогнозированию немедленных наград на основе краткой истории предыдущих действий. Для этого команда предоставила равное количество предыдущих успешных и невыгодных историй. Конечным результатом является то, что ИИ может обнаруживать визуальные особенности, которые, вероятно, приведут к вознаграждению быстрее, чем раньше.
«Чтобы учиться более эффективно, наши агенты используют механизм воспроизведения опыта, чтобы предоставлять критикам дополнительные обновления. Подобно тому, как животные чаще мечтают о событиях, приносящих положительное или отрицательное вознаграждение, наши агенты предпочитают воспроизводить последовательности, содержащие события, приносящие вознаграждение», — добавляется в статье.
Благодаря этим двум вспомогательным задачам, добавленным к предыдущему агенту A3C, в результате получается новый агент/бот, основанный на том, что команда называет Unreal (НЕконтролируемое повторное подкрепление и вспомогательное обучение). Команда виртуально посадила этого бота перед 57 играми Atari и отдельной вольфенштейн-подобная игра-лабиринт, состоящая из 13 уровней. Во всех сценариях боту предоставлялось необработанное выходное изображение RGB, что обеспечивало ему прямой доступ к пикселям со 100-процентной точностью. Бот Unreal получил повсеместное вознаграждение за такие задачи, как сбивание инопланетян в Космические захватчики собирать яблоки в 3D-лабиринте.
Поскольку бот Unreal может управлять пикселями и предсказывать, принесут ли действия вознаграждение, он способен учиться в 10 раз быстрее, чем предыдущий лучший агент DeepMind (A3C). Более того, он показывает лучшие результаты, чем предыдущий чемпион.
«Теперь мы можем достичь 87 процентов производительности эксперта в среднем на всех уровнях Лабиринта, которые мы рассматривали, а на некоторых из них мы можем достичь сверхчеловеческих результатов», — заявили в компании. «В Atari производительность агента теперь в среднем в девять раз превышает производительность человека».
DeepMind полон надежд что работа, проделанная над ботом Unreal, позволит команде в ближайшем будущем масштабировать все свои агенты/боты для работы в еще более сложных средах. А пока посмотрите встроенное выше видео, показывающее, как ИИ перемещается по лабиринтам и самостоятельно хватает яблоки, без какого-либо вмешательства человека.
Рекомендации редакции
- Шахматы. Опасность. Идти. Почему мы используем игры в качестве эталона для ИИ?
- Возвращаясь к развитию искусственного интеллекта: как далеко продвинулся искусственный интеллект с 2010 года?
- DeepMind A.I. от Google. побеждает противников-людей в Quake III Capture the Flag
Обновите свой образ жизниDigital Trends помогает читателям быть в курсе быстро меняющегося мира технологий благодаря всем последним новостям, забавным обзорам продуктов, содержательным редакционным статьям и уникальным кратким обзорам.