DeepMind становится нереальным с новым быстрообучающимся ИИ-агентом

DeepMind — обучение с подкреплением с помощью вспомогательных задач без присмотра

На этой неделе компания DeepMind от Google опубликовала статью под названием Обучение с подкреплением с помощью вспомогательных заданий без присмотра, в котором описан метод увеличения скорости обучения искусственного интеллекта и конечной производительности агентов — или ботов. Этот метод включает в себя добавление двух основных дополнительных задач, которые необходимо выполнять во время обучения ИИ, и основан на стандартном глубоком методе. Фонд обучения с подкреплением, который по сути представляет собой метод вознаграждения/наказания методом проб и ошибок, в котором ИИ учится на своих ошибках. ошибки.

Первая добавленная задача для ускорения обучения ИИ — это способность понять, как управлять пикселями на экране. По мнению DeepMind, этот метод похож на то, как ребенок учится управлять своими руками, двигая ими и наблюдая за этими движениями. В случае с ИИ бот будет понимать визуальный ввод, управляя пикселями, что приведет к более высоким оценкам.

Рекомендуемые видео

«Представьте себе ребенка, который учится максимизировать совокупное количество красного, которое он наблюдает. Чтобы правильно спрогнозировать оптимальное значение, малыш должен понять, как увеличить «покраснение» различными способами, в том числе манипуляциями (поднесение красного предмета к глазам); локомоция (движение перед красным предметом); и общение (плач, пока родители не принесут красный предмет)», — говорится в статье DeepMind. «Такое поведение, вероятно, будет повторяться для многих других целей, с которыми впоследствии может столкнуться ребенок».

Связанный

Этот бот уничтожит вас в Pictionary. Это также огромная веха для развития искусственного интеллекта.
DeepMind от Google обучает беспилотные автомобили Waymo, такие как боты StarCraft II
Google нашел способ использовать искусственный интеллект. повысить полезность энергии ветра

Вторая добавленная задача используется для обучения ИИ прогнозированию немедленных наград на основе краткой истории предыдущих действий. Для этого команда предоставила равное количество предыдущих успешных и невыгодных историй. Конечным результатом является то, что ИИ может обнаруживать визуальные особенности, которые, вероятно, приведут к вознаграждению быстрее, чем раньше.

«Чтобы учиться более эффективно, наши агенты используют механизм воспроизведения опыта, чтобы предоставлять критикам дополнительные обновления. Подобно тому, как животные чаще мечтают о событиях, приносящих положительное или отрицательное вознаграждение, наши агенты предпочитают воспроизводить последовательности, содержащие события, приносящие вознаграждение», — добавляется в статье.

Благодаря этим двум вспомогательным задачам, добавленным к предыдущему агенту A3C, в результате получается новый агент/бот, основанный на том, что команда называет Unreal (НЕконтролируемое повторное подкрепление и вспомогательное обучение). Команда виртуально посадила этого бота перед 57 играми Atari и отдельной вольфенштейн-подобная игра-лабиринт, состоящая из 13 уровней. Во всех сценариях боту предоставлялось необработанное выходное изображение RGB, что обеспечивало ему прямой доступ к пикселям со 100-процентной точностью. Бот Unreal получил повсеместное вознаграждение за такие задачи, как сбивание инопланетян в Космические захватчики собирать яблоки в 3D-лабиринте.

Поскольку бот Unreal может управлять пикселями и предсказывать, принесут ли действия вознаграждение, он способен учиться в 10 раз быстрее, чем предыдущий лучший агент DeepMind (A3C). Более того, он показывает лучшие результаты, чем предыдущий чемпион.

«Теперь мы можем достичь 87 процентов производительности эксперта в среднем на всех уровнях Лабиринта, которые мы рассматривали, а на некоторых из них мы можем достичь сверхчеловеческих результатов», — заявили в компании. «В Atari производительность агента теперь в среднем в девять раз превышает производительность человека».

DeepMind полон надежд что работа, проделанная над ботом Unreal, позволит команде в ближайшем будущем масштабировать все свои агенты/боты для работы в еще более сложных средах. А пока посмотрите встроенное выше видео, показывающее, как ИИ перемещается по лабиринтам и самостоятельно хватает яблоки, без какого-либо вмешательства человека.

DeepMind становится нереальным с новым быстрообучающимся ИИ-агентом

Рекомендации редакции

Категории

Недавний

Comcast уточняет свое бесплатное предложение Xfinity Flex для клиентов, пользующихся только Интернетом

Spotify Connect управляет музыкой на рабочем столе с вашего телефона

Событие Peacock на канале NBC анонсирует перезапуск «Звездного крейсера Галактика» от Mr. Robot Creator