DeepMind стає нереальним завдяки новому агенту ШІ, який швидко навчається

DeepMind - Навчання з підкріпленням із допоміжними завданнями без контролю

Цього тижня компанія Google DeepMind випустила документ під назвою Навчання з підкріпленням із допоміжними завданнями без контролю, який описує метод збільшення швидкості навчання штучного інтелекту та кінцевої продуктивності агентів — або ботів. Цей метод включає в себе додавання двох основних додаткових завдань, які потрібно виконувати під час тренування ШІ, і ґрунтується на стандартному глибині основи навчання з підкріпленням, яка в основному є методом проб і помилок винагороди/покарання, де ШІ вчиться на своїх помилки.

Перше додане завдання для прискорення навчання штучного інтелекту – це здатність зрозуміти, як керувати пікселями на екрані. За словами DeepMind, цей метод схожий на те, як дитина вчиться контролювати свої руки, рухаючи ними та спостерігаючи за цими рухами. У випадку штучного інтелекту бот розумітиме візуальне введення, керуючи пікселями, що призведе до кращих результатів.

Рекомендовані відео

«Уявіть дитину, яка вчиться максимізувати загальну кількість червоного кольору, який вона спостерігає. Щоб правильно передбачити оптимальне значення, малюк повинен розуміти, як посилити «червоність» різними способами, включаючи маніпуляції (наближення червоного предмета до очей); локомоція (переміщення перед предметом червоного кольору); і спілкування (плач, доки батьки не принесуть червоний предмет)», — йдеться в документі DeepMind. «Ця поведінка, ймовірно, повториться для багатьох інших цілей, з якими дитина може згодом зіткнутися».

Пов'язані

Цей бот знищить вас у Pictionary. Це також величезна віха для ШІ.
DeepMind від Google тренує безпілотні автомобілі Waymo як ботів StarCraft II
Google знайшов спосіб використовувати штучний інтелект. підвищити корисність енергії вітру

Друге додане завдання використовується для навчання штучного інтелекту прогнозувати негайні нагороди на основі короткої історії попередніх дій. Щоб увімкнути це, команда надала рівну кількість попередніх винагородних і невинагородних історій. Кінцевим результатом є те, що штучний інтелект може виявити візуальні особливості, які, ймовірно, призведуть до винагороди швидше, ніж раніше.

«Для більш ефективного навчання наші агенти використовують механізм відтворення досвіду, щоб надавати додаткові оновлення критикам. Подібно до того, як тварини частіше мріють про позитивні чи негативні події винагороди, наші агенти переважно відтворюють послідовності, що містять події винагороди», – додає газета.

З цими двома допоміжними завданнями, доданими до попереднього агента A3C, отриманий новий агент/бот базується на тому, що команда називає Unreal (UN-supervised REinforcement and Auxiliary Learning). Команда практично поставила цього бота перед 57 іграми Atari та окремою Wolfenstein-подібна гра лабіринт, що складається з 13 рівнів. У всіх сценаріях боту надавалося необроблене вихідне зображення RGB, надаючи йому прямий доступ до пікселів для 100-відсоткової точності. Бот Unreal отримував винагороду за такі завдання, як збивання інопланетян Космічні загарбники щоб хапати яблука в 3D-лабіринті.

Оскільки бот Unreal може контролювати пікселі та передбачати, чи принесуть дії винагороду, він здатний навчатися в 10 разів швидше, ніж попередній найкращий агент DeepMind (A3C). Навіть більше, він забезпечує кращу продуктивність, ніж попередній чемпіон.

«Тепер ми можемо досягти 87 відсотків продуктивності експертної людини, усередненої за рівнями Лабіринту, які ми розглядали, з надлюдською продуктивністю на низці з них», — заявили в компанії. «На Atari агент тепер досягає в середньому 9-кратної продуктивності людини».

DeepMind має надію що робота, виконана над ботом Unreal, дозволить команді розширити масштаб усіх своїх агентів/ботів для роботи з навіть складнішими середовищами в найближчому майбутньому. А поки дивіться розміщене вище відео, на якому показано, як штучний інтелект пересувається лабіринтами та самостійно хапає яблука без втручання людини.

DeepMind стає нереальним завдяки новому агенту ШІ, який швидко навчається

Рекомендації редакції

Категорії

Останні

Escape роздає крихітні будинки, які будуть використовуватися як оренда Airbnb

Amazon Alexa чудова. Але що, якби вона могла зробити більше?

Domino's та IFTTT роблять людей лінивішими, піца за раз