DeepMind - Навчання з підкріпленням із допоміжними завданнями без контролю
Перше додане завдання для прискорення навчання штучного інтелекту – це здатність зрозуміти, як керувати пікселями на екрані. За словами DeepMind, цей метод схожий на те, як дитина вчиться контролювати свої руки, рухаючи ними та спостерігаючи за цими рухами. У випадку штучного інтелекту бот розумітиме візуальне введення, керуючи пікселями, що призведе до кращих результатів.
Рекомендовані відео
«Уявіть дитину, яка вчиться максимізувати загальну кількість червоного кольору, який вона спостерігає. Щоб правильно передбачити оптимальне значення, малюк повинен розуміти, як посилити «червоність» різними способами, включаючи маніпуляції (наближення червоного предмета до очей); локомоція (переміщення перед предметом червоного кольору); і спілкування (плач, доки батьки не принесуть червоний предмет)», — йдеться в документі DeepMind. «Ця поведінка, ймовірно, повториться для багатьох інших цілей, з якими дитина може згодом зіткнутися».
Пов'язані
- Цей бот знищить вас у Pictionary. Це також величезна віха для ШІ.
- DeepMind від Google тренує безпілотні автомобілі Waymo як ботів StarCraft II
- Google знайшов спосіб використовувати штучний інтелект. підвищити корисність енергії вітру
Друге додане завдання використовується для навчання штучного інтелекту прогнозувати негайні нагороди на основі короткої історії попередніх дій. Щоб увімкнути це, команда надала рівну кількість попередніх винагородних і невинагородних історій. Кінцевим результатом є те, що штучний інтелект може виявити візуальні особливості, які, ймовірно, призведуть до винагороди швидше, ніж раніше.
«Для більш ефективного навчання наші агенти використовують механізм відтворення досвіду, щоб надавати додаткові оновлення критикам. Подібно до того, як тварини частіше мріють про позитивні чи негативні події винагороди, наші агенти переважно відтворюють послідовності, що містять події винагороди», – додає газета.
З цими двома допоміжними завданнями, доданими до попереднього агента A3C, отриманий новий агент/бот базується на тому, що команда називає Unreal (UN-supervised REinforcement and Auxiliary Learning). Команда практично поставила цього бота перед 57 іграми Atari та окремою Wolfenstein-подібна гра лабіринт, що складається з 13 рівнів. У всіх сценаріях боту надавалося необроблене вихідне зображення RGB, надаючи йому прямий доступ до пікселів для 100-відсоткової точності. Бот Unreal отримував винагороду за такі завдання, як збивання інопланетян Космічні загарбники щоб хапати яблука в 3D-лабіринті.
Оскільки бот Unreal може контролювати пікселі та передбачати, чи принесуть дії винагороду, він здатний навчатися в 10 разів швидше, ніж попередній найкращий агент DeepMind (A3C). Навіть більше, він забезпечує кращу продуктивність, ніж попередній чемпіон.
«Тепер ми можемо досягти 87 відсотків продуктивності експертної людини, усередненої за рівнями Лабіринту, які ми розглядали, з надлюдською продуктивністю на низці з них», — заявили в компанії. «На Atari агент тепер досягає в середньому 9-кратної продуктивності людини».
DeepMind має надію що робота, виконана над ботом Unreal, дозволить команді розширити масштаб усіх своїх агентів/ботів для роботи з навіть складнішими середовищами в найближчому майбутньому. А поки дивіться розміщене вище відео, на якому показано, як штучний інтелект пересувається лабіринтами та самостійно хапає яблука без втручання людини.
Рекомендації редакції
- шахи. Небезпека. Іди. Чому ми використовуємо ігри як еталон для ШІ?
- Перегляд розвитку штучного інтелекту: як далеко просунувся штучний інтелект з 2010 року?
- Google DeepMind A.I. перемагає людських супротивників у Quake III Capture the Flag
Оновіть свій спосіб життяDigital Trends допомагає читачам стежити за динамічним світом технологій завдяки всім останнім новинам, цікавим оглядам продуктів, проникливим редакційним статтям і унікальним у своєму роді коротким оглядам.