DeepMind става нереален с нов, бързо обучаващ се AI агент

DeepMind - Подсилващо обучение с неконтролирани помощни задачи

Тази седмица DeepMind на Google пусна документ, наречен Учене с подсилване с неконтролирани помощни задачи, който описва метод за увеличаване на скоростта на обучение на изкуствения интелект и крайната производителност на агентите - или ботовете. Този метод включва добавяне на две основни допълнителни задачи, които да се изпълняват, докато AI тренира, и се основава на стандартния дълбок основа за обучение за подсилване, която в основата си е метод на проба и грешка за награда/наказание, при който AI се учи от своите грешки.

Първата добавена задача за ускоряване на обучението на AI е способността да разберете как да контролирате пикселите на екрана. Според DeepMind този метод е подобен на начина, по който бебето се научава да контролира ръцете си, като ги движи и наблюдава тези движения. В случай на AI, ботът ще разбере визуалното въвеждане чрез контролиране на пикселите, което води до по-добри резултати.

Препоръчани видеоклипове

„Помислете за бебе, което се научава да максимизира кумулативното количество червено, което наблюдава. За да предвиди правилно оптималната стойност, бебето трябва да разбере как да увеличи „зачервяването“ чрез различни средства, включително манипулация (доближаване на червен предмет до очите); локомоция (движение пред червен обект); и комуникация (плач, докато родителите не донесат червен предмет)“, се посочва в документа на DeepMind. „Тези поведения вероятно ще се повторят за много други цели, които бебето може да срещне впоследствие.“

Свързани

  • Този бот ще ви унищожи в Pictionary. Това също е огромен етап за ИИ.
  • DeepMind на Google обучава самоуправляващите се коли на Waymo като ботове на StarCraft II
  • Google намери начин да използва A.I. за повишаване на полезността на вятърната енергия

Втората добавена задача се използва за обучение на AI да предвиди какви ще бъдат незабавните награди въз основа на кратка история на предишни действия. За да позволи това, екипът предостави равни количества предишни награждаващи и ненаграждаващи истории. Крайният резултат е, че AI може да открие визуални функции, които вероятно ще доведат до награди по-бързо от преди.

„За да учат по-ефективно, нашите агенти използват механизъм за повторение на опит, за да предоставят допълнителни актуализации на критиците. Точно както животните мечтаят за положително или отрицателно възнаграждаващи събития по-често, нашите агенти предпочитат да възпроизвеждат поредици, съдържащи възнаграждаващи събития“, добавя вестникът.

С тези две помощни задачи, добавени към предишния A3C агент, полученият нов агент/бот се основава на това, което екипът нарича Unreal (UNsupervised REinforcement and Auxiliary Learning). Екипът на практика постави този бот пред 57 игри на Atari и една отделна Волфенщайн-подобна на лабиринт игра, състояща се от 13 нива. Във всички сценарии на бота беше дадено необработеното RGB изходно изображение, което му осигури директен достъп до пикселите за 100 процента точност. Ботът Unreal беше възнаграден навсякъде за задачи като сваляне на извънземни Космически нашественици до грабване на ябълки в 3D лабиринт.

Тъй като ботът Unreal може да контролира пикселите и да прогнозира дали действията ще доведат до награди, той е в състояние да учи 10 пъти по-бързо от предишния най-добър агент на DeepMind (A3C). Нещо повече, той дава по-добро представяне и от предишния шампион.

„Сега можем да постигнем 87 процента от експертното човешко представяне, осреднено за нивата на Лабиринта, които разгледахме, със свръхчовешко представяне на редица от тях“, казаха от компанията. „На Atari агентът сега постига средно 9 пъти човешка производителност.“

DeepMind е обнадежден че работата, вложена в бота Unreal, ще позволи на екипа да увеличи мащаба на всички свои агенти/ботове, за да се справят с още по-сложни среди в близко бъдеще. Дотогава вижте видеото, вградено по-горе, което показва как AI се движи през лабиринти и грабва ябълки сам без човешка намеса.

Препоръки на редакторите

  • Шах. опасност. Отивам. Защо използваме игрите като еталон за ИИ?
  • Преразглеждане на възхода на AI: Докъде е стигнал изкуственият интелект от 2010 г. насам?
  • DeepMind A.I. на Google побеждава човешки опоненти в Quake III Capture the Flag

Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.