ДеепМинд постаје нестваран са новим агентом вештачке интелигенције који се брзо учи

ДеепМинд – учење са појачањем уз помоћне задатке без надзора

Гоогле-ов ДеепМинд је ове недеље објавио рад под називом Учење са појачањем са помоћним задацима без надзора, који описује метод за повећање брзине учења вештачке интелигенције и коначни учинак агената — или ботова. Овај метод укључује додавање два главна додатна задатка за обављање док АИ тренира, и надовезује се на стандардну дубоку основа за учење са појачањем, која је у основи метода награде/кажњавања методом покушаја и грешака где АИ учи од својих грешке.

Први додатни задатак за убрзавање учења вештачке интелигенције је способност разумевања како да контролишете пикселе на екрану. Према ДеепМинд-у, овај метод је сличан ономе како беба учи да контролише своје руке тако што их помера и посматра те покрете. У случају АИ, бот би разумео визуелни унос контролисањем пиксела, што би довело до бољих резултата.

Препоручени видео снимци

„Замислите бебу која учи да максимизира кумулативну количину црвене коју посматра. Да би правилно предвидела оптималну вредност, беба мора да разуме како да повећа „црвенило“ на различите начине, укључујући манипулацију (приближавање црвеног предмета очима); локомоција (кретање испред црвеног предмета); и комуникација (плакање док родитељи не донесу црвени предмет)“, наводи ДеепМиндов рад. „Ова понашања ће се вероватно поновити за многе друге циљеве са којима се беба касније може сусрести.

Повезан

Овај бот ће вас уништити у Пицтионари-у. То је такође велика прекретница за АИ.
Гоогле-ов ДеепМинд обучава Ваимо-ове аутомобиле који се сами возе попут СтарЦрафт ИИ робота
Гугл је пронашао начин да користи А.И. да се повећа корисност енергије ветра

Други додатни задатак се користи за обуку АИ да предвиди које ће тренутне награде бити засноване на краткој историји претходних акција. Да би то омогућио, тим је обезбедио једнаке количине претходних награђиваних и ненаграђиваних историја. Крајњи резултат је да АИ може открити визуелне карактеристике које ће вероватно довести до награда брже него раније.

„Да би научили ефикасније, наши агенти користе механизам понављања искуства како би пружили додатна ажурирања критичарима. Баш као што животиње чешће сањају о позитивним или негативним награђујућим догађајима, наши агенти преферентно репродуцирају секвенце које садрже награђујуће догађаје“, додаје лист.

Са ова два помоћна задатка додата претходном А3Ц агенту, резултујући нови агент/бот је заснован на ономе што тим назива Унреал (УН-супервисед Реинфорцемент анд Аукилиари Леарнинг). Тим је практично поставио овог бота испред 57 Атари игара и једне одвојене Волфенстеин-као лавиринт игра која се састоји од 13 нивоа. У свим сценаријима, бот је добио сирову РГБ излазну слику, пружајући му директан приступ пикселима са 100 посто тачности. Унреал бот је награђен за задатке као што је обарање ванземаљаца Освајачи свемира до хватања јабука у 3Д лавиринту.

Пошто Унреал бот може да контролише пикселе и предвиди да ли ће акције донети награде, способан је да учи 10 пута брже од претходног најбољег агента ДеепМинд-а (А3Ц). Штавише, даје боље перформансе и од претходног шампиона.

„Сада можемо да постигнемо 87 одсто стручних људских перформанси у просеку на нивоима Лавиринта које смо разматрали, уз супер-људске перформансе на великом броју њих“, саопштила је компанија. „На Атари, агент сада постиже у просеку 9 пута људске перформансе.

ДеепМинд је пун наде да ће рад који је ушао у Унреал бот омогућити тиму да повећа све своје агенте/ботове како би се бавили још сложенијим окружењима у блиској будућности. До тада, погледајте видео уграђен изнад који приказује АИ како се креће кроз лавиринте и граби јабуке самостално без икакве људске интервенције.

Препоруке уредника

Шах. Опасност. Иди. Зашто користимо игре као мерило за АИ?
Осврт на успон АИ: Колико далеко је вештачка интелигенција стигла од 2010.
Гоогле-ов ДеепМинд А.И. побеђује људске противнике у Куаке ИИИ Цаптуре тхе Флаг

Надоградите свој животни стилДигитални трендови помажу читаоцима да прате убрзани свет технологије са свим најновијим вестима, забавним рецензијама производа, проницљивим уводницима и јединственим кратким прегледима.

ДеепМинд постаје нестваран са новим агентом вештачке интелигенције који се брзо учи

Препоруке уредника

Категорије

Скорашњи

Лигхт и Сони партнерство подиже камере за паметне телефоне на нове висине

Мозилла о неутралности мреже: САД треба интернет без чувара капије

Аллстате СкуареТраде купује услугу поправке телефона иЦрацкед