DeepMind sa stáva neskutočným s novým, rýchlo sa učiacim AI agentom

DeepMind - Posilňovacie vzdelávanie s pomocnými úlohami bez dozoru

DeepMind spoločnosti Google tento týždeň zverejnil dokument s názvom Posilňovacie učenie s pomocnými úlohami bez dozoru, ktorá popisuje metódu na zvýšenie rýchlosti učenia umelej inteligencie a konečného výkonu agentov – alebo robotov. Táto metóda zahŕňa pridanie dvoch hlavných dodatočných úloh, ktoré sa majú vykonať počas tréningu AI, a stavia na štandardnej hĺbke posilnenie učenia základ, čo je v podstate metóda odmeňovania/trestania pokus-omyl, kde sa AI učí zo svojich chyby.

Prvou pridanou úlohou na urýchlenie učenia AI je schopnosť pochopiť, ako ovládať pixely na obrazovke. Podľa DeepMind je táto metóda podobná tomu, ako sa dieťa učí ovládať svoje ručičky pohybom a sledovaním týchto pohybov. V prípade AI by bot pochopil vizuálny vstup ovládaním pixelov, čo by viedlo k lepšiemu skóre.

Odporúčané videá

„Vezmite si dieťa, ktoré sa naučí maximalizovať kumulatívne množstvo červenej, ktoré pozoruje. Na správne predpovedanie optimálnej hodnoty musí dieťa pochopiť, ako zvýšiť „začervenanie“ rôznymi spôsobmi vrátane manipulácie (priblíženie červeného predmetu k očiam); lokomócia (pohyb pred červeným predmetom); a komunikácia (plač, kým rodičia neprinesú červený predmet),“ uvádza DeepMind’s paper. "Toto správanie sa bude pravdepodobne opakovať pre mnoho ďalších cieľov, s ktorými sa dieťa môže následne stretnúť."

Súvisiace

  • Tento robot vás zničí v Pictionary. Je to tiež obrovský míľnik pre A.I.
  • DeepMind spoločnosti Google trénuje samoriadiace autá Waymo, ako sú roboty StarCraft II
  • Google našiel spôsob, ako využiť A.I. zvýšiť využiteľnosť veternej energie

Druhá pridaná úloha sa používa na trénovanie AI, aby predpovedala, aké budú okamžité ocenenia na základe krátkej histórie predchádzajúcich akcií. Aby to bolo možné, tím poskytol rovnaké množstvo predchádzajúcich odmeňujúcich a neodmeňujúcich histórií. Konečným výsledkom je, že AI dokáže objaviť vizuálne funkcie, ktoré pravdepodobne povedú k odmenám rýchlejšie ako predtým.

„Aby sa naši agenti učili efektívnejšie, používajú mechanizmus opakovania skúseností, aby poskytli kritikom ďalšie aktualizácie. Rovnako ako zvieratá častejšie snívajú o pozitívne alebo negatívne odmeňujúcich udalostiach, naši agenti prednostne prehrávajú sekvencie obsahujúce odmeňujúce udalosti,“ dodáva noviny.

S týmito dvoma pomocnými úlohami pridanými k predchádzajúcemu agentovi A3C je výsledný nový agent/bot založený na tom, čo tím nazýva Unreal (UNsupervised REinforcement and Auxiliary Learning). Tím virtuálne posadil tohto robota pred 57 hier Atari a jedného samostatného Wolfenstein-ako labyrintová hra pozostávajúca z 13 úrovní. Vo všetkých scenároch dostal robot surový výstupný obraz RGB, ktorý mu poskytol priamy prístup k pixelom so 100-percentnou presnosťou. Unreal bot bol všeobecne odmenený za úlohy, ako je zostrelenie mimozemšťanov Space Invaders chytať jablká v 3D bludisku.

Pretože robot Unreal dokáže ovládať pixely a predpovedať, či akcie prinesú odmeny, dokáže sa učiť 10-krát rýchlejšie ako predchádzajúci najlepší agent DeepMind (A3C). Ešte viac, produkuje lepší výkon ako predchádzajúci šampión.

„Teraz dokážeme dosiahnuť 87 percent expertného ľudského výkonu v priemere naprieč úrovňami Labyrintu, ktoré sme zvažovali, s nadľudským výkonom na mnohých z nich,“ uviedla spoločnosť. "Na Atari agent teraz dosahuje v priemere 9-násobok ľudského výkonu."

DeepMind je nádejný že práca, ktorá bola venovaná robotovi Unreal, umožní tímu rozšíriť všetkých jeho agentov/botov, aby v blízkej budúcnosti zvládli ešte zložitejšie prostredia. Dovtedy si pozrite video vložené vyššie, ktoré ukazuje, ako sa AI pohybuje v labyrintoch a chytí jablká sama bez akéhokoľvek ľudského zásahu.

Odporúčania redaktorov

  • šach. Ohrozenie. Choď. Prečo používame hry ako benchmark pre A.I.?
  • Opätovná návšteva vzostupu AI: Ako ďaleko zašla umelá inteligencia od roku 2010?
  • Google DeepMind A.I. poráža ľudských protivníkov v Quake III Capture the Flag

Zlepšite svoj životný štýlDigitálne trendy pomáhajú čitateľom mať prehľad o rýchlo sa rozvíjajúcom svete technológií so všetkými najnovšími správami, zábavnými recenziami produktov, užitočnými úvodníkmi a jedinečnými ukážkami.