DeepMind se stává neskutečným s novým, rychle se učícím AI agentem

DeepMind – Posílení učení s pomocnými úkoly bez dozoru

DeepMind společnosti Google vydal tento týden dokument s názvem Posílení učení s pomocnými úkoly bez dozoru, která popisuje metodu, jak zvýšit rychlost učení umělé inteligence a konečný výkon agentů — neboli botů. Tato metoda zahrnuje přidání dvou hlavních dodatečných úkolů, které se mají provádět, zatímco AI trénuje, a staví na standardní hloubce posílení výukového základu, což je v podstatě metoda odměňování/trestání metodou pokus-omyl, kde se umělá inteligence učí od svých chyby.

Prvním přidaným úkolem pro urychlení učení AI je schopnost porozumět tomu, jak ovládat pixely na obrazovce. Podle DeepMind je tato metoda podobná tomu, jak se dítě učí ovládat své ruce pohybem a sledováním těchto pohybů. V případě AI by bot rozuměl vizuálnímu vstupu ovládáním pixelů, což vedlo k lepšímu skóre.

Doporučená videa

„Vezměte si dítě, které se naučí maximalizovat kumulativní množství červené, které pozoruje. Aby dítě správně předpovědělo optimální hodnotu, musí pochopit, jak zvýšit „zarudnutí“ různými prostředky, včetně manipulace (přiblížení červeného předmětu k očím); lokomoce (pohyb před červeným předmětem); a komunikace (pláč, dokud rodiče nepřinesou červený předmět),“ uvádí DeepMind’s paper. "Toto chování se pravděpodobně bude opakovat pro mnoho dalších cílů, se kterými se dítě může následně setkat."

Příbuzný

  • Tento robot vás zničí v Pictionary. Je to také obrovský milník pro A.I.
  • DeepMind společnosti Google trénuje samořídící auta Waymo, jako jsou roboty StarCraft II
  • Google našel způsob, jak využít A.I. zvýšit využitelnost větrné energie

Druhý přidaný úkol se používá k trénování umělé inteligence, aby předpovídala, jaká budou okamžitá ocenění na základě krátké historie předchozích akcí. Aby to bylo možné, tým poskytl stejné množství předchozích historií odměňování a neodměňování. Konečným výsledkem je, že AI může objevit vizuální funkce, které pravděpodobně povedou k odměnám rychleji než dříve.

„Aby se naši agenti učili efektivněji, používají mechanismus přehrávání zkušeností, aby poskytli kritikům další aktualizace. Stejně jako zvířata častěji sní o pozitivně nebo negativně odměňujících událostech, naši agenti přednostně přehrávají sekvence obsahující odměňující události,“ dodává list.

S těmito dvěma pomocnými úkoly přidanými k předchozímu agentovi A3C je výsledný nový agent/bot založen na tom, co tým nazývá Unreal (UNsupervised REinforcement and Auxiliary Learning). Tým virtuálně posadil tohoto robota před 57 her Atari a jednu samostatnou Wolfenstein-jako labyrintová hra sestávající ze 13 úrovní. Ve všech scénářích dostal robot nezpracovaný výstupní obraz RGB, což mu poskytlo přímý přístup k pixelům se 100procentní přesností. Unreal bot byl celoplošně odměňován za úkoly, jako je sestřelení mimozemšťanů Vesmírní vetřelci k chytání jablek ve 3D bludišti.

Protože robot Unreal dokáže ovládat pixely a předvídat, zda akce přinesou odměny, je schopen se učit 10krát rychleji než předchozí nejlepší agent DeepMind (A3C). Navíc poskytuje lepší výkon než předchozí šampion.

„Nyní můžeme dosáhnout 87 procent odborného lidského výkonu v průměru napříč úrovněmi Labyrintu, které jsme uvažovali, s nadlidským výkonem na řadě z nich,“ uvedla společnost. "Na Atari agent nyní dosahuje v průměru 9x lidského výkonu."

DeepMind je nadějný že práce, která byla věnována robotu Unreal, umožní týmu rozšířit všechny jeho agenty/boty, aby v blízké budoucnosti zvládli ještě složitější prostředí. Do té doby se podívejte na video vložené výše, které ukazuje, jak se umělá inteligence pohybuje labyrinty a chytne jablka sama bez jakéhokoli lidského zásahu.

Doporučení redakce

  • Šachy. Ohrožení. Jít. Proč používáme hry jako měřítko pro A.I.?
  • Revisiting the vzestup A.I.: Jak daleko umělá inteligence pokročila od roku 2010?
  • Google DeepMind A.I. poráží lidské protivníky ve hře Quake III Capture the Flag

Upgradujte svůj životní stylDigitální trendy pomáhají čtenářům mít přehled o rychle se měnícím světě technologií se všemi nejnovějšími zprávami, zábavnými recenzemi produktů, zasvěcenými úvodníky a jedinečnými náhledy.