DeepMind devine ireal cu un nou agent AI cu învățare rapidă

DeepMind - Învățare de consolidare cu sarcini auxiliare nesupravegheate

DeepMind de la Google a lansat o lucrare numită săptămâna aceasta Învățare prin consolidare cu sarcini auxiliare nesupravegheate, care descrie o metodă de creștere a vitezei de învățare a inteligenței artificiale și a performanței finale a agenților - sau a botilor. Această metodă include adăugarea a două sarcini suplimentare principale de efectuat în timp ce AI se antrenează și se bazează pe standardul profund fundație de învățare prin întărire, care este, practic, o metodă de recompensă/pedeapsă prin încercare și eroare, în care AI învață din greșeli.

Prima sarcină adăugată pentru accelerarea învățării AI este capacitatea de a înțelege cum să controlați pixelii de pe ecran. Potrivit DeepMind, această metodă este similară cu modul în care un bebeluș învață să-și controleze mâinile, mișcându-le și urmărind acele mișcări. În cazul AI, botul ar înțelege inputul vizual controlând pixelii, conducând astfel la scoruri mai bune.

Videoclipuri recomandate

„Gândiți-vă la un copil care învață să maximizeze cantitatea cumulativă de roșu pe care o observă. Pentru a prezice corect valoarea optimă, bebelușul trebuie să înțeleagă cum să crească „roșeața” prin diverse mijloace, inclusiv prin manipulare (aducerea unui obiect roșu mai aproape de ochi); locomoție (deplasarea în fața unui obiect roșu); și comunicare (plâns până când părinții aduc un obiect roșu),” se arată în lucrarea DeepMind. „Aceste comportamente pot să se repete pentru multe alte obiective pe care copilul le poate întâlni ulterior.”

Legate de

  • Acest bot te va distruge la Pictionary. Este, de asemenea, o piatră de hotar uriașă pentru A.I.
  • DeepMind de la Google antrenează mașinile autonome ale lui Waymo, cum ar fi roboții StarCraft II
  • Google a găsit o modalitate de a folosi I.A. pentru a spori utilitatea energiei eoliene

A doua sarcină adăugată este folosită pentru a antrena AI pentru a prezice care vor fi premiile imediate pe baza unui scurt istoric al acțiunilor anterioare. Pentru a permite acest lucru, echipa a furnizat cantități egale de istorii anterioare de recompensă și nerecompensă. Rezultatul final este că AI poate descoperi caracteristici vizuale care probabil vor duce la recompense mai repede decât înainte.

„Pentru a învăța mai eficient, agenții noștri folosesc un mecanism de reluare a experienței pentru a oferi actualizări suplimentare criticilor. Așa cum animalele visează mai des la evenimente de recompensă pozitivă sau negativă, agenții noștri reluează preferabil secvențe care conțin evenimente recompensatoare”, adaugă lucrarea.

Cu aceste două sarcini auxiliare adăugate la agentul A3C anterior, noul agent/bot rezultat se bazează pe ceea ce echipa numește Unreal (UNsupervised REinforcement and Auxiliary Learning). Echipa a așezat virtual acest bot în fața a 57 de jocuri Atari și a unui separat Wolfenstein-ca un joc labirint format din 13 nivele. În toate scenariile, botului i s-a oferit imaginea brută de ieșire RGB, oferindu-i acces direct la pixeli pentru o precizie de 100%. Botul Unreal a fost recompensat peste tot pentru sarcini precum doborarea extratereștrilor Space Invaders pentru a apuca mere într-un labirint 3D.

Deoarece botul Unreal poate controla pixelii și poate prezice dacă acțiunile vor produce recompense, este capabil să învețe de 10 ori mai repede decât cel mai bun agent anterior al DeepMind (A3C). Mai mult, produce o performanță mai bună decât campionul anterior.

„Acum putem atinge 87% din performanța umană a experților în medie la nivelurile Labirintului pe care le-am luat în considerare, cu performanțe supraumane pentru un număr dintre ele”, a spus compania. „Pe Atari, agentul atinge acum în medie o performanță umană de 9 ori.”

DeepMind are speranță că munca care a intrat în botul Unreal va permite echipei să-și extindă toți agenții/roboții pentru a gestiona medii și mai complexe în viitorul apropiat. Până atunci, vedeți videoclipul încorporat mai sus care arată AI care se mișcă prin labirinturi și apucă singur mere fără nicio intervenție umană.

Recomandările editorilor

  • Şah. Primejdie. Merge. De ce folosim jocurile ca reper pentru I.A.?
  • Revizuirea ascensiunii A.I.: Cât de departe a ajuns inteligența artificială din 2010?
  • Google DeepMind A.I. învinge adversari umani în Quake III Capture the Flag

Îmbunătățește-ți stilul de viațăDigital Trends îi ajută pe cititori să țină cont de lumea rapidă a tehnologiei cu toate cele mai recente știri, recenzii distractive despre produse, editoriale perspicace și anticipări unice.