DeepMind kļūst nereāls ar jaunu, ātri apgūstamu AI aģentu

DeepMind — pastiprinoša mācīšanās ar nekontrolētiem palīguzdevumiem

Google DeepMind šonedēļ izdeva rakstu ar nosaukumu Mācību pastiprināšana ar nekontrolētiem palīguzdevumiem, kurā aprakstīta metode, kā palielināt mākslīgā intelekta mācīšanās ātrumu un aģentu jeb robotu galīgo veiktspēju. Šī metode ietver divu galveno papildu uzdevumu pievienošanu, kas jāveic, kamēr AI trenējas, un tā ir balstīta uz standarta dziļumu pastiprināšanas mācību pamats, kas būtībā ir izmēģinājumu un kļūdu atlīdzības/soda metode, kurā AI mācās no sava kļūdas.

Pirmais pievienotais uzdevums, lai paātrinātu AI mācīšanos, ir spēja saprast, kā kontrolēt ekrāna pikseļus. Pēc DeepMind domām, šī metode ir līdzīga tam, kā mazulis mācās kontrolēt savas rokas, kustinot tās un vērojot šīs kustības. AI gadījumā robots saprastu vizuālo ievadi, kontrolējot pikseļus, tādējādi nodrošinot labākus rezultātus.

Ieteiktie videoklipi

“Apsveriet mazuli, kurš mācās maksimāli palielināt kumulatīvo sarkanās krāsas daudzumu, ko tas novēro. Lai pareizi paredzētu optimālo vērtību, mazulim ir jāsaprot, kā ar dažādiem līdzekļiem palielināt ‘apsārtumu’, tai skaitā ar manipulācijām (sarkana priekšmeta tuvināšana acīm); pārvietošanās (pārvietošanās sarkana objekta priekšā); un komunikācija (raudāšana, līdz vecāki atnes sarkanu priekšmetu),” teikts DeepMind dokumentā. "Šī uzvedība, visticamāk, atkārtosies daudzu citu mērķu sasniegšanai, ar kuriem bērns vēlāk var saskarties."

Saistīts

  • Šis robots jūs iznīcinās Pictionary. Tas ir arī milzīgs pavērsiens A.I.
  • Google DeepMind apmāca Waymo pašbraucošās automašīnas, piemēram, StarCraft II botus
  • Google ir atradis veidu, kā izmantot A.I. lai palielinātu vēja enerģijas lietderību

Otrs pievienotais uzdevums tiek izmantots, lai apmācītu AI paredzēt tūlītējās balvas, pamatojoties uz īsu iepriekšējo darbību vēsturi. Lai to nodrošinātu, komanda sniedza vienādu daudzumu iepriekšējo atalgojošo un neapmaksāto vēsturi. Gala rezultāts ir tāds, ka AI var atklāt vizuālas funkcijas, kas, iespējams, nodrošinās atlīdzību ātrāk nekā iepriekš.

“Lai mācītos efektīvāk, mūsu aģenti izmanto pieredzes atkārtošanas mehānismu, lai sniegtu kritiķiem papildu atjauninājumus. Tāpat kā dzīvnieki biežāk sapņo par pozitīviem vai negatīviem atalgojuma notikumiem, mūsu aģenti dod priekšroku atkārtojumu sērijām, kas satur atalgojošus notikumus,” piebilsts rakstā.

Ja šie divi palīguzdevumi ir pievienoti iepriekšējam A3C aģentam, iegūtais jaunais aģents/robots ir balstīts uz to, ko komanda sauc par Unreal (UNSupervised REinforcement un Auxiliary Learning). Komanda praktiski sēdēja šo robotu priekšā 57 Atari spēlēm un atsevišķai Volfenšteinslīdzīga labirinta spēle, kas sastāv no 13 līmeņiem. Visos scenārijos robotam tika piešķirts neapstrādāts RGB izvades attēls, nodrošinot tiešu piekļuvi pikseļiem ar 100 procentu precizitāti. Unreal robots tika atalgots par tādiem uzdevumiem kā citplanētiešu notriekšana Kosmosa iebrucēji lai satvertu ābolus 3D labirintā.

Tā kā Unreal robots var kontrolēt pikseļus un paredzēt, vai darbības nesīs atlīdzību, tas spēj mācīties 10 reizes ātrāk nekā DeepMind iepriekšējais labākais aģents (A3C). Pat vairāk, tas nodrošina labāku sniegumu nekā iepriekšējais čempions.

"Tagad mēs varam sasniegt 87 procentus no ekspertu cilvēka veiktspējas, ņemot vērā vidējos Labyrinth līmeņus, kurus mēs aplūkojām, un vairākos no tiem mēs varam sasniegt pārcilvēcisku sniegumu," sacīja uzņēmums. "Uz Atari aģents tagad sasniedz vidēji 9x cilvēka veiktspēju."

DeepMind ir cerīgs ka darbs, kas tika veikts ar Unreal robotu, ļaus komandai paplašināt visus savus aģentus/robotus, lai tuvākajā nākotnē strādātu ar vēl sarežģītākām vidēm. Līdz tam skatieties iepriekš iegulto videoklipu, kurā redzams, kā mākslīgais intelekts pārvietojas pa labirintiem un pats satver ābolus bez cilvēka iejaukšanās.

Redaktoru ieteikumi

  • Šahs. Apdraudējums. Aiziet. Kāpēc mēs izmantojam spēles kā AI etalonu?
  • Pārskatot A.I. pieaugumu: cik tālu mākslīgais intelekts ir ticis kopš 2010. gada?
  • Google DeepMind A.I. uzvar cilvēku pretiniekus Quake III Capture the Flag

Uzlabojiet savu dzīvesveiduDigitālās tendences palīdz lasītājiem sekot līdzi steidzīgajai tehnoloģiju pasaulei, izmantojot visas jaunākās ziņas, jautrus produktu apskatus, ieskatu saturošus rakstus un unikālus ieskatus.