DeepMind postane neresničen z novim, hitro učljivim agentom AI

click fraud protection

DeepMind - Okrepljeno učenje z nenadzorovanimi pomožnimi nalogami

Googlov DeepMind je ta teden izdal dokument z naslovom Okrepljeno učenje z nenadzorovanimi pomožnimi nalogami, ki opisuje metodo za povečanje hitrosti učenja umetne inteligence in končne zmogljivosti agentov – ali botov. Ta metoda vključuje dodajanje dveh glavnih dodatnih nalog, ki ju je treba izvajati, medtem ko se umetna inteligenca usposablja, in nadgrajuje standardno globino temelj za krepitev učenja, ki je v bistvu metoda nagrajevanja/kaznovanja s poskusi in napakami, pri kateri se umetna inteligenca uči iz napake.

Prva dodana naloga za pospešitev učenja AI je zmožnost razumevanja, kako nadzorovati slikovne pike na zaslonu. Po mnenju DeepMinda je ta metoda podobna temu, kako se dojenček nauči nadzorovati svoje roke tako, da jih premika in opazuje te gibe. V primeru umetne inteligence bi bot razumel vizualni vnos z nadzorom slikovnih pik, kar bi vodilo do boljših rezultatov.

Priporočeni videoposnetki

»Razmislite o dojenčku, ki se nauči povečati kumulativno količino rdeče barve, ki jo opazuje. Za pravilno predvidevanje optimalne vrednosti mora dojenček razumeti, kako povečati "rdečino" z različnimi sredstvi, vključno z manipulacijo (približevanje rdečega predmeta k očem); lokomocija (premikanje pred rdečim predmetom); in komunikacijo (jok, dokler starši ne prinesejo rdečega predmeta),« navaja dokument DeepMinda. "Ta vedenja se bodo verjetno ponovila za številne druge cilje, s katerimi se lahko dojenček pozneje sreča."

Povezano

  • Ta bot vas bo uničil pri Pictionaryju. To je tudi velik mejnik za A.I.
  • Googlov DeepMind usposablja samovozeče avtomobile Waymo kot bote StarCraft II
  • Google je našel način za uporabo A.I. za povečanje uporabnosti vetrne energije

Druga dodana naloga se uporablja za usposabljanje AI, da na podlagi kratke zgodovine predhodnih dejanj predvidi, kakšne bodo takojšnje nagrade. Da bi to omogočili, je ekipa zagotovila enake količine prejšnjih nagrajevalnih in nenagrajevalnih zgodovin. Končni rezultat je, da lahko umetna inteligenca hitreje kot prej odkrije vizualne značilnosti, ki bodo verjetno vodile do nagrad.

»Za učinkovitejše učenje naši agenti uporabljajo mehanizem ponavljanja izkušenj, da kritikom zagotovijo dodatne posodobitve. Tako kot živali pogosteje sanjajo o pozitivnih ali negativnih nagrajevalnih dogodkih, naši agenti prednostno predvajajo sekvence, ki vsebujejo nagrajevalne dogodke,« dodaja časopis.

S tema dvema pomožnima nalogama, dodanima prejšnjemu agentu A3C, nastali novi agent/bot temelji na tem, kar ekipa imenuje Unreal (UNsupervised REinforcement and Auxiliary Learning). Ekipa je praktično postavila tega bota pred 57 iger Atari in ločeno Wolfenstein-igra labirinta, sestavljena iz 13 stopenj. V vseh scenarijih je bot dobil neobdelano izhodno sliko RGB, kar mu je omogočilo neposreden dostop do slikovnih pik za 100-odstotno natančnost. Bot Unreal je bil povsod nagrajen za naloge, kot je sestrelitev nezemljanov Space Invaders do grabljenja jabolk v 3D labirintu.

Ker lahko bot Unreal nadzoruje slikovne pike in predvidi, ali bodo dejanja prinesla nagrade, se lahko uči 10-krat hitreje kot prejšnji najboljši agent DeepMinda (A3C). Še več, dosega boljše rezultate kot prejšnji prvak.

"Zdaj lahko dosežemo 87 odstotkov strokovne človeške zmogljivosti v povprečju po ravneh Labirinta, ki smo jih upoštevali, pri čemer je na več njih nadčloveška zmogljivost," so sporočili iz podjetja. "Na Atariju agent zdaj v povprečju dosega 9-kratno človeško zmogljivost."

DeepMind je poln upanja da bo delo, ki je bilo vloženo v Unreal bot, ekipi omogočilo razširitev vseh svojih agentov/botov za obvladovanje še bolj zapletenih okolij v bližnji prihodnosti. Do takrat pa si oglejte zgornji videoposnetek, ki prikazuje umetno inteligenco, kako se premika skozi labirinte in grabi jabolka sama brez človekovega posredovanja.

Priporočila urednikov

  • Šah. Nevarnost. pojdi Zakaj uporabljamo igre kot merilo za AI?
  • Ponovni pregled vzpona AI: Kako daleč je umetna inteligenca prišla od leta 2010?
  • Googlov DeepMind A.I. premaga človeške nasprotnike v igri Quake III Capture the Flag

Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.