DeepMind postaje nestvaran s novim AI agentom koji brzo uči

DeepMind - Pojačano učenje s nenadziranim pomoćnim zadacima

Googleov DeepMind ovaj je tjedan objavio rad pod nazivom Učenje s pojačanjem s nenadziranim pomoćnim zadacima, koji opisuje metodu za povećanje brzine učenja umjetne inteligencije i konačnu izvedbu agenata — ili botova. Ova metoda uključuje dodavanje dva glavna dodatna zadatka za obavljanje dok AI trenira, a nadograđuje se na standardnu ​​dubinu temelj za učenje s pojačanjem, što je u osnovi metoda pokušaja i pogreške nagrađivanja/kažnjavanja gdje umjetna inteligencija uči iz svojih greške.

Prvi dodani zadatak za ubrzavanje AI učenja je sposobnost razumijevanja kako kontrolirati piksele na zaslonu. Prema DeepMindu, ova je metoda slična načinu na koji beba uči kontrolirati svoje ruke tako da ih pomiče i promatra te pokrete. U slučaju umjetne inteligencije, bot bi razumio vizualni unos kontrolirajući piksele, što bi dovelo do boljih rezultata.

Preporučeni videozapisi

“Razmotrimo bebu koja uči maksimalizirati kumulativnu količinu crvene koju promatra. Kako bi ispravno predvidjela optimalnu vrijednost, beba mora razumjeti kako povećati 'crvenilo' različitim sredstvima, uključujući manipulaciju (približavanje crvenog predmeta očima); lokomocija (kretanje ispred crvenog predmeta); i komunikacija (plakanje sve dok roditelji ne donesu crveni predmet)”, navodi DeepMindov rad. "Ova ponašanja će se vjerojatno ponoviti za mnoge druge ciljeve s kojima se beba kasnije može susresti."

Povezano

  • Ovaj bot će vas uništiti u Pictionaryju. To je također velika prekretnica za A.I.
  • Googleov DeepMind trenira Waymove samovozeće automobile poput StarCraft II botova
  • Google je pronašao način kako koristiti A.I. za povećanje korisnosti energije vjetra

Drugi dodani zadatak koristi se za osposobljavanje umjetne inteligencije da predvidi koje će neposredne nagrade biti temeljene na kratkoj povijesti prethodnih akcija. Kako bi to omogućio, tim je osigurao jednake količine prethodnih nagradnih i nenagrađujućih povijesti. Krajnji rezultat je da AI može otkriti vizualne značajke koje će vjerojatno dovesti do nagrada brže nego prije.

“Kako bi učili učinkovitije, naši agenti koriste mehanizam ponavljanja iskustva kako bi kritičarima pružili dodatna ažuriranja. Baš kao što životinje češće sanjaju pozitivne ili negativne nagrađivane događaje, naši agenti preferirano reproduciraju sekvence koje sadrže nagrađivane događaje”, dodaje list.

S ova dva pomoćna zadatka dodana prethodnom A3C agentu, rezultirajući novi agent/bot temelji se na onome što tim naziva Unreal (UNsupervised REinforcement and Auxiliary Learning). Tim je virtualno stavio ovog bota pred 57 Atari igara i odvojenu Wolfenstein- poput igre labirinta koja se sastoji od 13 razina. U svim scenarijima, robot je dobio neobrađenu RGB izlaznu sliku, što mu je omogućilo izravan pristup pikselima za 100-postotnu točnost. Unreal bot nagrađivan je u cijelosti za zadatke poput obaranja vanzemaljaca Svemirski osvajači do grabljenja jabuka u 3D labirintu.

Budući da Unreal bot može kontrolirati piksele i predvidjeti hoće li radnje proizvesti nagrade, sposoban je učiti 10 puta brže od prethodnog najboljeg agenta DeepMinda (A3C). Štoviše, daje bolje performanse od prethodnog prvaka.

"Sada možemo postići 87 posto stručnih ljudskih performansi u prosjeku na razinama Labirinta koje smo razmatrali, s nadljudskim performansama na velikom broju njih", rekla je tvrtka. "Na Atariju, agent sada postiže prosječno 9 puta veću ljudsku izvedbu."

DeepMind je pun nade da će rad koji je uložen u Unreal bot omogućiti timu da poveća sve svoje agente/botove za rukovanje još složenijim okruženjima u bliskoj budućnosti. Do tada, pogledajte video ugrađen iznad koji prikazuje AI kako se kreće kroz labirinte i grabi jabuke sama bez ljudske intervencije.

Preporuke urednika

  • Šah. Opasnost. Ići. Zašto koristimo igre kao mjerilo za AI?
  • Ponovno razmatranje uspona umjetne inteligencije: Koliko je daleko stigla umjetna inteligencija od 2010.?
  • Googleov DeepMind A.I. pobjeđuje ljudske protivnike u Quake III Capture the Flag

Nadogradite svoj životni stilDigitalni trendovi pomažu čitateljima da prate brzi svijet tehnologije sa svim najnovijim vijestima, zabavnim recenzijama proizvoda, pronicljivim uvodnicima i jedinstvenim brzim pregledima.