DeepMind blir uvirkelig med en ny, hurtiglærende AI-agent

DeepMind - Forsterkende læring med hjelpeoppgaver uten tilsyn

Googles DeepMind lanserer en artikkel denne uken kalt Forsterkende læring med hjelpeoppgaver uten tilsyn, som beskriver en metode for å øke læringshastigheten til kunstig intelligens og den endelige ytelsen til agenter - eller roboter. Denne metoden inkluderer å legge til to hovedoppgaver som skal utføres mens AI trener, og bygger på standard dyp forsterkningslæringsstiftelse, som i utgangspunktet er en prøv-og-feil-belønnings-/straffmetode der AI lærer av sin feil.

Den første ekstra oppgaven for å øke hastigheten på AI-læring er muligheten til å forstå hvordan man kontrollerer pikslene på skjermen. I følge DeepMind ligner denne metoden på hvordan en baby lærer å kontrollere hendene sine ved å bevege dem og se på disse bevegelsene. Når det gjelder AI, vil boten forstå visuelle input ved å kontrollere pikslene, og dermed føre til bedre poengsum.

Anbefalte videoer

"Vurder en baby som lærer å maksimere den kumulative mengden rødt den observerer. For å forutsi den optimale verdien riktig, må babyen forstå hvordan man øker "rødhet" på forskjellige måter, inkludert manipulasjon (bringer en rød gjenstand nærmere øynene); bevegelse (bevege seg foran en rød gjenstand); og kommunikasjon (gråter til foreldrene har med seg en rød gjenstand),» heter det i DeepMinds papir. "Denne atferden vil sannsynligvis gjenta seg for mange andre mål som babyen senere kan møte."

I slekt

  • Denne boten vil ødelegge deg på Pictionary. Det er også en stor milepæl for A.I.
  • Googles DeepMind trener Waymos selvkjørende biler som StarCraft II-roboter
  • Google har funnet en måte å bruke A.I. for å øke nytten av vindenergi

Den andre tilleggsoppgaven brukes til å trene AI til å forutsi hva de umiddelbare tildelingene vil være basert på en kort historie om tidligere handlinger. For å muliggjøre dette ga teamet like store mengder tidligere givende og ikke-givende historier. Sluttresultatet er at AI kan oppdage visuelle funksjoner som sannsynligvis vil føre til belønninger raskere enn før.

"For å lære mer effektivt bruker våre agenter en erfaringsreplay-mekanisme for å gi ytterligere oppdateringer til kritikerne. Akkurat som dyr oftere drømmer om positive eller negative begivenheter, spiller agentene våre fortrinnsvis sekvenser som inneholder givende hendelser,» legger avisen til.

Med disse to hjelpeoppgavene lagt til den forrige A3C-agenten, er den resulterende nye agenten/boten basert på det teamet kaller Unreal (UNsupervised REinforcement and Auxiliary Learning). Laget satt praktisk talt denne boten foran 57 Atari-kamper og en separat Wolfenstein-lignende labyrintspill bestående av 13 nivåer. I alle scenarier fikk boten det rå RGB-utdatabildet, noe som ga den direkte tilgang til pikslene for 100 prosent nøyaktighet. Unreal-boten ble belønnet over hele linja for oppgaver som å skyte ned romvesener inn Space Invaders å gripe epler i en 3D-labyrint.

Fordi Unreal-roboten kan kontrollere pikslene og forutsi om handlinger vil gi belønninger, er den i stand til å lære 10 ganger raskere enn DeepMinds tidligere beste agent (A3C). Enda mer, den gir bedre ytelse enn den forrige mesteren også.

"Vi kan nå oppnå 87 prosent av ekspertens menneskelige ytelse i gjennomsnitt på tvers av labyrintnivåene vi vurderte, med supermenneskelig ytelse på en rekke av dem," sa selskapet. "På Atari oppnår agenten nå i gjennomsnitt 9x menneskelig ytelse."

DeepMind er håpefull at arbeidet som gikk inn i Unreal-boten vil gjøre teamet i stand til å skalere opp alle agentene/botene sine for å håndtere enda mer komplekse miljøer i nær fremtid. Inntil da, sjekk ut videoen som er innebygd ovenfor som viser AI som beveger seg gjennom labyrinter og griper epler på egen hånd uten menneskelig innblanding.

Redaktørenes anbefalinger

  • Sjakk. Fare. Gå. Hvorfor bruker vi spill som målestokk for A.I.?
  • Revisiting the rise of A.I.: Hvor langt har kunstig intelligens kommet siden 2010?
  • Googles DeepMind A.I. beseirer menneskelige motstandere i Quake III Capture the Flag

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.