DeepMind blir overkligt med en ny, snabblärande AI-agent

DeepMind - förstärkande lärande med oövervakade hjälpuppgifter

Googles DeepMind släpper en tidning denna vecka som heter Förstärkningsinlärning med oövervakade hjälpuppgifter, som beskriver en metod för att öka inlärningshastigheten för artificiell intelligens och den slutliga prestandan hos agenter – eller botar. Denna metod inkluderar att lägga till två huvudsakliga ytterligare uppgifter att utföra medan AI tränar, och bygger på standarddjupet reinforcement learning foundation, som i grunden är en trial-and-error belöning/straffmetod där AI lär sig av sin misstag.

Den första extra uppgiften för att påskynda AI-inlärningen är förmågan att förstå hur man kontrollerar pixlarna på skärmen. Enligt DeepMind liknar denna metod hur en baby lär sig att kontrollera sina händer genom att röra dem och titta på dessa rörelser. När det gäller AI skulle boten förstå visuell input genom att kontrollera pixlarna, vilket leder till bättre poäng.

Rekommenderade videor

"Tänk på en bebis som lär sig att maximera den ackumulerade mängden rött som den observerar. För att korrekt förutsäga det optimala värdet måste barnet förstå hur man ökar "rodnad" på olika sätt, inklusive manipulation (att föra ett rött föremål närmare ögonen); förflyttning (röra sig framför ett rött föremål); och kommunikation (gråter tills föräldrarna har med sig ett rött föremål), säger DeepMinds tidning. "Dessa beteenden kommer sannolikt att återkomma för många andra mål som barnet senare kan möta."

Relaterad

  • Denna bot kommer att förstöra dig på Pictionary. Det är också en stor milstolpe för A.I.
  • Googles DeepMind tränar Waymos självkörande bilar som StarCraft II-bots
  • Google har hittat ett sätt att använda A.I. för att öka användbarheten av vindenergi

Den andra tillagda uppgiften används för att träna AI: n att förutsäga vad de omedelbara utmärkelserna kommer att vara baserat på en kort historik över tidigare åtgärder. För att möjliggöra detta tillhandahöll teamet lika många tidigare givande och icke-belönande historier. Slutresultatet är att AI kan upptäcka visuella funktioner som sannolikt kommer att leda till belöningar snabbare än tidigare.

"För att lära sig mer effektivt använder våra agenter en uppspelningsmekanism för att ge ytterligare uppdateringar till kritikerna. Precis som djur oftare drömmer om positivt eller negativt givande händelser, spelar våra agenter företräde upp sekvenser som innehåller givande händelser", tillägger tidningen.

Med dessa två hjälpuppgifter tillagda till den tidigare A3C-agenten, är den resulterande nya agenten/boten baserad på vad teamet kallar Unreal (UNsupervised REinforcement and Auxiliary Learning). Laget satt praktiskt taget denna bot framför 57 Atari-matcher och en separat Wolfenstein-liknande labyrintspel som består av 13 nivåer. I alla scenarier fick boten den råa RGB-utdatabilden, vilket gav den direkt tillgång till pixlarna för 100 procents noggrannhet. Unreal-boten belönades över hela linjen för uppgifter som att skjuta ner utomjordingar Space Invaders att ta äpplen i en 3D-labyrint.

Eftersom Unreal-boten kan kontrollera pixlarna och förutsäga om åtgärder kommer att ge belöningar, kan den lära sig 10 gånger snabbare än DeepMinds tidigare bästa agent (A3C). Ännu mer, det ger bättre prestanda än den tidigare mästaren också.

"Vi kan nu uppnå 87 procent av experternas mänskliga prestanda i genomsnitt över de labyrintnivåer vi övervägde, med övermänsklig prestation på ett antal av dem," sa företaget. "På Atari uppnår agenten nu i genomsnitt 9x mänsklig prestation."

DeepMind är hoppfull att arbetet som gick in i Unreal-boten kommer att göra det möjligt för teamet att skala upp alla sina agenter/botar för att hantera ännu mer komplexa miljöer inom en snar framtid. Tills dess, kolla in videon som är inbäddad ovan som visar AI: n som rör sig genom labyrinter och tar tag i äpplen på egen hand utan mänsklig inblandning.

Redaktörens rekommendationer

  • Schack. Jeopardy. Gå. Varför använder vi spel som ett riktmärke för A.I.?
  • Återbesök till uppkomsten av A.I.: Hur långt har artificiell intelligens kommit sedan 2010?
  • Googles DeepMind A.I. besegrar mänskliga motståndare i Quake III Capture the Flag

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.