DeepMind - Forstærkende læring med uovervågede hjælpeopgaver
Den første tilføjede opgave til at fremskynde AI-indlæring er evnen til at forstå, hvordan man kontrollerer pixels på skærmen. Ifølge DeepMind ligner denne metode, hvordan en baby lærer at kontrollere sine hænder ved at bevæge dem og se disse bevægelser. I tilfælde af AI ville botten forstå visuel input ved at kontrollere pixels, hvilket fører til bedre score.
Anbefalede videoer
"Overvej en baby, der lærer at maksimere den kumulative mængde rødt, som den observerer. For korrekt at forudsige den optimale værdi skal babyen forstå, hvordan man øger 'rødme' på forskellige måder, herunder manipulation (bringer en rød genstand tættere på øjnene); bevægelse (bevæger sig foran en rød genstand); og kommunikation (græder, indtil forældrene kommer med en rød genstand),« står der i DeepMinds papir. "Denne adfærd vil sandsynligvis gentage sig for mange andre mål, som babyen efterfølgende kan støde på."
Relaterede
- Denne bot vil ødelægge dig på Pictionary. Det er også en stor milepæl for A.I.
- Googles DeepMind træner Waymos selvkørende biler som StarCraft II-bots
- Google har fundet en måde at bruge A.I. at øge nytten af vindenergi
Den anden tilføjede opgave bruges til at træne AI til at forudsige, hvad de øjeblikkelige priser vil være baseret på en kort historie om tidligere handlinger. For at muliggøre dette leverede holdet lige store mængder af tidligere givende og ikke-belønnende historier. Slutresultatet er, at AI kan opdage visuelle funktioner, der sandsynligvis vil føre til belønninger hurtigere end før.
"For at lære mere effektivt bruger vores agenter en oplevelsesgenafspilningsmekanisme til at give yderligere opdateringer til kritikerne. Ligesom dyr oftere drømmer om positivt eller negativt givende begivenheder, afspiller vores agenter fortrinsvis sekvenser, der indeholder belønnende begivenheder," tilføjer avisen.
Med disse to hjælpeopgaver tilføjet til den tidligere A3C-agent, er den resulterende nye agent/bot baseret på, hvad holdet kalder Unreal (UNsupervised REinforcement and Auxiliary Learning). Holdet sad praktisk talt denne bot foran 57 Atari-spil og en separat Wolfenstein-lignende labyrint spil bestående af 13 niveauer. I alle scenarier fik botten det rå RGB-outputbillede, hvilket gav den direkte adgang til pixels med 100 procent nøjagtighed. Den Unreal-bot blev belønnet over hele linjen for opgaver som at skyde rumvæsener ned Space invaders at gribe æbler i en 3D-labyrint.
Fordi Unreal-bot kan kontrollere pixels og forudsige, om handlinger vil give belønninger, er den i stand til at lære 10 gange hurtigere end DeepMinds tidligere bedste agent (A3C). Endnu mere, det producerer også bedre præstationer end den tidligere mester.
"Vi kan nu opnå 87 procent af eksperternes menneskelige ydeevne i gennemsnit på tværs af de labyrintniveauer, vi overvejede, med supermenneskelig ydeevne på en række af dem," sagde virksomheden. "På Atari opnår agenten nu i gennemsnit 9x menneskelig præstation."
DeepMind er håbefuld at det arbejde, der gik ind i Unreal-bot, vil gøre det muligt for teamet at opskalere alle sine agenter/bots til at håndtere endnu mere komplekse miljøer i den nærmeste fremtid. Indtil da, tjek videoen indlejret ovenfor, der viser AI, der bevæger sig gennem labyrinter og griber æbler på egen hånd uden nogen menneskelig indgriben.
Redaktørens anbefalinger
- Skak. Fare. Gå. Hvorfor bruger vi spil som benchmark for A.I.?
- Gensyn med fremkomsten af A.I.: Hvor langt er kunstig intelligens kommet siden 2010?
- Googles DeepMind A.I. besejrer menneskelige modstandere i Quake III Capture the Flag
Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.