DeepMind - Versterkend leren met hulptaken zonder toezicht
De eerste toegevoegde taak voor het versnellen van AI-leren is het vermogen om te begrijpen hoe de pixels op het scherm moeten worden bestuurd. Volgens DeepMind is deze methode vergelijkbaar met hoe een baby zijn/haar handen leert beheersen door ze te bewegen en naar die bewegingen te kijken. In het geval van AI zou de bot visuele input begrijpen door de pixels te controleren, wat tot betere scores zou leiden.
Aanbevolen video's
“Denk aan een baby die leert de cumulatieve hoeveelheid rood die hij waarneemt te maximaliseren. Om de optimale waarde correct te voorspellen, moet de baby begrijpen hoe hij de ‘roodheid’ op verschillende manieren kan vergroten, waaronder manipulatie (een rood voorwerp dichter bij de ogen brengen); voortbeweging (voor een rood voorwerp bewegen); en communicatie (huilen totdat de ouders een rood voorwerp meebrengen)”, aldus het artikel van DeepMind. "Dit gedrag zal zich waarschijnlijk herhalen voor veel andere doelen waarmee de baby later te maken kan krijgen."
Verwant
- Deze bot zal je vernietigen bij Pictionary. Het is ook een enorme mijlpaal voor A.I.
- Google’s DeepMind traint Waymo’s zelfrijdende auto’s als StarCraft II-bots
- Google heeft een manier gevonden om AI te gebruiken. om het nut van windenergie te vergroten
De tweede toegevoegde taak wordt gebruikt om de AI te trainen om te voorspellen wat de onmiddellijke beloningen zullen zijn, op basis van een korte geschiedenis van eerdere acties. Om dit mogelijk te maken, heeft het team gelijke hoeveelheden eerdere lonende en niet-lonende geschiedenissen aangeleverd. Het eindresultaat is dat de AI visuele kenmerken kan ontdekken die waarschijnlijk sneller dan voorheen tot beloningen zullen leiden.
“Om efficiënter te leren, gebruiken onze agenten een mechanisme voor het opnieuw afspelen van ervaringen om de critici extra updates te geven. Net zoals dieren vaker dromen over positief of negatief belonende gebeurtenissen, herhalen onze agenten bij voorkeur reeksen met belonende gebeurtenissen”, voegt de krant eraan toe.
Met deze twee hulptaken toegevoegd aan de vorige A3C-agent, is de resulterende nieuwe agent/bot gebaseerd op wat het team Unreal noemt (UNsupervised REinforcement en Auxiliary Learning). Het team zette deze bot virtueel voor 57 Atari-games en een aparte Wolfenstein-achtig labyrintspel bestaande uit 13 niveaus. In alle scenario's kreeg de bot de onbewerkte RGB-uitvoerafbeelding, waardoor deze directe toegang kreeg tot de pixels voor 100 procent nauwkeurigheid. De Unreal-bot werd over de hele linie beloond voor taken zoals het neerschieten van buitenaardse wezens Ruimte-indringers tot appels pakken in een 3D-doolhof.
Omdat de Unreal-bot de pixels kan controleren en kan voorspellen of acties beloningen opleveren, kan hij 10 keer sneller leren dan de vorige beste agent van DeepMind (A3C). Sterker nog, hij levert betere prestaties dan de vorige kampioen.
“We kunnen nu gemiddeld 87 procent van de deskundige menselijke prestaties behalen over de Labyrinth-niveaus die we hebben overwogen, met bovenmenselijke prestaties op een aantal ervan”, aldus het bedrijf. “Op Atari presteert de agent nu gemiddeld 9x menselijke prestaties.”
DeepMind is hoopvol dat het werk dat in de Unreal-bot is gestoken het team in staat zal stellen al zijn agenten/bots op te schalen om in de nabije toekomst nog complexere omgevingen aan te kunnen. Bekijk tot die tijd de video die hierboven is ingesloten en laat zien hoe de AI door labyrinten beweegt en zelfstandig appels pakt, zonder enige menselijke tussenkomst.
Aanbevelingen van de redactie
- Schaken. Gevaar. Gaan. Waarom gebruiken we games als maatstaf voor AI?
- Opnieuw kijken naar de opkomst van AI: hoe ver is kunstmatige intelligentie gekomen sinds 2010?
- Google’s DeepMind A.I. verslaat menselijke tegenstanders in Quake III Capture the Flag
Upgrade uw levensstijlMet Digital Trends kunnen lezers de snelle technische wereld in de gaten houden met het laatste nieuws, leuke productrecensies, inzichtelijke redactionele artikelen en unieke sneak peeks.