DeepMind - Vahvistava oppiminen ohjaamattomilla aputehtävillä
Ensimmäinen lisätehtävä tekoälyoppimisen nopeuttamiseksi on kyky ymmärtää, miten näytön pikseleitä ohjataan. DeepMindin mukaan tämä menetelmä on samanlainen kuin kuinka vauva oppii hallitsemaan käsiään liikuttamalla niitä ja tarkkailemalla niitä. Tekoälyn tapauksessa botti ymmärtäisi visuaalisen syötteen ohjaamalla pikseleitä, mikä johtaisi parempiin tuloksiin.
Suositellut videot
"Ajattele vauvaa, joka oppii maksimoimaan havaitsemansa punaisen kumulatiivisen määrän. Optimaalisen arvon ennustamiseksi oikein vauvan on ymmärrettävä, kuinka "punoitusta" voidaan lisätä eri keinoin, mukaan lukien manipulointi (punaisen esineen tuominen lähemmäs silmiä); liikkuminen (liikkuminen punaisen esineen edessä); ja kommunikaatio (itku, kunnes vanhemmat tuovat punaisen esineen), DeepMindin paperi toteaa. "Nämä käytökset toistuvat todennäköisesti moniin muihin tavoitteisiin, joita vauva voi myöhemmin kohdata."
Liittyvät
- Tämä botti tuhoaa sinut Pictionaryssa. Se on myös valtava virstanpylväs A.I.
- Googlen DeepMind kouluttaa Waymon itseajavia autoja, kuten StarCraft II -botteja
- Google on löytänyt tavan käyttää A.I. tuulienergian hyödyllisyyden lisäämiseksi
Toisen lisätehtävän avulla AI koulutetaan ennustamaan välittömät palkinnot lyhyen aikaisempien toimien historian perusteella. Tämän mahdollistamiseksi tiimi toimitti yhtä paljon aiempia palkitsevia ja ei-palkitsevia historiatietoja. Lopputuloksena on, että tekoäly voi löytää visuaalisia ominaisuuksia, jotka todennäköisesti johtavat palkintoihin aiempaa nopeammin.
"Oppiakseen tehokkaammin agenttimme käyttävät kokemusten toistomekanismia tarjotakseen lisäpäivityksiä kriitikoille. Aivan kuten eläimet haaveilevat useammin positiivisesti tai negatiivisesti palkitsevista tapahtumista, agenttimme toistavat mieluiten jaksoja, jotka sisältävät palkitsevia tapahtumia”, lehti lisää.
Kun nämä kaksi aputehtävää on lisätty edelliseen A3C-agenttiin, tuloksena oleva uusi agentti/botti perustuu siihen, mitä tiimi kutsuu Unrealiksi (UN-supervised REinforcement and Auxiliary Learning). Joukkue istui käytännössä tämän botin 57 Atari-pelin ja erillisen pelin edessä Wolfenstein-kuin labyrinttipeli, joka koostuu 13 tasosta. Kaikissa skenaarioissa botille annettiin raaka RGB-lähtökuva, joka tarjosi sille suoran pääsyn pikseleihin 100 prosentin tarkkuudella. Unreal-botti palkittiin kautta linjan tehtävistä, kuten muukalaisten ampumisesta Space Invaders nappaamaan omenoita 3D-sokkelossa.
Koska Unreal-botti voi hallita pikseleitä ja ennustaa, tuottavatko toimet palkintoja, se pystyy oppimaan 10 kertaa nopeammin kuin DeepMindin edellinen paras agentti (A3C). Vielä enemmän, se tuottaa paremman suorituskyvyn kuin edellinen mestari myös.
"Voimme nyt saavuttaa 87 prosenttia asiantuntija-ihmissuorituskyvystä tarkastelemillamme Labyrinth-tasoilla, ja monilla niistä on yli-inhimillistä suorituskykyä", yhtiö sanoi. "Atarissa agentti saavuttaa nyt keskimäärin 9x ihmisen suorituskyvyn."
DeepMind on toiveikas että Unreal-bottiin tehty työ antaa tiimille mahdollisuuden laajentaa kaikkia agenttejaan/bottejaan käsittelemään entistä monimutkaisempia ympäristöjä lähitulevaisuudessa. Siihen asti katso yllä oleva video, joka näyttää tekoälyn liikkuvan labyrinttien läpi ja nappaavan omenoita itsestään ilman ihmisen väliintuloa.
Toimittajien suositukset
- Shakki. Vaara. Mennä. Miksi käytämme pelejä A.I: n vertailukohtana?
- Tarkastellaan uudelleen A.I: n nousua: Kuinka pitkälle tekoäly on edennyt vuoden 2010 jälkeen?
- Googlen DeepMind A.I. voittaa ihmisvastustajat Quake III Capture the Flag -pelissä
Päivitä elämäntapasiDigital Trends auttaa lukijoita pysymään tekniikan nopeatempoisessa maailmassa uusimpien uutisten, hauskojen tuotearvostelujen, oivaltavien toimitusten ja ainutlaatuisten kurkistusten avulla.