„DeepMind“ tampa nerealu, naudodamas naują, greitai besimokantį AI agentą

„DeepMind“ – sustiprinamas mokymasis su neprižiūrimomis pagalbinėmis užduotimis

„Google DeepMind“ šią savaitę išleido dokumentą, pavadintą Mokymosi sustiprinimas su neprižiūrimomis pagalbinėmis užduotimis, kuriame aprašomas metodas, skirtas padidinti dirbtinio intelekto mokymosi greitį ir galutinį agentų arba robotų veikimą. Šis metodas apima dviejų pagrindinių papildomų užduočių, kurias reikia atlikti, kol AI treniruojasi, pridėjimą ir remiasi standartiniu giluminiu sustiprinimo mokymosi pagrindas, kuris iš esmės yra bandymų ir klaidų apdovanojimo / bausmės metodas, kai AI mokosi iš savo klaidų.

Pirmoji papildoma užduotis, skirta pagreitinti AI mokymąsi, yra galimybė suprasti, kaip valdyti ekrano pikselius. „DeepMind“ teigimu, šis metodas panašus į tai, kaip kūdikis mokosi valdyti savo rankas jas judindamas ir stebėdamas tuos judesius. AI atveju robotas suprastų vaizdinę įvestį valdydamas pikselius ir taip gautų geresnius balus.

Rekomenduojami vaizdo įrašai

„Apsvarstykite kūdikį, kuris išmoksta maksimaliai padidinti bendrą raudonos spalvos kiekį, kurį pastebi. Norėdami teisingai numatyti optimalią vertę, kūdikis turi suprasti, kaip įvairiomis priemonėmis, įskaitant manipuliavimą (raudoną objektą priartinti prie akių), padidinti "paraudimą"; judėjimas (judėjimas priešais raudoną objektą); ir bendravimas (verkimas, kol tėvai atneša raudoną daiktą)“, – teigiama DeepMind dokumente. „Tikėtina, kad toks elgesys pasikartos siekiant daugelio kitų tikslų, su kuriais vėliau gali susidurti kūdikis.

Susijęs

  • Šis robotas sunaikins jus „Pictionary“. Tai taip pat didžiulis įvykis A.I.
  • Google DeepMind treniruoja Waymo savarankiškai važiuojančius automobilius, tokius kaip StarCraft II robotai
  • „Google“ rado būdą, kaip panaudoti A.I. padidinti vėjo energijos naudingumą

Antroji papildoma užduotis naudojama mokyti AI numatyti, kokie bus tiesioginiai apdovanojimai, remiantis trumpa ankstesnių veiksmų istorija. Kad tai būtų įmanoma, komanda pateikė vienodus ankstesnių naudingų ir neapdovanojamų istorijų kiekius. Galutinis rezultatas yra tai, kad AI gali atrasti vaizdinių funkcijų, kurios greičiausiai atneš atlygį greičiau nei anksčiau.

„Siekdami mokytis efektyviau, mūsų agentai naudoja patirties atkūrimo mechanizmą, kad kritikams pateiktų papildomų naujinių. Kaip gyvūnai dažniau svajoja apie teigiamus ar neigiamus įvykius, mūsų agentai pirmiausia atkuria sekas, kuriose yra naudingų įvykių“, – priduriama straipsnyje.

Prie ankstesnio A3C agento pridėjus šias dvi pagalbines užduotis, gautas naujas agentas / robotas yra pagrįstas tuo, ką komanda vadina Unreal (neprižiūrimas sustiprinimas ir pagalbinis mokymasis). Komanda praktiškai sėdėjo prie šio roboto prieš 57 „Atari“ žaidimus ir atskirą Volfenšteinas- panašus į labirintą, susidedantis iš 13 lygių. Visais atvejais robotui buvo suteiktas neapdorotas RGB išvesties vaizdas, suteikiantis jam tiesioginę prieigą prie pikselių, kad būtų užtikrintas 100 procentų tikslumas. „Unreal“ robotas buvo apdovanotas už tokias užduotis kaip ateivių numušimas Puolikai iš kosmoso patraukti obuolius 3D labirinte.

Kadangi „Unreal“ robotas gali valdyti pikselius ir numatyti, ar veiksmai duos atlygį, jis gali mokytis 10 kartų greičiau nei ankstesnis „DeepMind“ geriausias agentas (A3C). Dar daugiau, jis sukuria geresnius rezultatus nei ankstesnis čempionas.

„Dabar galime pasiekti 87 procentus ekspertų žmogaus veiklos, skaičiuojant pagal mūsų svarstomus Labyrinth lygius, o kai kuriuose iš jų – superžmogiškos veiklos“, – teigė bendrovė. „Atari“ agentas dabar pasiekia vidutiniškai 9 kartus didesnį žmogaus našumą.

DeepMind yra viltingas kad darbas, atliktas su „Unreal“ robotu, leis komandai išplėsti visus savo agentus / robotus, kad artimiausiu metu galėtų dirbti su dar sudėtingesnėmis aplinkomis. Iki tol žiūrėkite aukščiau įdėtą vaizdo įrašą, kuriame parodyta, kaip dirbtinis intelektas juda labirintais ir pats griebia obuolius be jokio žmogaus įsikišimo.

Redaktorių rekomendacijos

  • Šachmatai. Pavojus. Eik. Kodėl mes naudojame žaidimus kaip AI etaloną?
  • Peržiūrėjimas apie A.I. kilimą: kiek dirbtinis intelektas nuėjo nuo 2010 m.?
  • Google DeepMind A.I. nugali žmonių priešininkus „Quake III“ „Paimk vėliavą“.

Atnaujinkite savo gyvenimo būdąSkaitmeninės tendencijos padeda skaitytojams stebėti sparčiai besivystantį technologijų pasaulį – pateikiamos visos naujausios naujienos, smagios produktų apžvalgos, įžvalgūs vedamieji leidiniai ir unikalūs žvilgsniai.