A DeepMind irreálissá válik egy új, gyorsan tanuló AI-ügynökkel

DeepMind – Megerősítő tanulás felügyelet nélküli segédfeladatokkal

A Google DeepMind ezen a héten kiadott egy tanulmányt Megerősítő tanulás felügyelet nélküli segédfeladatokkal, amely egy módszert ír le a mesterséges intelligencia tanulási sebességének és az ágensek – vagy botok – végső teljesítményének növelésére. Ez a módszer magában foglalja két fő további feladat hozzáadását, amelyeket az AI képzése közben kell végrehajtani, és a szabványos mélységre épít megerősítő tanulási alap, amely alapvetően egy próba-szerencse jutalmazási/büntetési módszer, ahol az AI tanul hibákat.

Az AI-tanulás felgyorsítása érdekében az első hozzáadott feladat az, hogy megértsük, hogyan kell vezérelni a képpontokat a képernyőn. A DeepMind szerint ez a módszer hasonlít ahhoz, ahogy a baba megtanulja irányítani a kezeit azáltal, hogy mozgatja és figyeli ezeket a mozdulatokat. Az AI esetében a bot a pixelek vezérlésével megértené a vizuális bemenetet, így jobb pontszámokat kapna.

Ajánlott videók

„Vegyünk egy babát, aki megtanulja maximalizálni az általa megfigyelt vörös halmozott mennyiségét. Az optimális érték helyes megjósolásához a csecsemőnek meg kell értenie, hogyan növelheti a „vörösséget” különféle eszközökkel, beleértve a manipulációt is (a vörös tárgyat közelebb hozni a szeméhez); mozgás (piros tárgy előtti mozgás); és a kommunikáció (sírás, amíg a szülők nem hoznak egy piros tárgyat)” ​​– áll a DeepMind közleményében. "Ezek a viselkedések valószínűleg megismétlődnek sok más cél érdekében, amelyekkel a baba később találkozhat."

Összefüggő

  • Ez a bot elpusztít téged a Pictionarynál. Ez is óriási mérföldkő az A.I.
  • A Google DeepMindje a Waymo önvezető autóit, például a StarCraft II robotokat képezi ki
  • A Google megtalálta a módját az A.I. a szélenergia hasznosságának növelése érdekében

A második hozzáadott feladat arra szolgál, hogy megtanítsa a mesterséges intelligenciát, hogy megjósolja, mi lesz az azonnali jutalma a korábbi tevékenységek rövid története alapján. Ennek lehetővé tétele érdekében a csapat azonos mennyiségű korábbi jutalmazó és nem jutalmazó előzményeket közölt. A végeredmény az, hogy a mesterséges intelligencia olyan vizuális funkciókat fedezhet fel, amelyek valószínűleg gyorsabban vezetnek jutalmakhoz, mint korábban.

„A hatékonyabb tanulás érdekében ügynökeink tapasztalat-visszajátszási mechanizmust használnak, hogy további frissítéseket biztosítsanak a kritikusoknak. Ahogy az állatok gyakrabban álmodnak pozitív vagy negatív jutalmazó eseményekről, ügynökeink előszeretettel játsszák vissza a jutalmazó eseményeket tartalmazó sorozatokat” – teszi hozzá a lap.

Ezzel a két segédfeladattal az előző A3C-ügynökhöz hozzáadva a létrejövő új ügynök/bot azon alapul, amit a csapat Unreal-nak nevez (UN-supervised REinforcement and Auxiliary Learning). A csapat gyakorlatilag ezt a botot ült 57 Atari játék előtt és egy külön Wolfenstein-szerű labirintus játék, amely 13 szintből áll. A bot minden esetben megkapta a nyers RGB kimeneti képet, amely 100 százalékos pontosság érdekében közvetlen hozzáférést biztosít a pixelekhez. Az Unreal botot mindenütt jutalmazták olyan feladatokért, mint például az idegenek lelövése Űrbéli megszállók almát ragadni egy 3D-s labirintusban.

Mivel az Unreal bot képes irányítani a képpontokat, és megjósolni, hogy az akciók hoznak-e jutalmat, tízszer gyorsabban tud tanulni, mint a DeepMind korábbi legjobb ügynöke (A3C). Sőt, jobb teljesítményt produkál, mint az előző bajnok.

"Most a szakértő emberi teljesítmény 87 százalékát tudjuk elérni az általunk vizsgált labirintusszintek átlagában, és számos esetben emberfeletti teljesítményt is elérhetünk" - mondta a vállalat. „Az Atari-n az ügynök átlagosan kilencszeres emberi teljesítményt ér el.”

A DeepMind bizakodó hogy az Unreal bottal végzett munka lehetővé teszi a csapat számára, hogy a közeljövőben az összes ügynökét/botját bővítse a még bonyolultabb környezetek kezelésére. Addig is nézze meg a fent beágyazott videót, amely azt mutatja be, hogy a mesterséges intelligencia labirintusokon halad keresztül, és emberi beavatkozás nélkül magához ragadja az almát.

Szerkesztői ajánlások

  • Sakk. Veszély. Megy. Miért használunk játékokat az A.I. mércéjeként?
  • Újragondolva az A.I. térnyerését: Meddig jutott a mesterséges intelligencia 2010 óta?
  • A Google DeepMind A.I. legyőzi az emberi ellenfeleket a Quake III Capture the Flag játékban

Frissítse életmódjátA Digital Trends segítségével az olvasók nyomon követhetik a technológia rohanó világát a legfrissebb hírekkel, szórakoztató termékismertetőkkel, éleslátó szerkesztőségekkel és egyedülálló betekintésekkel.