DeepMind staje się nierealny dzięki nowemu, szybko uczącemu się agentowi AI

DeepMind — uczenie się ze wzmocnieniem przy pomocy zadań pomocniczych bez nadzoru

W tym tygodniu firma DeepMind firmy Google opublikowała artykuł zatytułowany Uczenie się ze wzmocnieniem za pomocą zadań pomocniczych bez nadzoru, który opisuje metodę zwiększania szybkości uczenia się sztucznej inteligencji i końcowej wydajności agentów – lub botów. Ta metoda obejmuje dodanie dwóch głównych dodatkowych zadań do wykonania podczas szkolenia sztucznej inteligencji i opiera się na standardowej głębokości podstawa uczenia się przez wzmacnianie, która jest w zasadzie metodą prób i błędów nagradzania/kary, w ramach której sztuczna inteligencja uczy się na swoich błędy.

Pierwszym dodanym zadaniem przyspieszającym uczenie się sztucznej inteligencji jest umiejętność zrozumienia, jak kontrolować piksele na ekranie. Według DeepMind metoda ta przypomina sposób, w jaki dziecko uczy się kontrolować swoje ręce, poruszając nimi i obserwując te ruchy. W przypadku sztucznej inteligencji bot rozumiałby informacje wizualne, kontrolując piksele, co prowadziłoby do lepszych wyników.

Polecane filmy

„Wyobraźmy sobie dziecko, które uczy się maksymalizować skumulowaną ilość zaobserwowanej czerwieni. Aby prawidłowo przewidzieć optymalną wartość, dziecko musi wiedzieć, jak zwiększyć „zaczerwienienie” różnymi sposobami, w tym manipulacją (zbliżaniem czerwonego przedmiotu do oczu); lokomocja (poruszanie się przed czerwonym przedmiotem); i komunikacja (płacz, dopóki rodzice nie przyniosą czerwonego przedmiotu)” – czytamy w artykule DeepMind. „Te zachowania prawdopodobnie będą się powtarzać w związku z wieloma innymi celami, które dziecko może później osiągnąć”.

Powiązany

  • Ten bot zniszczy Cię w Pictionary. To także kamień milowy dla AI.
  • DeepMind firmy Google szkoli autonomiczne samochody Waymo, takie jak boty StarCraft II
  • Google znalazło sposób na wykorzystanie sztucznej inteligencji zwiększyć użyteczność energii wiatrowej

Drugie dodane zadanie służy do szkolenia sztucznej inteligencji w zakresie przewidywania natychmiastowych nagród na podstawie krótkiej historii wcześniejszych działań. Aby to umożliwić, zespół przedstawił równą liczbę poprzednich historii satysfakcjonujących i nieprzynoszących satysfakcji. Efektem końcowym jest to, że sztuczna inteligencja może odkryć cechy wizualne, które prawdopodobnie doprowadzą do nagród szybciej niż wcześniej.

„Aby uczyć się efektywniej, nasi agenci korzystają z mechanizmu powtarzania doświadczeń, aby dostarczać krytykom dodatkowe aktualizacje. Tak jak zwierzęta częściej śnią o wydarzeniach nagradzających pozytywnie lub negatywnie, tak nasi agenci preferują odtwarzanie sekwencji zawierających zdarzenia nagradzające” – dodaje gazeta.

Po dodaniu tych dwóch zadań pomocniczych do poprzedniego agenta A3C, powstały nowy agent/bot jest oparty na tym, co zespół nazywa Unreal (UNsupervised REinforcement and Auxiliary Learning). Zespół wirtualnie posadził tego bota przed 57 grami na Atari i jedną Wolfensteina-jak gra labiryntowa składająca się z 13 poziomów. We wszystkich scenariuszach bot otrzymywał surowy obraz wyjściowy RGB, zapewniając mu bezpośredni dostęp do pikseli w celu uzyskania 100% dokładności. Bot Unreal był powszechnie nagradzany za zadania takie jak zestrzeliwanie kosmitów Kosmiczni najeźdźcy do łapania jabłek w labiryncie 3D.

Ponieważ bot Unreal może kontrolować piksele i przewidywać, czy działania przyniosą nagrody, jest w stanie uczyć się 10 razy szybciej niż poprzedni najlepszy agent DeepMind (A3C). Co więcej, zapewnia również lepszą wydajność niż poprzedni mistrz.

„Możemy teraz osiągnąć 87 procent eksperckiej wydajności ludzkiej, uśrednionej na wszystkich poziomach Labiryntu, które rozważaliśmy, a na wielu z nich osiągamy nadludzką wydajność” – stwierdziła firma. „Na Atari agent osiąga teraz średnio 9-krotność wydajności człowieka.”

DeepMind jest pełen nadziei że praca włożona w bota Unreal umożliwi zespołowi zwiększenie skali wszystkich agentów/botów, aby w najbliższej przyszłości radzili sobie z jeszcze bardziej złożonymi środowiskami. Do tego czasu obejrzyj zamieszczony powyżej film przedstawiający sztuczną inteligencję poruszającą się po labiryntach i samodzielnie chwytającą jabłka, bez żadnej interwencji człowieka.

Zalecenia redaktorów

  • Szachy. Niebezpieczeństwo. Iść. Dlaczego używamy gier jako punktu odniesienia dla sztucznej inteligencji?
  • Wracając do rozwoju sztucznej inteligencji: jak daleko zaszła sztuczna inteligencja od 2010 roku?
  • Google DeepMind A.I. pokonuje ludzkich przeciwników w Quake III Capture the Flag

Ulepsz swój styl życiaDigital Trends pomaga czytelnikom śledzić szybko rozwijający się świat technologii dzięki najnowszym wiadomościom, zabawnym recenzjom produktów, wnikliwym artykułom redakcyjnym i jedynym w swoim rodzaju zajawkom.