DeepMind, 새로운 빠르게 학습하는 AI 에이전트로 Unreal을 구현하다

click fraud protection

DeepMind - 비지도 보조 작업을 통한 강화 학습

Google의 DeepMind는 이번 주에 다음과 같은 논문을 발표했습니다. 비지도 보조 작업을 통한 강화 학습에서는 인공 지능의 학습 속도와 에이전트, 즉 봇의 최종 성능을 높이는 방법을 설명합니다. 이 방법에는 AI가 훈련하는 동안 수행할 두 가지 주요 추가 작업을 추가하는 것이 포함되며 표준 딥을 기반으로 구축됩니다. 강화학습 기반은 기본적으로 AI가 학습하는 시행착오 보상/처벌 방법입니다. 실수.

AI 학습 속도를 높이기 위해 첫 번째로 추가된 작업은 화면의 픽셀을 제어하는 ​​방법을 이해하는 능력입니다. DeepMind에 따르면 이 방법은 아기가 손을 움직이고 그 움직임을 지켜보면서 손을 제어하는 ​​법을 배우는 것과 유사합니다. AI의 경우 봇은 픽셀을 제어하여 시각적 입력을 이해하므로 더 나은 점수를 얻을 수 있습니다.

추천 동영상

“관찰하는 빨간색의 누적량을 최대화하는 방법을 배우는 아기를 생각해 보세요. 최적의 값을 정확하게 예측하려면 아기는 조작(빨간색 물체를 눈에 더 가까이 가져가기)을 포함한 다양한 방법으로 '붉은색'을 높이는 방법을 이해해야 합니다. 운동(빨간색 물체 앞으로 이동); 그리고 의사소통(부모가 빨간색 물건을 가져올 때까지 울음)”이라고 DeepMind의 논문은 말합니다. "이러한 행동은 아기가 나중에 직면할 수 있는 다른 많은 목표를 위해 반복될 가능성이 높습니다."

관련된

  • 이 봇은 Pictionary에서 당신을 파괴할 것입니다. 이는 AI에게도 큰 이정표다.
  • Google의 DeepMind는 StarCraft II 봇과 같은 Waymo의 자율주행차를 훈련시키고 있습니다.
  • Google은 AI를 사용하는 방법을 찾았습니다. 풍력 에너지의 유용성을 높이기 위해

두 번째 추가 작업은 이전 작업의 간략한 기록을 기반으로 즉각적인 보상이 무엇인지 예측하도록 AI를 훈련하는 데 사용됩니다. 이를 가능하게 하기 위해 팀은 이전의 보상 이력과 비보상 이력을 동일한 양으로 제공했습니다. 최종 결과는 AI가 이전보다 더 빠르게 보상으로 이어질 수 있는 시각적 특징을 발견할 수 있다는 것입니다.

“보다 효율적으로 학습하기 위해 상담원은 경험 재생 메커니즘을 사용하여 비평가에게 추가 업데이트를 제공합니다. 동물들이 긍정적이거나 부정적인 보상 이벤트를 더 자주 꿈꾸는 것처럼 우리 에이전트는 보상 이벤트가 포함된 시퀀스를 우선적으로 재생합니다.”라고 덧붙였습니다.

이전 A3C 에이전트에 이 두 가지 보조 작업을 추가하면 결과적으로 새로운 에이전트/봇은 팀이 Unreal(UNsupervised REinforcement and Auxiliary Learning)이라고 부르는 것을 기반으로 합니다. 팀은 가상으로 이 봇을 57개의 Atari 게임과 별도의 게임 앞에 앉혔습니다. 울펜슈타인- 13개의 레벨로 구성된 미로 같은 게임입니다. 모든 시나리오에서 봇에는 원시 RGB 출력 이미지가 제공되어 100% 정확도로 픽셀에 직접 액세스할 수 있었습니다. Unreal 봇은 외계인 격추와 같은 작업에 대해 전반적으로 보상을 받았습니다. 우주 침략군들 3D 미로에서 사과를 잡는 것입니다.

Unreal 봇은 픽셀을 제어하고 행동이 보상을 생성할지 예측할 수 있기 때문에 DeepMind의 이전 최고 에이전트(A3C)보다 10배 더 빠르게 학습할 수 있습니다. 게다가 이전 챔피언보다 더 좋은 성능을 보여주기도 합니다.

“이제 우리는 우리가 고려한 Labyrinth 수준 전체에서 평균 전문가 인간 성과의 87%를 달성할 수 있으며, 여러 수준에서 초인적 성과를 달성할 수 있습니다.”라고 회사는 말했습니다. "Atari에서 에이전트는 이제 평균 9배의 인간 성능을 달성합니다."

딥마인드는 희망적이다 Unreal 봇에 투입된 작업을 통해 팀은 가까운 미래에 훨씬 더 복잡한 환경을 처리할 수 있도록 모든 에이전트/봇을 확장할 수 있을 것입니다. 그때까지는 AI가 인간의 개입 없이 미로를 통과하고 스스로 사과를 잡는 모습을 보여주는 위에 포함된 비디오를 확인하세요.

편집자의 추천

  • 체스. 위험. 가다. 왜 우리는 게임을 AI의 벤치마크로 사용합니까?
  • AI의 부상 재검토: 2010년 이후 인공지능은 어디까지 발전했나요?
  • 구글의 딥마인드 A.I. Quake III Capture the Flag에서 인간 적을 물리쳤습니다.

당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.