월트 디즈니의 그 장면을 기억하시나요? 밤비 이름이 붙은 새끼 사슴이 자신의 힘으로 일어 서서 걷는 법을 배우는 곳은 어디입니까? 돼지부터 기린, 예, 사슴에 이르기까지 많은 아기 동물들이 태어난 지 몇 분 안에 습득하는 기술을 보여주는 영화 속의 매력적인 장면입니다. 생후 처음 몇 시간 동안 이 동물들은 자신의 운동 능력을 완전히 제어할 수 있을 때까지 운동 능력을 빠르게 향상시킵니다. 7개월쯤 되면 물건을 붙잡고 서 있는 법을 배우고 15개월쯤 되면 걷기 시작하는 인간은 그에 비하면 절망적일 정도로 둔하다.
내용물
- 긍정적 강화
- 더 나은 로봇 만들기
로봇이 우리를 능가한 최근 작업이 무엇인지 추측해 보세요. 새로운 연구에서 Google 연구진이 수행한, 엔지니어들은 네 발 달린 Minitaur 로봇이 지나갈 수 있도록 가르쳤지만 실제로는 전혀 가르칠 필요가 없습니다. 오히려 그들은 일종의 목표 지향적 인공 지능을 사용하여 네발 달린 로봇을 만들었습니다. 앞으로 걷는 법을 배워라, 후진, 좌회전, 우회전은 완전히 스스로 할 수 있습니다. 평평한 땅, 부드러운 매트리스, 틈새가 있는 현관 매트 등 세 가지 다른 지형에서 이를 수행하도록 성공적으로 스스로 학습할 수 있었습니다.
추천 동영상
“다리가 있는 로봇은 비포장 도로와 인간을 위해 설계된 장소를 탐색하는 데 다리가 필수적이기 때문에 뛰어난 이동성을 가질 수 있습니다.” 지에 탄프로젝트의 수석 조사관이자 Google의 이동 노력 책임자인 는 Digital Trends에 말했습니다. “우리는 다리가 있는 로봇이 다양하고 복잡한 실제 환경을 탐색할 수 있도록 하는 데 관심이 있습니다. 그러나 이러한 다양성과 효율성을 처리할 수 있는 로봇 컨트롤러를 수동으로 엔지니어링하는 것은 어렵습니다. 복잡성. 그러므로 로봇이 스스로 학습할 수 있는 것이 중요합니다. 이 작업은 우리 시스템을 통해 다리가 있는 로봇이 스스로 걷는 법을 성공적으로 배울 수 있다는 초기 시연이기 때문에 매우 흥미롭습니다.”
긍정적 강화
최소한의 인간 노력으로 현실 세계에서 걷는 법 배우기
이 특정 프로젝트의 근간이 되는 기술은 심층 강화 학습이라고 불리는 것입니다. 행동주의 심리학과 시행착오에서 영감을 받은 딥 러닝에 대한 구체적인 접근 방식 학습. 특정 보상을 최대화하라는 지시를 받은 소프트웨어 에이전트는 가능한 가장 정확하고 효율적인 방법으로 해당 결과를 달성할 환경에서 조치를 취하는 방법을 배웁니다. 강화학습의 위력은 2013년에 시연된 것으로 유명함 Google의 DeepMind가 AI를 어떻게 훈련했는지 보여주는 논문을 발표했을 때. 고전적인 Atari 비디오 게임을 즐기기 위해. 이는 화면상의 점수와 재생 중인 비디오 게임의 각 프레임을 구성하는 약 30,000픽셀 외에 다른 지시 없이 달성되었습니다.
비디오 게임이나 적어도 시뮬레이션은 로봇공학 연구자들도 자주 사용합니다. 시뮬레이션은 로봇공학자가 실제 세계로 나가기 전에 가상 세계에서 기계를 훈련할 수 있게 해주기 때문에 이론상으로는 완벽한 의미가 있습니다. 이는 로봇이 특정 작업을 수행하는 방법을 학습하면서 겪게 될 피할 수 없는 실수와 마모로부터 로봇을 보호합니다. 비유하자면, 모든 운전 수업이 운전 시뮬레이터를 사용하여 진행되었다고 상상해 보세요. 신체적 안전을 위협하거나 자동차(또는 다른 사람)를 손상시키는 것에 대해 너무 조심할 필요가 없기 때문에 더 빨리 배울 수 있다는 주장이 나올 수 있습니다. 또한 할당된 수업을 기다리거나 면허를 소지한 운전자가 기꺼이 데리고 나갈 때까지 기다리지 않고도 더 빠르게 훈련할 수 있습니다.
이것의 문제는 운전 비디오 게임을 해본 사람이라면 누구나 알겠지만 현실 세계처럼 느껴지는 방식으로 현실 세계를 모델링하는 것이 매우 어렵다는 것입니다. 대신 Google의 연구원들은 더 적은 수의 시도로 로봇이 더 빠르게 학습할 수 있도록 하는 향상된 알고리즘을 개발하기 시작했습니다. 이전 Google 연구를 기반으로 구축 2018년에 출판됨, 그들의 로봇은 이 최신 시연에서 단 몇 시간 만에 걷는 법을 배울 수 있었습니다.
또한 넘어짐이 적고 학습에 대한 보다 신중하고 안전한 접근 방식을 강조하면서 이를 수행할 수 있습니다. 결과적으로, 로봇이 넘어질 때마다 로봇을 들어올리고 먼지를 제거하기 위해 이루어져야 하는 인간 개입의 횟수가 최소화됩니다.
더 나은 로봇 만들기
2시간 안에 걷는 법을 배우는 것은 사슴 수준의 걷기 학습 효율성이 아닐 수도 있지만, 엔지니어가 로봇이 일반적으로 기동하도록 가르치는 방법을 명시적으로 프로그래밍해야 하는 것과는 거리가 멀습니다. (그리고 언급한 바와 같이, 그러한 시간 내에 인간 유아가 관리할 수 있는 것보다 훨씬 낫습니다!)
“많은 비지도 학습이나 강화 학습 알고리즘이 시연되었지만 시뮬레이션을 통해 이를 실제 다리가 있는 로봇에 적용하는 것은 엄청나게 어려운 것으로 나타났습니다.” Tan 설명했다. “첫째, 강화 학습에는 데이터가 많이 필요하고 로봇 데이터를 수집하는 데 비용이 많이 듭니다. 우리의 이전 연구에서는 이 문제를 해결했습니다. 둘째, 훈련을 위해서는 누군가가 로봇을 감독하는 데 많은 시간을 할애해야 합니다. 로봇을 모니터링하고 수백 번 또는 수천 번 넘어질 때마다 수동으로 재설정할 사람이 필요하다면 로봇을 훈련시키는 데 많은 노력과 오랜 시간이 필요할 것입니다. 시간이 오래 걸릴수록 학습을 다양한 환경의 많은 로봇으로 확장하는 것이 더 어려워집니다.”
언젠가 이 연구는 다양한 지형에 더 빠르게 적응할 수 있는 더 민첩한 로봇을 만드는 데 도움이 될 수 있습니다. Tan은 “잠재적인 응용 분야는 무궁무진합니다.”라고 말했습니다. 하지만 탄 대표는 “아직 초기 단계이고, 극복해야 할 과제가 많다”고 강조했다.
강화 학습 주제에 맞춰, 이는 확실히 극대화할 가치가 있는 보상입니다!
편집자의 추천
- AI가 Breaking Bad를 애니메이션으로 만들었습니다. 정말 끔찍합니다.
- AI가 결코 세상을 지배하지 못하는 이유
- AI가 실제로 지각을 갖게 되는 시점을 어떻게 알 수 있나요?
- 재미있는 공식: 기계가 생성한 유머가 AI의 성배인 이유
- AI의 섬뜩할 정도로 아름다운 '종합 성서'를 읽어보세요. 그게 신이라고 생각하는 거야
당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.