Robô do Google aprende a andar sozinho em apenas duas horas

Você se lembra daquela cena do filme de Walt Disney Bambi onde o cervo titular aprende a se levantar e andar por conta própria? É uma vinheta encantadora no filme, mostrando uma habilidade que muitos filhotes de animais – de porcos a girafas e, sim, veados – adquirem poucos minutos após seu nascimento. Ao longo das primeiras horas de vida, estes animais refinam rapidamente as suas capacidades motoras até terem controlo total sobre a sua própria locomoção. Os seres humanos, que aprendem a ficar de pé agarrados às coisas por volta dos sete meses e que começam a andar aos 15 meses, são desesperadamente lentos em comparação.

Conteúdo

  • Reforço positivo
  • Construindo robôs melhores

Adivinhe qual foi a última tarefa em que os robôs nos venceram? Em um novo estudo realizado por pesquisadores do Google, os engenheiros ensinaram um robô Minitaur quadrúpede a passar, bem, sem precisar ensiná-lo muito. Em vez disso, eles usaram um tipo de inteligência artificial orientada para objetivos para fazer um robô de quatro patas

aprenda a seguir em frente, para trás e vire à esquerda e à direita por conta própria. Ele foi capaz de aprender a fazer isso sozinho em três terrenos diferentes, incluindo terreno plano, um colchão macio e um capacho com fendas.

Vídeos recomendados

“Robôs com pernas podem ter grande mobilidade porque as pernas são essenciais para navegar em estradas não pavimentadas e em locais projetados para humanos”, Jie Tan, investigador principal do projeto e chefe de esforços de locomoção do Google, disse à Digital Trends. “Estamos interessados ​​em permitir que robôs com pernas naveguem em nossos diversos e complexos ambientes do mundo real, mas é difícil projetar manualmente controladores robóticos que possam lidar com tal diversidade e complexidade. Portanto, é importante que os robôs sejam capazes de aprender por si próprios. Este trabalho é entusiasmante porque é uma demonstração inicial de que, com o nosso sistema, um robô com pernas pode aprender a andar sozinho com sucesso.”

Reforço positivo

Aprendendo a andar no mundo real com o mínimo de esforço humano

A tecnologia na base deste projeto específico é algo chamado aprendizado por reforço profundo, um abordagem específica para aprendizagem profunda inspirada na psicologia behaviorista e na tentativa e erro aprendizado. Quando instruídos a maximizar uma determinada recompensa, os agentes de software aprendem a agir em um ambiente que alcançará esses resultados da maneira mais precisa e eficiente possível. O poder da aprendizagem por reforço foi famosamente demonstrado em 2013 quando DeepMind do Google lançou um artigo mostrando como havia treinado uma IA para jogar videogames clássicos do Atari. Isso foi conseguido sem nenhuma instrução além da pontuação na tela e dos aproximadamente 30.000 pixels que compunham cada quadro dos videogames que estava jogando.

Os videogames, ou pelo menos as simulações, também são frequentemente usados ​​por pesquisadores de robótica. Uma simulação faz todo o sentido em teoria, pois permite que os roboticistas treinem a sua máquina num mundo virtual antes de entrarem no mundo real. Isso salva os robôs das inevitáveis ​​quedas e desgastes que sofreriam ao aprender a realizar uma tarefa específica. Como analogia, imagine se todas as suas aulas de direção fossem realizadas em um simulador de direção. Pode-se argumentar que você aprenderia mais rapidamente porque não teria que ser tão cauteloso ao arriscar sua segurança física ou danificar seu carro (ou o de outra pessoa). Você também pode treinar mais rapidamente sem ter que esperar por aulas alocadas ou que um motorista licenciado esteja disposto a levá-lo para passear.

O problema com isso é que, como qualquer pessoa que já jogou um videogame de direção sabe, é muito difícil modelar o mundo real de uma forma que pareça, bem, o mundo real. Em vez disso, os pesquisadores do Google começaram a desenvolver algoritmos aprimorados que permitem que seu robô aprenda mais rapidamente com menos testes envolvidos. Com base em uma pesquisa anterior do Google publicado em 2018, seu robô conseguiu aprender a andar em apenas algumas horas nesta última demonstração.

Também é capaz de fazer isso ao mesmo tempo em que enfatiza uma abordagem de aprendizagem mais cautelosa e segura, envolvendo menos quedas. Como resultado, minimiza o número de intervenções humanas que precisam ser feitas para pegar o robô e tirar o pó toda vez que ele cai.

Construindo robôs melhores

Aprender a andar em duas horas pode não ser exatamente o mesmo nível de eficiência de aprender a andar, mas está muito longe de os engenheiros terem que programar explicitamente como um robô geralmente é ensinado a manobrar. (E, como observado, é muito melhor do que os bebês humanos conseguem aguentar nesse período de tempo!)

“Embora muitos algoritmos de aprendizagem não supervisionada ou de aprendizagem por reforço tenham sido demonstrados em simulação, aplicá-los em robôs reais com pernas acaba sendo incrivelmente difícil”, Tan explicou. “Primeiro, o aprendizado por reforço exige muitos dados e a coleta de dados do robô é cara. Nosso trabalho anterior abordou esse desafio. Em segundo lugar, o treinamento exige que alguém gaste muito tempo supervisionando o robô. Se precisarmos de uma pessoa para monitorar o robô e reinicializá-lo manualmente toda vez que ele tropeçar – centenas ou milhares de vezes – será necessário muito esforço e muito tempo para treiná-lo. Quanto mais tempo demorar, mais difícil será ampliar o aprendizado para muitos robôs em muitos ambientes diferentes.”

Um dia, esta pesquisa poderá ajudar a criar robôs mais ágeis, capazes de se adaptar mais rapidamente a uma variedade de terrenos. “As aplicações potenciais são numerosas”, disse Tan. No entanto, Tan sublinhou que “ainda é cedo e há muitos desafios que ainda precisamos de superar”.

De acordo com o tema do aprendizado por reforço, é certamente uma recompensa que vale a pena maximizar!

Recomendações dos Editores

  • IA transformou Breaking Bad em anime – e é assustador
  • Por que a IA nunca governará o mundo
  • Como saberemos quando uma IA realmente se tornará senciente?
  • A fórmula engraçada: por que o humor gerado por máquina é o Santo Graal da IA
  • Leia a estranhamente bela “escritura sintética” de uma IA. que pensa que é Deus

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.