DeepMind se torna irreal com um novo agente de IA de aprendizado rápido

DeepMind - Aprendizado por Reforço com Tarefas Auxiliares Não Supervisionadas

DeepMind do Google lança um artigo esta semana chamado Aprendizagem por Reforço com Tarefas Auxiliares Não Supervisionadas, que descreve um método para aumentar a velocidade de aprendizado da inteligência artificial e o desempenho final de agentes — ou bots. Este método inclui a adição de duas tarefas adicionais principais a serem executadas enquanto a IA treina e se baseia no padrão profundo base de aprendizagem por reforço, que é basicamente um método de recompensa/punição por tentativa e erro, onde a IA aprende com seus erros.

A primeira tarefa adicional para acelerar o aprendizado de IA é a capacidade de entender como controlar os pixels na tela. De acordo com DeepMind, esse método é semelhante a como um bebê aprende a controlar suas mãos movendo-as e observando esses movimentos. No caso da IA, o bot entenderia a entrada visual controlando os pixels, levando assim a melhores pontuações.

Vídeos recomendados

“Considere um bebê que aprende a maximizar a quantidade cumulativa de vermelho que observa. Para prever corretamente o valor ideal, o bebé deve compreender como aumentar a “vermelhidão” através de vários meios, incluindo manipulação (aproximar um objeto vermelho dos olhos); locomoção (movimento na frente de um objeto vermelho); e comunicação (choro até que os pais tragam um objeto vermelho)”, afirma o artigo da DeepMind. “É provável que esses comportamentos se repitam para muitos outros objetivos que o bebê poderá encontrar posteriormente.”

Relacionado

  • Este bot irá destruir você no Pictionary. É também um grande marco para a IA.
  • DeepMind do Google está treinando carros autônomos de Waymo, como bots StarCraft II
  • O Google encontrou uma maneira de usar IA. para aumentar a utilidade da energia eólica

A segunda tarefa adicionada é usada para treinar a IA para prever quais serão as recompensas imediatas com base em um breve histórico de ações anteriores. Para permitir isso, a equipe forneceu quantidades iguais de históricos anteriores gratificantes e não gratificantes. O resultado final é que a IA pode descobrir recursos visuais que provavelmente levarão a recompensas mais rapidamente do que antes.

“Para aprender com mais eficiência, nossos agentes usam um mecanismo de repetição de experiência para fornecer atualizações adicionais aos críticos. Assim como os animais sonham com mais frequência com eventos recompensadores positivos ou negativos, nossos agentes reproduzem preferencialmente sequências contendo eventos gratificantes”, acrescenta o jornal.

Com essas duas tarefas auxiliares adicionadas ao agente A3C anterior, o novo agente/bot resultante é baseado no que a equipe chama de Unreal (REinforcement UNsupervised and Auxiliary Learning). A equipe praticamente colocou esse bot diante de 57 jogos da Atari e um jogo separado Wolfenstein-como um jogo de labirinto composto por 13 níveis. Em todos os cenários, o bot recebeu a imagem de saída RGB bruta, proporcionando acesso direto aos pixels para 100% de precisão. O bot Unreal foi recompensado por tarefas como abater alienígenas em Invasores do espaço para pegar maçãs em um labirinto 3D.

Como o bot Unreal pode controlar os pixels e prever se as ações produzirão recompensas, ele é capaz de aprender 10 vezes mais rápido do que o melhor agente anterior da DeepMind (A3C). Ainda mais, também produz melhor desempenho do que o campeão anterior.

“Agora podemos atingir 87 por cento de desempenho humano especializado em média nos níveis do Labirinto que consideramos, com desempenho sobre-humano em vários deles”, disse a empresa. “No Atari, o agente agora atinge em média 9x o desempenho humano.”

DeepMind está esperançoso que o trabalho realizado no bot Unreal permitirá que a equipe amplie todos os seus agentes/bots para lidar com ambientes ainda mais complexos em um futuro próximo. Até então, confira o vídeo incorporado acima, mostrando a IA se movendo por labirintos e pegando maçãs sozinha, sem qualquer intervenção humana.

Recomendações dos Editores

  • Xadrez. Perigo. Ir. Por que usamos jogos como referência para IA?
  • Revisitando a ascensão da IA: Até onde avançou a inteligência artificial desde 2010?
  • A IA DeepMind do Google derrota oponentes humanos em Quake III Capture the Flag

Atualize seu estilo de vidaDigital Trends ajuda os leitores a manter o controle sobre o mundo acelerado da tecnologia com as últimas notícias, análises divertidas de produtos, editoriais criteriosos e prévias únicas.