DeepMind se vuelve irreal con un nuevo agente de inteligencia artificial de aprendizaje rápido

DeepMind: aprendizaje por refuerzo con tareas auxiliares no supervisadas

DeepMind de Google publica un artículo esta semana llamado Aprendizaje por refuerzo con tareas auxiliares no supervisadas, que describe un método para aumentar la velocidad de aprendizaje de la inteligencia artificial y el rendimiento final de los agentes (o bots). Este método incluye agregar dos tareas adicionales principales para realizar mientras la IA entrena y se basa en el estándar profundo. base de aprendizaje por refuerzo, que es básicamente un método de recompensa/castigo de prueba y error donde la IA aprende de sus errores.

La primera tarea añadida para acelerar el aprendizaje de la IA es la capacidad de comprender cómo controlar los píxeles de la pantalla. Según DeepMind, este método es similar a cómo un bebé aprende a controlar sus manos moviéndolas y observando esos movimientos. En el caso de la IA, el robot entendería la información visual controlando los píxeles, lo que conduciría a mejores puntuaciones.

Vídeos recomendados

“Consideremos un bebé que aprende a maximizar la cantidad acumulada de rojo que observa. Para predecir correctamente el valor óptimo, el bebé debe comprender cómo aumentar el "enrojecimiento" por diversos medios, incluida la manipulación (acercar un objeto rojo a los ojos); locomoción (moverse frente a un objeto rojo); y comunicación (llorar hasta que los padres traen un objeto rojo)”, afirma el artículo de DeepMind. "Es probable que estos comportamientos se repitan para muchos otros objetivos que el bebé pueda encontrar posteriormente".

Relacionado

  • Este robot te destruirá en Pictionary. También es un gran hito para A.I.
  • DeepMind de Google está entrenando los coches autónomos de Waymo como los robots de StarCraft II
  • Google ha encontrado una manera de utilizar la A.I. para potenciar la utilidad de la energía eólica

La segunda tarea agregada se utiliza para entrenar a la IA para que prediga cuáles serán las recompensas inmediatas en función de una breve historia de acciones anteriores. Para permitir esto, el equipo proporcionó cantidades iguales de historiales previos gratificantes y no gratificantes. El resultado final es que la IA puede descubrir características visuales que probablemente generarán recompensas más rápido que antes.

“Para aprender de manera más eficiente, nuestros agentes utilizan un mecanismo de repetición de experiencias para brindar actualizaciones adicionales a los críticos. Así como los animales sueñan con mayor frecuencia con eventos gratificantes positiva o negativamente, nuestros agentes reproducen preferentemente secuencias que contienen eventos gratificantes”, añade el artículo.

Con estas dos tareas auxiliares agregadas al agente A3C anterior, el nuevo agente/bot resultante se basa en lo que el equipo llama Unreal (REinforcement UNsupervised and Auxiliary Learning). El equipo prácticamente sentó a este robot frente a 57 juegos de Atari y un juego separado. lobostein-Juego tipo laberinto que consta de 13 niveles. En todos los escenarios, al robot se le proporcionó la imagen de salida RGB sin procesar, lo que le proporcionó acceso directo a los píxeles para una precisión del 100 por ciento. El robot Unreal fue recompensado en todos los ámbitos por tareas como derribar extraterrestres en Invasores espaciales hasta agarrar manzanas en un laberinto 3D.

Debido a que el robot Unreal puede controlar los píxeles y predecir si las acciones producirán recompensas, es capaz de aprender 10 veces más rápido que el anterior mejor agente de DeepMind (A3C). Es más, también produce un mejor rendimiento que el campeón anterior.

"Ahora podemos lograr un 87 por ciento de desempeño humano experto en promedio en los niveles del Laberinto que consideramos, con un desempeño sobrehumano en varios de ellos", dijo la compañía. "En Atari, el agente ahora logra en promedio un rendimiento humano 9 veces mayor".

DeepMind tiene esperanzas que el trabajo realizado en el bot de Unreal permitirá al equipo ampliar todos sus agentes/bots para manejar entornos aún más complejos en un futuro próximo. Hasta entonces, mira el vídeo incrustado arriba que muestra a la IA moviéndose a través de laberintos y agarrando manzanas por sí sola sin ninguna intervención humana.

Recomendaciones de los editores

  • Ajedrez. Peligro. Ir. ¿Por qué utilizamos los juegos como punto de referencia para la IA?
  • Revisando el auge de la IA: ¿Hasta dónde ha llegado la inteligencia artificial desde 2010?
  • DeepMind A.I. de Google Derrota a oponentes humanos en Quake III Capture the Flag.

Mejora tu estilo de vidaDigital Trends ayuda a los lectores a mantenerse al tanto del vertiginoso mundo de la tecnología con las últimas noticias, reseñas divertidas de productos, editoriales interesantes y adelantos únicos.