DeepMind devient irréel avec un nouvel agent IA à apprentissage rapide

DeepMind - Apprentissage par renforcement avec tâches auxiliaires non supervisées

DeepMind de Google a publié cette semaine un article intitulé Apprentissage par renforcement avec tâches auxiliaires non supervisées, qui décrit une méthode pour augmenter la vitesse d’apprentissage de l’intelligence artificielle et les performances finales des agents – ou robots. Cette méthode comprend l'ajout de deux tâches principales supplémentaires à effectuer pendant que l'IA s'entraîne, et s'appuie sur la méthode approfondie standard. base d’apprentissage par renforcement, qui est essentiellement une méthode de récompense/punition par essais et erreurs où l’IA apprend de ses erreurs.

La première tâche ajoutée pour accélérer l’apprentissage de l’IA est la capacité de comprendre comment contrôler les pixels sur l’écran. Selon DeepMind, cette méthode est similaire à la façon dont un bébé apprend à contrôler ses mains en les bougeant et en observant ces mouvements. Dans le cas de l’IA, le bot comprendrait les entrées visuelles en contrôlant les pixels, conduisant ainsi à de meilleurs scores.

Vidéos recommandées

« Prenons l’exemple d’un bébé qui apprend à maximiser la quantité cumulée de rouge qu’il observe. Pour prédire correctement la valeur optimale, le bébé doit comprendre comment augmenter les « rougeurs » par divers moyens, notamment la manipulation (rapprocher un objet rouge des yeux); locomotion (se déplacer devant un objet rouge); et la communication (pleurer jusqu'à ce que les parents apportent un objet rouge) », indique l'article de DeepMind. "Ces comportements sont susceptibles de se reproduire pour de nombreux autres objectifs que le bébé pourrait rencontrer par la suite."

En rapport

  • Ce bot va vous détruire chez Pictionary. C’est aussi une étape importante pour l’IA.
  • DeepMind de Google forme les voitures autonomes de Waymo comme les robots StarCraft II
  • Google a trouvé un moyen d'utiliser l'IA. pour accroître l’utilité de l’énergie éolienne

La deuxième tâche ajoutée est utilisée pour entraîner l’IA à prédire quelles seront les récompenses immédiates sur la base d’un bref historique des actions antérieures. Pour ce faire, l’équipe a fourni des quantités égales d’histoires antérieures enrichissantes et non enrichissantes. Le résultat final est que l’IA peut découvrir des fonctionnalités visuelles qui mèneront probablement à des récompenses plus rapidement qu’auparavant.

« Pour apprendre plus efficacement, nos agents utilisent un mécanisme de relecture d'expérience pour fournir des mises à jour supplémentaires aux critiques. Tout comme les animaux rêvent plus fréquemment d’événements gratifiants positivement ou négativement, nos agents rejouent préférentiellement des séquences contenant des événements gratifiants », ajoute le journal.

Avec ces deux tâches auxiliaires ajoutées à l'agent A3C précédent, le nouvel agent/bot résultant est basé sur ce que l'équipe appelle Unreal (UNsupervised REinforcement and Auxiliary Learning). L'équipe a virtuellement placé ce bot devant 57 jeux Atari et un autre Wolfenstein-un jeu de labyrinthe composé de 13 niveaux. Dans tous les scénarios, le robot a reçu l’image de sortie RVB brute, lui fournissant un accès direct aux pixels pour une précision de 100 %. Le robot Unreal a été récompensé dans tous les domaines pour des tâches telles que l'abattage d'extraterrestres dans Envahisseurs de l'espace à attraper des pommes dans un labyrinthe 3D.

Étant donné que le robot Unreal peut contrôler les pixels et prédire si les actions produiront des récompenses, il est capable d’apprendre 10 fois plus rapidement que l’ancien meilleur agent de DeepMind (A3C). De plus, il produit également de meilleures performances que le champion précédent.

"Nous pouvons désormais atteindre 87 % de performances humaines expertes en moyenne dans tous les niveaux du Labyrinthe que nous avons considérés, avec des performances surhumaines sur un certain nombre d'entre eux", a déclaré la société. « Sur Atari, l’agent atteint désormais en moyenne 9x les performances humaines. »

DeepMind a bon espoir que le travail effectué sur le bot Unreal permettra à l'équipe de faire évoluer tous ses agents/bots pour gérer des environnements encore plus complexes dans un avenir proche. En attendant, regardez la vidéo intégrée ci-dessus montrant l’IA se déplaçant dans des labyrinthes et saisissant des pommes toute seule sans aucune intervention humaine.

Recommandations des rédacteurs

  • Échecs. Péril. Aller. Pourquoi utilisons-nous les jeux comme référence pour l’IA?
  • Revisiter l’essor de l’IA: où en est l’intelligence artificielle depuis 2010?
  • L'IA DeepMind de Google bat des adversaires humains dans Quake III Capture the Flag

Améliorez votre style de vieDigital Trends aide les lecteurs à garder un œil sur le monde en évolution rapide de la technologie avec toutes les dernières nouvelles, des critiques de produits amusantes, des éditoriaux perspicaces et des aperçus uniques.