DeepMind – Reinforcement Learning mit unbeaufsichtigten Hilfsaufgaben
Die erste zusätzliche Aufgabe zur Beschleunigung des KI-Lernens besteht darin, zu verstehen, wie die Pixel auf dem Bildschirm gesteuert werden. Laut DeepMind ähnelt diese Methode der Art und Weise, wie ein Baby lernt, seine Hände zu kontrollieren, indem es sie bewegt und diese Bewegungen beobachtet. Im Fall von KI würde der Bot visuelle Eingaben verstehen, indem er die Pixel steuert, was zu besseren Ergebnissen führen würde.
Empfohlene Videos
„Stellen Sie sich ein Baby vor, das lernt, die kumulative Menge an Rot, die es beobachtet, zu maximieren. Um den optimalen Wert richtig vorherzusagen, muss das Baby verstehen, wie es die „Rötung“ auf verschiedene Weise verstärken kann, einschließlich Manipulation (einen roten Gegenstand näher an die Augen bringen); Fortbewegung (Bewegen vor einem roten Objekt); und Kommunikation (Weinen, bis die Eltern einen roten Gegenstand bringen)“, heißt es in der Arbeit von DeepMind. „Diese Verhaltensweisen werden wahrscheinlich bei vielen anderen Zielen wiederkehren, denen das Baby später begegnen könnte.“
Verwandt
- Dieser Bot wird Sie bei Pictionary zerstören. Es ist auch ein großer Meilenstein für die KI.
- Googles DeepMind trainiert Waymos selbstfahrende Autos wie StarCraft II-Bots
- Google hat einen Weg gefunden, KI zu nutzen. den Nutzen der Windenergie zu steigern
Die zweite hinzugefügte Aufgabe wird verwendet, um die KI zu trainieren, um auf der Grundlage einer kurzen Historie früherer Aktionen vorherzusagen, wie die unmittelbaren Belohnungen aussehen werden. Um dies zu ermöglichen, stellte das Team gleiche Mengen früherer lohnender und nicht lohnender Historien bereit. Das Endergebnis ist, dass die KI visuelle Merkmale entdecken kann, die wahrscheinlich schneller als zuvor zu Belohnungen führen.
„Um effizienter zu lernen, nutzen unsere Agenten einen Erfahrungswiedergabemechanismus, um den Kritikern zusätzliche Updates bereitzustellen. So wie Tiere häufiger von positiv oder negativ belohnenden Ereignissen träumen, spielen unsere Agenten bevorzugt Sequenzen mit belohnenden Ereignissen ab“, fügt die Studie hinzu.
Durch die Hinzufügung dieser beiden Hilfsaufgaben zum vorherigen A3C-Agenten basiert der resultierende neue Agent/Bot auf dem, was das Team Unreal (UNsupervised REinforcement and Auxiliary Learning) nennt. Das Team setzte diesen Bot praktisch vor 57 Atari-Spielen und einem separaten Wolfenstein-ähnliches Labyrinthspiel bestehend aus 13 Leveln. In allen Szenarien erhielt der Bot das rohe RGB-Ausgabebild und erhielt so direkten Zugriff auf die Pixel für 100-prozentige Genauigkeit. Der Unreal-Bot wurde durchweg für Aufgaben wie das Abschießen von Aliens belohnt Space Invaders um in einem 3D-Labyrinth nach Äpfeln zu greifen.
Da der Unreal-Bot die Pixel steuern und vorhersagen kann, ob Aktionen zu Belohnungen führen, ist er in der Lage, zehnmal schneller zu lernen als der bisher beste Agent von DeepMind (A3C). Darüber hinaus bietet es auch eine bessere Leistung als der vorherige Champion.
„Wir können jetzt im Durchschnitt der von uns betrachteten Labyrinth-Level 87 Prozent der menschlichen Expertenleistung erreichen, wobei einige von ihnen sogar übermenschliche Leistungen erbringen“, sagte das Unternehmen. „Auf Atari erreicht der Agent mittlerweile durchschnittlich das Neunfache der menschlichen Leistung.“
DeepMind ist hoffnungsvoll dass die Arbeit, die in den Unreal-Bot geflossen ist, es dem Team ermöglichen wird, alle seine Agenten/Bots in naher Zukunft so zu skalieren, dass sie noch komplexere Umgebungen bewältigen können. Schauen Sie sich bis dahin das oben eingebettete Video an, das zeigt, wie sich die KI durch Labyrinthe bewegt und selbstständig Äpfel schnappt, ohne dass ein Mensch eingreifen muss.
Empfehlungen der Redaktion
- Schach. Gefahr. Gehen. Warum nutzen wir Spiele als Maßstab für KI?
- Rückblick auf den Aufstieg der KI: Wie weit ist die künstliche Intelligenz seit 2010 gekommen?
- Googles DeepMind A.I. besiegt menschliche Gegner in Quake III Capture the Flag
Werten Sie Ihren Lebensstil aufDigital Trends hilft Lesern mit den neuesten Nachrichten, unterhaltsamen Produktrezensionen, aufschlussreichen Leitartikeln und einzigartigen Einblicken, den Überblick über die schnelllebige Welt der Technik zu behalten.