Το DeepMind γίνεται εξωπραγματικό με έναν νέο πράκτορα τεχνητής νοημοσύνης γρήγορης εκμάθησης

DeepMind - Ενισχυτική μάθηση με βοηθητικές εργασίες χωρίς επίβλεψη

Το DeepMind της Google κυκλοφόρησε μια εφημερίδα αυτή την εβδομάδα με τίτλο Ενισχυτική μάθηση με βοηθητικές εργασίες χωρίς επίβλεψη, η οποία περιγράφει μια μέθοδο για την αύξηση της ταχύτητας εκμάθησης της τεχνητής νοημοσύνης και της τελικής απόδοσης των πρακτόρων — ή των bots. Αυτή η μέθοδος περιλαμβάνει την προσθήκη δύο κύριων πρόσθετων εργασιών που πρέπει να εκτελούνται ενώ η τεχνητή νοημοσύνη εκπαιδεύεται και βασίζεται στο τυπικό βάθος θεμέλιο ενίσχυσης μάθησης, το οποίο είναι βασικά μια μέθοδος ανταμοιβής/τιμωρίας δοκιμής και λάθους όπου η τεχνητή νοημοσύνη μαθαίνει από λάθη.

Η πρώτη προστιθέμενη εργασία για την επιτάχυνση της εκμάθησης AI είναι η ικανότητα κατανόησης του τρόπου ελέγχου των pixel στην οθόνη. Σύμφωνα με το DeepMind, αυτή η μέθοδος είναι παρόμοια με το πώς ένα μωρό μαθαίνει να ελέγχει τα χέρια του/της μετακινώντας τα και παρακολουθώντας αυτές τις κινήσεις. Στην περίπτωση της τεχνητής νοημοσύνης, το bot θα κατανοούσε την οπτική είσοδο ελέγχοντας τα pixel, οδηγώντας έτσι σε καλύτερες βαθμολογίες.

Προτεινόμενα βίντεο

«Σκεφτείτε ένα μωρό που μαθαίνει να μεγιστοποιεί την αθροιστική ποσότητα κόκκινου που παρατηρεί. Για να προβλέψει σωστά τη βέλτιστη τιμή, το μωρό πρέπει να καταλάβει πώς να αυξήσει την «κοκκινίλα» με διάφορα μέσα, συμπεριλαμβανομένου του χειρισμού (φέρνοντας ένα κόκκινο αντικείμενο πιο κοντά στα μάτια). κίνηση (κίνηση μπροστά από ένα κόκκινο αντικείμενο). και επικοινωνία (κλάμα μέχρι να φέρουν οι γονείς ένα κόκκινο αντικείμενο),» αναφέρει το έγγραφο του DeepMind. «Αυτές οι συμπεριφορές είναι πιθανό να επαναληφθούν για πολλούς άλλους στόχους που μπορεί να συναντήσει το μωρό στη συνέχεια».

Σχετίζεται με

  • Αυτό το bot θα σας καταστρέψει στο Pictionary. Είναι επίσης ένα τεράστιο ορόσημο για την A.I.
  • Το DeepMind της Google εκπαιδεύει τα αυτόνομα αυτοκίνητα της Waymo, όπως τα ρομπότ StarCraft II
  • Η Google βρήκε έναν τρόπο να χρησιμοποιεί το A.I. για την ενίσχυση της χρησιμότητας της αιολικής ενέργειας

Η δεύτερη προστιθέμενη εργασία χρησιμοποιείται για την εκπαίδευση της τεχνητής νοημοσύνης ώστε να προβλέψει ποια θα είναι τα άμεσα βραβεία με βάση ένα σύντομο ιστορικό προηγούμενων ενεργειών. Για να μπορέσει αυτό, η ομάδα παρείχε ίσες ποσότητες προηγούμενων ιστοριών επιβράβευσης και μη. Το τελικό αποτέλεσμα είναι ότι η τεχνητή νοημοσύνη μπορεί να ανακαλύψει οπτικά χαρακτηριστικά που πιθανότατα θα οδηγήσουν σε ανταμοιβές πιο γρήγορα από πριν.

«Για να μάθουν πιο αποτελεσματικά, οι πράκτορες μας χρησιμοποιούν έναν μηχανισμό επανάληψης εμπειρίας για να παρέχουν πρόσθετες ενημερώσεις στους επικριτές. Ακριβώς όπως τα ζώα ονειρεύονται πιο συχνά θετικά ή αρνητικά συμβάντα, οι πράκτορες μας προτιμούν να επαναλαμβάνουν ακολουθίες που περιέχουν συμβάντα επιβράβευσης», προσθέτει η εφημερίδα.

Με αυτές τις δύο βοηθητικές εργασίες να προστεθούν στον προηγούμενο πράκτορα A3C, ο νέος πράκτορας/ρομπότ που προκύπτει βασίζεται σε αυτό που η ομάδα αποκαλεί Unreal (UNsupervised REinforcement and Auxiliary Learning). Η ομάδα ουσιαστικά κάθισε αυτό το bot μπροστά σε 57 παιχνίδια Atari και ένα ξεχωριστό Wolfenstein-όπως παιχνίδι λαβύρινθου που αποτελείται από 13 επίπεδα. Σε όλα τα σενάρια, δόθηκε στο bot η ακατέργαστη εικόνα εξόδου RGB, παρέχοντάς του άμεση πρόσβαση στα pixel με ακρίβεια 100%. Το Unreal bot ανταμείφθηκε σε όλους τους τομείς για εργασίες όπως η κατάρριψη εξωγήινων Διαστημικοί εισβολείς για να αρπάξετε μήλα σε έναν τρισδιάστατο λαβύρινθο.

Επειδή το Unreal bot μπορεί να ελέγξει τα pixel και να προβλέψει εάν οι ενέργειες θα παράγουν ανταμοιβές, είναι ικανό να μαθαίνει 10 φορές πιο γρήγορα από τον προηγούμενο καλύτερο πράκτορα της DeepMind (A3C). Ακόμη περισσότερο, παράγει καλύτερες επιδόσεις από τον προηγούμενο πρωταθλητή επίσης.

«Μπορούμε τώρα να επιτύχουμε το 87 τοις εκατό της ανθρώπινης απόδοσης των ειδικών που υπολογίζονται κατά μέσο όρο στα επίπεδα του Λαβύρινθου που εξετάσαμε, με υπερανθρώπινες επιδόσεις σε ορισμένα από αυτά», δήλωσε η εταιρεία. "Στην Atari, ο πράκτορας επιτυγχάνει τώρα κατά μέσο όρο 9 φορές ανθρώπινη απόδοση."

Το DeepMind είναι αισιόδοξο ότι η δουλειά που έγινε στο Unreal bot θα επιτρέψει στην ομάδα να κλιμακώσει όλους τους πράκτορες/ρομπότ της για να χειριστεί ακόμη πιο πολύπλοκα περιβάλλοντα στο εγγύς μέλλον. Μέχρι τότε, ρίξτε μια ματιά στο βίντεο που ενσωματώθηκε παραπάνω που δείχνει την τεχνητή νοημοσύνη να κινείται μέσα από λαβύρινθους και να αρπάζει από μόνη της μήλα χωρίς ανθρώπινη παρέμβαση.

Συστάσεις των συντακτών

  • Σκάκι. Διακινδύνευση. Πηγαίνω. Γιατί χρησιμοποιούμε τα παιχνίδια ως σημείο αναφοράς για την A.I.;
  • Επανεξετάζοντας την άνοδο της A.I.: Πόσο μακριά έχει φτάσει η τεχνητή νοημοσύνη από το 2010;
  • Το DeepMind A.I της Google. νικά τους ανθρώπινους αντιπάλους στο Quake III Capture the Flag

Αναβαθμίστε τον τρόπο ζωής σαςΤο Digital Trends βοηθά τους αναγνώστες να παρακολουθούν τον γρήγορο κόσμο της τεχνολογίας με όλα τα τελευταία νέα, διασκεδαστικές κριτικές προϊόντων, διορατικά editorial και μοναδικές κρυφές ματιές.