DeepMind diventa irreale con un nuovo agente AI ad apprendimento rapido

DeepMind - Apprendimento per rinforzo con compiti ausiliari non supervisionati

DeepMind di Google pubblica questa settimana un documento intitolato Apprendimento per rinforzo con compiti ausiliari non supervisionati, che descrive un metodo per aumentare la velocità di apprendimento dell'intelligenza artificiale e le prestazioni finali degli agenti - o bot. Questo metodo include l'aggiunta di due principali attività aggiuntive da eseguire durante l'addestramento dell'IA e si basa sullo standard profondo fondamento dell'apprendimento per rinforzo, che è fondamentalmente un metodo di ricompensa/punizione per tentativi ed errori in cui l'IA impara da esso errori.

Il primo compito aggiunto per velocizzare l’apprendimento dell’IA è la capacità di capire come controllare i pixel sullo schermo. Secondo DeepMind, questo metodo è simile a come un bambino impara a controllare le proprie mani muovendole e osservando quei movimenti. Nel caso dell’intelligenza artificiale, il bot comprenderebbe l’input visivo controllando i pixel, ottenendo così punteggi migliori.

Video consigliati

“Consideriamo un bambino che impara a massimizzare la quantità cumulativa di rosso che osserva. Per prevedere correttamente il valore ottimale, il bambino deve capire come aumentare il “rossore” con vari mezzi, inclusa la manipolazione (avvicinare un oggetto rosso agli occhi); locomozione (muoversi davanti a un oggetto rosso); e comunicazione (piangere finché i genitori non portano un oggetto rosso)”, afferma il documento di DeepMind. "È probabile che questi comportamenti si ripetano per molti altri obiettivi che il bambino potrebbe successivamente incontrare."

Imparentato

  • Questo bot ti distruggerà a Pictionary. È anche un’enorme pietra miliare per A.I.
  • DeepMind di Google sta addestrando le auto a guida autonoma di Waymo come i robot di StarCraft II
  • Google ha trovato un modo per utilizzare l'A.I. per aumentare l’utilità dell’energia eolica

Il secondo compito aggiunto viene utilizzato per addestrare l'IA a prevedere quali saranno i premi immediati sulla base di una breve cronologia delle azioni precedenti. Per consentire ciò, il team ha fornito quantità uguali di precedenti storie gratificanti e non gratificanti. Il risultato finale è che l’intelligenza artificiale può scoprire caratteristiche visive che probabilmente porteranno a ricompense più velocemente di prima.

“Per apprendere in modo più efficiente, i nostri agenti utilizzano un meccanismo di riproduzione dell’esperienza per fornire ulteriori aggiornamenti ai critici. Proprio come gli animali sognano più frequentemente eventi gratificanti positivamente o negativamente, i nostri agenti riproducono preferenzialmente sequenze contenenti eventi gratificanti”, aggiunge lo studio.

Con queste due attività ausiliarie aggiunte al precedente agente A3C, il nuovo agente/bot risultante si basa su ciò che il team chiama Unreal (UNsupervised REinforcement and Auxiliary Learning). Il team ha virtualmente messo questo bot davanti a 57 giochi Atari e uno separato Wolfensteingioco labirintico composto da 13 livelli. In tutti gli scenari, al bot è stata fornita l’immagine di output RGB grezza, fornendogli accesso diretto ai pixel per una precisione del 100%. Il bot Unreal è stato premiato su tutta la linea per compiti come abbattere gli alieni Invasori spaziali ad afferrare le mele in un labirinto 3D.

Poiché il bot Unreal può controllare i pixel e prevedere se le azioni produrranno ricompense, è in grado di apprendere 10 volte più velocemente del precedente miglior agente di DeepMind (A3C). Ancor di più, produce anche prestazioni migliori rispetto al campione precedente.

"Ora possiamo raggiungere l'87% delle prestazioni umane degli esperti, calcolate in media tra i livelli Labyrinth considerati, con prestazioni sovrumane su alcuni di essi", ha affermato la società. "Su Atari, l'agente ora raggiunge in media 9 volte le prestazioni umane."

DeepMind è fiducioso che il lavoro svolto sul bot Unreal consentirà al team di ampliare tutti i suoi agenti/bot per gestire ambienti ancora più complessi nel prossimo futuro. Fino ad allora, guarda il video incorporato sopra che mostra l'IA che si muove attraverso labirinti e afferra le mele da sola senza alcun intervento umano.

Raccomandazioni degli editori

  • Scacchi. Pericolo. Andare. Perché utilizziamo i giochi come punto di riferimento per l’intelligenza artificiale?
  • Rivisitare l'ascesa dell'intelligenza artificiale: quanta strada ha fatto l'intelligenza artificiale dal 2010?
  • L'A.I. DeepMind di Google sconfigge gli avversari umani in Quake III Capture the Flag

Migliora il tuo stile di vitaDigital Trends aiuta i lettori a tenere d'occhio il frenetico mondo della tecnologia con tutte le ultime notizie, divertenti recensioni di prodotti, editoriali approfonditi e anteprime uniche nel loro genere.