DeepMind Menjadi Tidak Nyata Dengan Agen AI Baru yang Belajar Cepat

DeepMind - Pembelajaran Penguatan dengan Tugas Tambahan Tanpa Pengawasan

DeepMind Google merilis makalah minggu ini yang berjudul Pembelajaran Penguatan dengan Tugas Bantu Tanpa Pengawasan, yang menjelaskan metode untuk meningkatkan kecepatan pembelajaran kecerdasan buatan dan kinerja akhir agen — atau bot. Metode ini mencakup penambahan dua tugas tambahan utama untuk dilakukan saat AI berlatih, dan mengembangkan standar secara mendalam landasan pembelajaran penguatan, yang pada dasarnya merupakan metode penghargaan/hukuman coba-coba di mana AI belajar darinya kesalahan.

Tugas tambahan pertama untuk mempercepat pembelajaran AI adalah kemampuan untuk memahami cara mengontrol piksel di layar. Menurut DeepMind, cara ini mirip dengan bagaimana bayi belajar mengendalikan tangannya dengan menggerakkan dan memperhatikan gerakan tersebut. Dalam kasus AI, bot akan memahami masukan visual dengan mengontrol piksel, sehingga menghasilkan skor yang lebih baik.

Video yang Direkomendasikan

“Contohlah seorang bayi yang belajar memaksimalkan jumlah kumulatif warna merah yang ia amati. Untuk memprediksi nilai optimal dengan benar, bayi harus memahami cara meningkatkan ‘kemerahan’ dengan berbagai cara, termasuk manipulasi (mendekatkan benda merah ke mata); penggerak (bergerak di depan benda berwarna merah); dan komunikasi (menangis sampai orang tua membawa benda berwarna merah),” tulis makalah DeepMind. “Perilaku ini kemungkinan besar akan terulang kembali karena banyak tujuan lain yang mungkin dihadapi bayi selanjutnya.”

Terkait

  • Bot ini akan menghancurkan Anda di Pictionary. Ini juga merupakan pencapaian besar bagi A.I.
  • DeepMind Google sedang melatih mobil self-driving Waymo seperti bot StarCraft II
  • Google telah menemukan cara untuk menggunakan A.I. untuk meningkatkan kegunaan energi angin

Tugas tambahan kedua digunakan untuk melatih AI memprediksi hadiah apa yang akan diberikan berdasarkan sejarah singkat tindakan sebelumnya. Untuk mengaktifkan hal ini, tim memberikan jumlah yang sama dari riwayat yang bermanfaat dan tidak bermanfaat sebelumnya. Hasil akhirnya adalah AI dapat menemukan fitur visual yang kemungkinan besar akan menghasilkan hadiah lebih cepat dari sebelumnya.

“Untuk belajar lebih efisien, agen kami menggunakan mekanisme pemutaran ulang pengalaman untuk memberikan pembaruan tambahan kepada para kritikus. Sama seperti hewan yang lebih sering bermimpi tentang peristiwa positif atau negatif, agen kami juga lebih suka memutar ulang rangkaian peristiwa yang memberi manfaat,” tambah surat kabar tersebut.

Dengan dua tugas tambahan ini ditambahkan ke agen A3C sebelumnya, agen/bot baru yang dihasilkan didasarkan pada apa yang disebut tim Unreal (UNsupervised REinforcement dan Auxiliary Learning). Tim secara virtual menempatkan bot ini di depan 57 game Atari dan satu game terpisah Wolfenstein-Permainan seperti labirin yang terdiri dari 13 level. Dalam semua skenario, bot diberi gambar keluaran RGB mentah, yang memberikannya akses langsung ke piksel untuk akurasi 100 persen. Bot Unreal diberi penghargaan secara menyeluruh untuk tugas-tugas seperti menembak jatuh alien Penjajah Luar Angkasa untuk mengambil apel di labirin 3D.

Karena bot Unreal dapat mengontrol piksel dan memprediksi apakah tindakan akan menghasilkan imbalan, bot ini mampu belajar 10 kali lebih cepat dibandingkan agen terbaik DeepMind sebelumnya (A3C). Terlebih lagi menghasilkan performa yang lebih baik dari champion sebelumnya juga.

“Kami sekarang dapat mencapai rata-rata 87 persen kinerja manusia ahli di seluruh tingkat Labirin yang kami pertimbangkan, dengan kinerja manusia super di beberapa tingkat tersebut,” kata perusahaan itu. “Di Atari, agen kini mencapai rata-rata kinerja manusia 9x lipat.”

DeepMind penuh harapan bahwa pekerjaan yang dilakukan pada bot Unreal akan memungkinkan tim untuk meningkatkan semua agen/botnya untuk menangani lingkungan yang lebih kompleks dalam waktu dekat. Sampai saat itu, lihat video yang disematkan di atas yang menunjukkan AI bergerak melalui labirin dan mengambil apel sendiri tanpa campur tangan manusia.

Rekomendasi Editor

  • Catur. Bahaya. Pergi. Mengapa kami menggunakan game sebagai tolok ukur AI?
  • Meninjau kembali kebangkitan AI: Sejauh mana kemajuan kecerdasan buatan sejak tahun 2010?
  • AI DeepMind Google mengalahkan lawan manusia di Quake III Capture the Flag

Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terbaru, ulasan produk yang menyenangkan, editorial yang berwawasan luas, dan cuplikan unik.