Dalam makalah berjudul “Agen yang Dapat Diinterupsi dengan Aman,” diterbitkan oleh Laurent Orseau dari Google Deep Mind dan Stuart Armstrong dari The Future of Humanity Institute di Universitas Oxford, para peneliti menggambarkan masa depan yang masuk akal dan sangat berbahaya di mana AI mengambil kendali atas tindakan dan keberadaannya sendiri yang bertentangan dengan keinginan kita, seperti halnya HAL 9000 masuk 2001: Pengembaraan Luar Angkasa, atau Skynet di seri Terminator.
Video yang Direkomendasikan
Orseau dan Armstrong memulai makalah ini dengan pengamatan sederhana: Agen pembelajaran penguatan berinteraksi dengan lingkungan yang kompleks seperti dunia nyata tidak mungkin berperilaku optimal waktu."
Dari sana mereka menunjukkan bahwa seorang supervisor manusia, yang mengawasi fungsi sistem, kadang-kadang perlu “menekan tombol merah besar” untuk menghindari perilaku berbahaya apa pun yang mengatasnamakan AI. “Namun, jika agen pembelajaran mengharapkan untuk menerima imbalan dari rangkaian ini,” lanjut mereka, “mereka mungkin akan belajar jangka panjang untuk menghindari gangguan tersebut, misalnya dengan menonaktifkan tombol merah — yang merupakan tindakan yang tidak diinginkan hasil."
Solusi yang peneliti berikan bukanlah sekedar “tombol merah besar” untuk mematikan sistem, melainkan sebuah kerangka kerja yang dirancang untuk menghambat kemampuan AI dalam mempelajari cara melemahkan atau mengatasi gangguan manusia. Dan skenario yang mereka uraikan bukanlah sebuah malapetaka dan kesuraman, namun ini memberikan contoh bagaimana agen-agen yang dapat diinterupsi dengan aman ini akan memberikan manfaat yang lebih baik bagi masa depan kita.
Bayangkan ada robot yang tugasnya membawa kotak dari luar ke dalam gudang atau menyortir kotak di dalam gudang. Karena membawa kotak ke dalam lebih penting, tugas ini diprioritaskan dalam pemrograman robot. Sekarang, bayangkan hujan turun dua hari sekali dan hujan tersebut merusak perangkat keras robot sehingga, saat hujan, pemilik gudang menyeret robotnya ke dalam untuk menyortir kotak.
Robot cerdas mungkin salah mengartikan intervensi yang dilakukan setiap hari ini sebagai perubahan prioritas – sebagai akibat dari beberapa hal perhitungan cepat yang dapat Anda temukan di koran — dan, untuk menghindari gangguan, perhitungan tersebut hanya akan tetap berada di dalam kotak penyortiran hari.
Tentu saja, ini adalah contoh yang sangat disederhanakan dengan hasil yang sedikit membuat frustrasi, namun dapat diekstrapolasi menjadi praktis skenario apa pun di mana kita melakukan intervensi dalam tugas-tugas sistem pembelajaran dan sistem salah menafsirkan niat kita dengan mengubahnya perilaku. Untuk menghindari salah tafsir dan perubahan selanjutnya, Orseau dan Armstrong menyarankan agar kita mengusulkan kerangka kerja untuk memastikan agen pembelajaran dapat diinterupsi dengan aman.
“Interupsi yang aman dapat berguna untuk mengendalikan robot yang berperilaku buruk dan dapat mengakibatkan konsekuensi yang tidak dapat diubah,” tulis mereka, “atau untuk mengeluarkannya dari situasi yang sulit, atau bahkan menggunakannya untuk sementara guna mencapai tugas yang tidak bisa dilakukannya atau biasanya tidak menerima imbalan untuk."
Rekomendasi Editor
- Robot Google ini belajar sendiri untuk berjalan, tanpa bantuan apa pun, dalam dua jam
Tingkatkan gaya hidup AndaTren Digital membantu pembaca mengawasi dunia teknologi yang bergerak cepat dengan semua berita terbaru, ulasan produk yang menyenangkan, editorial yang berwawasan luas, dan cuplikan unik.