डीपमाइंड - बिना पर्यवेक्षित सहायक कार्यों के साथ सुदृढीकरण सीखना
एआई सीखने में तेजी लाने के लिए पहला जोड़ा गया कार्य यह समझने की क्षमता है कि स्क्रीन पर पिक्सल को कैसे नियंत्रित किया जाए। डीपमाइंड के अनुसार, यह विधि उसी तरह है जैसे एक बच्चा अपने हाथों को हिलाकर और उन गतिविधियों को देखकर उन्हें नियंत्रित करना सीखता है। एआई के मामले में, बॉट पिक्सल को नियंत्रित करके दृश्य इनपुट को समझेगा, जिससे बेहतर स्कोर प्राप्त होगा।
अनुशंसित वीडियो
“एक ऐसे बच्चे पर विचार करें जो लाल रंग की संचयी मात्रा को अधिकतम करना सीखता है जिसे वह देखता है। इष्टतम मूल्य का सही अनुमान लगाने के लिए, बच्चे को यह समझना चाहिए कि हेरफेर (आंखों के करीब एक लाल वस्तु लाना) सहित विभिन्न तरीकों से 'लालिमा' को कैसे बढ़ाया जाए; हरकत (लाल वस्तु के सामने घूमना); और संचार (जब तक माता-पिता लाल वस्तु नहीं लाते तब तक रोना),'' डीपमाइंड के पेपर में कहा गया है। "ये व्यवहार कई अन्य लक्ष्यों के लिए दोबारा होने की संभावना है जिनका बच्चा बाद में सामना कर सकता है।"
संबंधित
- यह बॉट आपको पिक्शनरी में नष्ट कर देगा। यह ए.आई. के लिए भी एक बड़ा मील का पत्थर है।
- Google का DeepMind StarCraft II बॉट्स की तरह Waymo की सेल्फ-ड्राइविंग कारों को प्रशिक्षित कर रहा है
- Google ने A.I का उपयोग करने का एक तरीका ढूंढ लिया है पवन ऊर्जा की उपयोगिता को बढ़ावा देना
दूसरे अतिरिक्त कार्य का उपयोग एआई को यह अनुमान लगाने के लिए प्रशिक्षित करने के लिए किया जाता है कि पूर्व कार्यों के संक्षिप्त इतिहास के आधार पर तत्काल पुरस्कार क्या होंगे। इसे सक्षम करने के लिए, टीम ने पिछले पुरस्कृत और गैर-पुरस्कृत इतिहास को समान मात्रा में प्रदान किया। अंतिम परिणाम यह है कि एआई दृश्य सुविधाओं की खोज कर सकता है जिससे संभवतः पहले की तुलना में तेजी से पुरस्कार मिलेंगे।
“अधिक कुशलता से सीखने के लिए, हमारे एजेंट आलोचकों को अतिरिक्त अपडेट प्रदान करने के लिए एक अनुभव रीप्ले तंत्र का उपयोग करते हैं। जिस तरह जानवर अक्सर सकारात्मक या नकारात्मक रूप से पुरस्कृत घटनाओं के बारे में सपने देखते हैं, उसी तरह हमारे एजेंट पुरस्कृत घटनाओं वाले अनुक्रमों को प्राथमिकता से दोहराते हैं,'' पेपर में कहा गया है।
पिछले A3C एजेंट में जोड़े गए इन दो सहायक कार्यों के साथ, परिणामी नया एजेंट/बॉट उस पर आधारित है जिसे टीम अवास्तविक (UNsupervised REinforcement और Auxiliary लर्निंग) कहती है। टीम ने वस्तुतः इस बॉट को 57 अटारी खेलों और एक अलग से सामने रखा Wolfenstein-जैसे भूलभुलैया गेम में 13 स्तर होते हैं। सभी परिदृश्यों में, बॉट को कच्ची आरजीबी आउटपुट छवि दी गई, जिससे उसे 100 प्रतिशत सटीकता के लिए पिक्सल तक सीधी पहुंच प्रदान की गई। अवास्तविक बॉट को एलियंस को मार गिराने जैसे कार्यों के लिए पूरे बोर्ड में पुरस्कृत किया गया था अंतरिक्ष आक्रमणकारी 3डी भूलभुलैया में सेब पकड़ने के लिए।
क्योंकि अवास्तविक बॉट पिक्सेल को नियंत्रित कर सकता है और भविष्यवाणी कर सकता है कि क्या कार्रवाई से पुरस्कार मिलेगा, यह डीपमाइंड के पिछले सर्वश्रेष्ठ एजेंट (ए3सी) की तुलना में 10 गुना तेजी से सीखने में सक्षम है। इससे भी अधिक, यह पिछले चैंपियन की तुलना में भी बेहतर प्रदर्शन करता है।
कंपनी ने कहा, "अब हम जिन लेबिरिंथ स्तरों पर विचार कर रहे थे, उनमें से कई स्तरों पर सुपर-मानवीय प्रदर्शन के साथ, विशेषज्ञ मानव प्रदर्शन का औसत 87 प्रतिशत प्राप्त कर सकते हैं।" "अटारी पर, एजेंट अब औसतन 9x मानव प्रदर्शन प्राप्त करता है।"
डीपमाइंड आशावान है अवास्तविक बॉट में जो काम किया गया, वह टीम को निकट भविष्य में और भी अधिक जटिल वातावरण को संभालने के लिए अपने सभी एजेंटों/बॉट्स को बढ़ाने में सक्षम करेगा। तब तक, ऊपर दिए गए वीडियो को देखें जिसमें एआई को भूलभुलैया के माध्यम से आगे बढ़ते हुए और बिना किसी मानवीय हस्तक्षेप के सेब को अपने आप पकड़ते हुए दिखाया गया है।
संपादकों की सिफ़ारिशें
- शतरंज। ख़तरा. जाना। हम A.I. के लिए बेंचमार्क के रूप में गेम का उपयोग क्यों करते हैं?
- ए.आई. के उदय पर दोबारा गौर करना: 2010 के बाद से कृत्रिम बुद्धिमत्ता कितनी आगे आ गई है?
- Google का डीपमाइंड A.I. क्वेक III कैप्चर द फ़्लैग में मानव विरोधियों को हराया
अपनी जीवनशैली को उन्नत करेंडिजिटल ट्रेंड्स पाठकों को सभी नवीनतम समाचारों, मजेदार उत्पाद समीक्षाओं, व्यावहारिक संपादकीय और एक तरह की अनूठी झलक के साथ तकनीक की तेज़ गति वाली दुनिया पर नज़र रखने में मदद करता है।