एक नए, त्वरित-सीखने वाले एआई एजेंट के साथ डीपमाइंड अवास्तविक हो गया है

डीपमाइंड - बिना पर्यवेक्षित सहायक कार्यों के साथ सुदृढीकरण सीखना

Google के DeepMind ने इस सप्ताह एक पेपर जारी किया जिसका नाम है बिना पर्यवेक्षित सहायक कार्यों के साथ सुदृढीकरण सीखना, जो कृत्रिम बुद्धिमत्ता की सीखने की गति और एजेंटों - या बॉट्स के अंतिम प्रदर्शन को बढ़ाने की एक विधि का वर्णन करता है। इस पद्धति में एआई ट्रेन के दौरान प्रदर्शन करने के लिए दो मुख्य अतिरिक्त कार्यों को जोड़ना और मानक गहराई पर निर्माण करना शामिल है सुदृढीकरण सीखने की नींव, जो मूल रूप से एक परीक्षण-और-त्रुटि इनाम/दंड पद्धति है जहां एआई इससे सीखता है गलतियां।

एआई सीखने में तेजी लाने के लिए पहला जोड़ा गया कार्य यह समझने की क्षमता है कि स्क्रीन पर पिक्सल को कैसे नियंत्रित किया जाए। डीपमाइंड के अनुसार, यह विधि उसी तरह है जैसे एक बच्चा अपने हाथों को हिलाकर और उन गतिविधियों को देखकर उन्हें नियंत्रित करना सीखता है। एआई के मामले में, बॉट पिक्सल को नियंत्रित करके दृश्य इनपुट को समझेगा, जिससे बेहतर स्कोर प्राप्त होगा।

अनुशंसित वीडियो

“एक ऐसे बच्चे पर विचार करें जो लाल रंग की संचयी मात्रा को अधिकतम करना सीखता है जिसे वह देखता है। इष्टतम मूल्य का सही अनुमान लगाने के लिए, बच्चे को यह समझना चाहिए कि हेरफेर (आंखों के करीब एक लाल वस्तु लाना) सहित विभिन्न तरीकों से 'लालिमा' को कैसे बढ़ाया जाए; हरकत (लाल वस्तु के सामने घूमना); और संचार (जब तक माता-पिता लाल वस्तु नहीं लाते तब तक रोना),'' डीपमाइंड के पेपर में कहा गया है। "ये व्यवहार कई अन्य लक्ष्यों के लिए दोबारा होने की संभावना है जिनका बच्चा बाद में सामना कर सकता है।"

संबंधित

यह बॉट आपको पिक्शनरी में नष्ट कर देगा। यह ए.आई. के लिए भी एक बड़ा मील का पत्थर है।
Google का DeepMind StarCraft II बॉट्स की तरह Waymo की सेल्फ-ड्राइविंग कारों को प्रशिक्षित कर रहा है
Google ने A.I का उपयोग करने का एक तरीका ढूंढ लिया है पवन ऊर्जा की उपयोगिता को बढ़ावा देना

दूसरे अतिरिक्त कार्य का उपयोग एआई को यह अनुमान लगाने के लिए प्रशिक्षित करने के लिए किया जाता है कि पूर्व कार्यों के संक्षिप्त इतिहास के आधार पर तत्काल पुरस्कार क्या होंगे। इसे सक्षम करने के लिए, टीम ने पिछले पुरस्कृत और गैर-पुरस्कृत इतिहास को समान मात्रा में प्रदान किया। अंतिम परिणाम यह है कि एआई दृश्य सुविधाओं की खोज कर सकता है जिससे संभवतः पहले की तुलना में तेजी से पुरस्कार मिलेंगे।

“अधिक कुशलता से सीखने के लिए, हमारे एजेंट आलोचकों को अतिरिक्त अपडेट प्रदान करने के लिए एक अनुभव रीप्ले तंत्र का उपयोग करते हैं। जिस तरह जानवर अक्सर सकारात्मक या नकारात्मक रूप से पुरस्कृत घटनाओं के बारे में सपने देखते हैं, उसी तरह हमारे एजेंट पुरस्कृत घटनाओं वाले अनुक्रमों को प्राथमिकता से दोहराते हैं,'' पेपर में कहा गया है।

पिछले A3C एजेंट में जोड़े गए इन दो सहायक कार्यों के साथ, परिणामी नया एजेंट/बॉट उस पर आधारित है जिसे टीम अवास्तविक (UNsupervised REinforcement और Auxiliary लर्निंग) कहती है। टीम ने वस्तुतः इस बॉट को 57 अटारी खेलों और एक अलग से सामने रखा Wolfenstein-जैसे भूलभुलैया गेम में 13 स्तर होते हैं। सभी परिदृश्यों में, बॉट को कच्ची आरजीबी आउटपुट छवि दी गई, जिससे उसे 100 प्रतिशत सटीकता के लिए पिक्सल तक सीधी पहुंच प्रदान की गई। अवास्तविक बॉट को एलियंस को मार गिराने जैसे कार्यों के लिए पूरे बोर्ड में पुरस्कृत किया गया था अंतरिक्ष आक्रमणकारी 3डी भूलभुलैया में सेब पकड़ने के लिए।

क्योंकि अवास्तविक बॉट पिक्सेल को नियंत्रित कर सकता है और भविष्यवाणी कर सकता है कि क्या कार्रवाई से पुरस्कार मिलेगा, यह डीपमाइंड के पिछले सर्वश्रेष्ठ एजेंट (ए3सी) की तुलना में 10 गुना तेजी से सीखने में सक्षम है। इससे भी अधिक, यह पिछले चैंपियन की तुलना में भी बेहतर प्रदर्शन करता है।

कंपनी ने कहा, "अब हम जिन लेबिरिंथ स्तरों पर विचार कर रहे थे, उनमें से कई स्तरों पर सुपर-मानवीय प्रदर्शन के साथ, विशेषज्ञ मानव प्रदर्शन का औसत 87 प्रतिशत प्राप्त कर सकते हैं।" "अटारी पर, एजेंट अब औसतन 9x मानव प्रदर्शन प्राप्त करता है।"

डीपमाइंड आशावान है अवास्तविक बॉट में जो काम किया गया, वह टीम को निकट भविष्य में और भी अधिक जटिल वातावरण को संभालने के लिए अपने सभी एजेंटों/बॉट्स को बढ़ाने में सक्षम करेगा। तब तक, ऊपर दिए गए वीडियो को देखें जिसमें एआई को भूलभुलैया के माध्यम से आगे बढ़ते हुए और बिना किसी मानवीय हस्तक्षेप के सेब को अपने आप पकड़ते हुए दिखाया गया है।

संपादकों की सिफ़ारिशें

शतरंज। ख़तरा. जाना। हम A.I. के लिए बेंचमार्क के रूप में गेम का उपयोग क्यों करते हैं?
ए.आई. के उदय पर दोबारा गौर करना: 2010 के बाद से कृत्रिम बुद्धिमत्ता कितनी आगे आ गई है?
Google का डीपमाइंड A.I. क्वेक III कैप्चर द फ़्लैग में मानव विरोधियों को हराया

अपनी जीवनशैली को उन्नत करेंडिजिटल ट्रेंड्स पाठकों को सभी नवीनतम समाचारों, मजेदार उत्पाद समीक्षाओं, व्यावहारिक संपादकीय और एक तरह की अनूठी झलक के साथ तकनीक की तेज़ गति वाली दुनिया पर नज़र रखने में मदद करता है।

एक नए, त्वरित-सीखने वाले एआई एजेंट के साथ डीपमाइंड अवास्तविक हो गया है

संपादकों की सिफ़ारिशें

श्रेणियाँ

हाल का

गेटवे आईडी सीरीज और एल23 नोटबुक के साथ आकर्षक हो गया है

क्रिएटिव लैब्स ज़ेन नैनो प्लस (1GB) समीक्षा

स्टार वार्स डे: चौथा आपके साथ रहे