أصبح DeepMind غير واقعي مع وكيل الذكاء الاصطناعي الجديد سريع التعلم

DeepMind - تعزيز التعلم من خلال المهام المساعدة غير الخاضعة للرقابة

أصدرت شركة DeepMind من Google ورقة بحثية هذا الأسبوع بعنوان تعزيز التعلم باستخدام المهام المساعدة غير الخاضعة للرقابة، الذي يصف طريقة لزيادة سرعة التعلم للذكاء الاصطناعي والأداء النهائي للعملاء - أو الروبوتات. تتضمن هذه الطريقة إضافة مهمتين إضافيتين رئيسيتين لأداءهما أثناء تدريب الذكاء الاصطناعي، والبناء على العمق القياسي أساس التعلم المعزز، وهو في الأساس طريقة للمكافأة/العقاب تعتمد على التجربة والخطأ حيث يتعلم الذكاء الاصطناعي منها أخطاء.

تتمثل المهمة المضافة الأولى لتسريع تعلم الذكاء الاصطناعي في القدرة على فهم كيفية التحكم في وحدات البكسل على الشاشة. وفقًا لـ DeepMind، تشبه هذه الطريقة الطريقة التي يتعلم بها الطفل التحكم في يديه من خلال تحريكهما ومشاهدة تلك الحركات. في حالة الذكاء الاصطناعي، سوف يفهم الروبوت المدخلات المرئية من خلال التحكم في وحدات البكسل، مما يؤدي إلى نتائج أفضل.

مقاطع الفيديو الموصى بها

"فكر في طفل يتعلم تعظيم الكمية التراكمية من اللون الأحمر التي يلاحظها. للتنبؤ بالقيمة المثلى بشكل صحيح، يجب على الطفل أن يفهم كيفية زيادة "الاحمرار" بوسائل مختلفة، بما في ذلك التلاعب (تقريب الجسم الأحمر من العينين)؛ الحركة (التحرك أمام جسم أحمر)؛ والتواصل (البكاء حتى يحضر الوالدان شيئًا أحمر اللون)”. "من المرجح أن تتكرر هذه السلوكيات للعديد من الأهداف الأخرى التي قد يواجهها الطفل لاحقًا."

متعلق ب

  • سوف يدمرك هذا الروبوت في Pictionary. إنها أيضًا علامة فارقة كبيرة بالنسبة للذكاء الاصطناعي.
  • تقوم شركة DeepMind من Google بتدريب سيارات Waymo ذاتية القيادة مثل روبوتات StarCraft II
  • لقد وجدت Google طريقة لاستخدام الذكاء الاصطناعي. لتعزيز فائدة طاقة الرياح

يتم استخدام المهمة المضافة الثانية لتدريب الذكاء الاصطناعي على التنبؤ بالمكافآت الفورية التي ستعتمد على تاريخ موجز للإجراءات السابقة. ولتمكين ذلك، قدم الفريق كميات متساوية من السجلات السابقة المجزية وغير المجزية. والنتيجة النهائية هي أن الذكاء الاصطناعي يمكنه اكتشاف الميزات المرئية التي من المحتمل أن تؤدي إلى الحصول على مكافآت بشكل أسرع من ذي قبل.

"للتعلم بشكل أكثر كفاءة، يستخدم وكلاؤنا آلية إعادة تشغيل التجربة لتوفير تحديثات إضافية للنقاد. وكما تحلم الحيوانات بأحداث مجزية بشكل إيجابي أو سلبي بشكل متكرر، فإن عملاءنا يفضلون إعادة تشغيل التسلسلات التي تحتوي على أحداث مجزية.

مع إضافة هاتين المهمتين المساعدتين إلى وكيل A3C السابق، يعتمد الوكيل/الروبوت الجديد الناتج على ما يسميه الفريق Unreal (التعزيز غير الخاضع للإشراف والتعلم المساعد). لقد جلس الفريق فعليًا هذا الروبوت أمام 57 مباراة أتاري ومنفصلة ولفنشتاين-مثل لعبة المتاهة المكونة من 13 مستوى. في جميع السيناريوهات، تم منح الروبوت صورة مخرجات RGB أولية، مما يوفر له إمكانية الوصول المباشر إلى وحدات البكسل بدقة تصل إلى 100 بالمائة. تمت مكافأة الروبوت غير الحقيقي في جميع المجالات لمهام مثل إسقاط الكائنات الفضائية غزاة الفضاء للاستيلاء على التفاح في متاهة ثلاثية الأبعاد.

نظرًا لأن الروبوت غير الحقيقي يمكنه التحكم في وحدات البكسل والتنبؤ بما إذا كانت الإجراءات ستؤدي إلى مكافآت، فهو قادر على التعلم أسرع بعشر مرات من أفضل وكيل سابق لـ DeepMind (A3C). والأكثر من ذلك، أنه يقدم أداء أفضل من البطل السابق أيضًا.

وقالت الشركة: "يمكننا الآن تحقيق 87% من الأداء البشري الخبير في المتوسط ​​عبر مستويات المتاهة التي أخذناها في الاعتبار، مع أداء بشري فائق في عدد منها". "في Atari، يحقق الوكيل الآن متوسط ​​أداء بشري يبلغ 9x."

DeepMind متفائل أن العمل الذي تم إنجازه في برنامج Unreal bot سيمكن الفريق من توسيع نطاق جميع وكلائه/روبوتاته للتعامل مع بيئات أكثر تعقيدًا في المستقبل القريب. وحتى ذلك الحين، شاهد الفيديو المضمن أعلاه والذي يُظهر الذكاء الاصطناعي وهو يتحرك عبر المتاهات ويلتقط التفاح بمفرده دون أي تدخل بشري.

توصيات المحررين

  • شطرنج. خطر. يذهب. لماذا نستخدم الألعاب كمعيار للذكاء الاصطناعي؟
  • إعادة النظر في صعود الذكاء الاصطناعي: إلى أي مدى وصل الذكاء الاصطناعي منذ عام 2010؟
  • جوجل DeepMind A.I. يهزم المعارضين البشريين في Quake III Capture the Flag

ترقية نمط حياتكتساعد الاتجاهات الرقمية القراء على متابعة عالم التكنولوجيا سريع الخطى من خلال أحدث الأخبار ومراجعات المنتجات الممتعة والمقالات الافتتاحية الثاقبة ونظرات خاطفة فريدة من نوعها.