مبرمج يدرب الذكاء الاصطناعي على رسم الوجوه من النص

الفاصل الزمني للتدريب T2F

أراد المبرمج أنيميش كارنيوار أن يعرف كيف ستظهر الشخصيات الموصوفة في الكتب في الواقع، لذلك لجأ إلى الذكاء الاصطناعي لمعرفة ما إذا كان يمكنه تقديم هؤلاء الأشخاص الخياليين بشكل صحيح. يستخدم المشروع البحثي المسمى T2F شبكة الخصومة التوليدية (GAN) لتشفير النص وتجميع صور الوجه.

ببساطة، تتكون شبكة GAN من شبكتان عصبيتان تتجادلان مع بعضهما البعض لإنتاج أفضل النتائج. على سبيل المثال، تتمثل مهمة الشبكة رقم 1 في خداع الشبكة رقم 2 للاعتقاد بأن الصورة المعروضة هي صورة حقيقية بينما تسعى الشبكة رقم 2 إلى إثبات أن الصورة المزعومة هي مجرد صورة معروضة. تعمل هذه العملية ذهابًا وإيابًا على ضبط عملية العرض حتى يتم خداع الشبكة رقم 2 في النهاية.

مقاطع الفيديو الموصى بها

بدأ Karnewar المشروع باستخدام مجموعة بيانات تسمى Face2Text مقدمة من باحثين في جامعة كوبنهاجنوالذي يحتوي على أوصاف اللغة الطبيعية لـ 400 صورة عشوائية.

يكتب: "يتم تنظيف الأوصاف لإزالة التسميات التوضيحية المترددة وغير ذات الصلة المقدمة للأشخاص الموجودين في الصور". "بعض الأوصاف لا تصف ملامح الوجه فحسب، بل توفر أيضًا بعض المعلومات الضمنية من الصور."

في حين أن النتائج الناجمة عن مشروع T2F الخاص بشركة Karnewar ليست واقعية تمامًا، إلا أنها مجرد بداية. يُظهر مقطع الفيديو المضمن أعلاه عرضًا متتابعًا لكيفية تدريب GAN على عرض الرسوم التوضيحية من النص، بدءًا من الكتل الصلبة من الألوان وانتهاءً بالمتقطّعات الخشنة ولكن التي يمكن تحديدها الاداءات.

يوضح كارنيوار: "لقد وجدت أن العينات التي تم إنشاؤها بدقة أعلى (32 × 32 و64 × 64) بها ضوضاء خلفية أكثر مقارنة بالعينات التي تم إنشاؤها بدقة أقل". "أدرك ذلك بسبب عدم كفاية كمية البيانات (400 صورة فقط)."

التقنية المستخدمة لتدريب شبكات الخصومة تسمى “النمو التدريجي لشبكات GAN"، مما يحسن الجودة والاستقرار مع مرور الوقت. كما يظهر في الفيديو، يبدأ مولد الصور بدقة منخفضة للغاية. يتم إدخال طبقات جديدة ببطء في النموذج، مما يؤدي إلى زيادة التفاصيل مع تقدم التدريب بمرور الوقت.

ويضيف: "إن النمو التدريجي لشبكات GAN هو أسلوب استثنائي لتدريب شبكات GAN بشكل أسرع وبطريقة أكثر استقرارًا". "ويمكن أن يقترن هذا بمساهمات جديدة متنوعة من أوراق بحثية أخرى."

في أحد الأمثلة المقدمة، يوضح الوصف النصي امرأة في أواخر العشرينيات من عمرها ذات شعر بني طويل مصفف إلى جانب واحد، وملامح وجه لطيفة وبدون مكياج. إنها "عارضة" و"مريحة". وصف آخر يوضح رجلاً في الأربعينيات من عمره ذو وجه ممدود وأنف بارز وعينين بنيتين وخط شعر متراجع وشارب قصير. على الرغم من أن النتائج النهائية منقطة للغاية، إلا أن العروض النهائية تظهر تقدمًا كبيرًا في كيفية عمل الذكاء الاصطناعي. يمكن أن تولد الوجوه من الصفر.

يقول كارنيوار إنه يخطط لتوسيع نطاق المشروع لدمج مجموعات بيانات إضافية مثل التسميات التوضيحية لـ Flicker8K وCoco. في نهاية المطاف، يمكن استخدام T2F في مجال إنفاذ القانون لتحديد الضحايا و/أو المجرمين بناءً على الأوصاف النصية، من بين تطبيقات أخرى. إنه منفتح على الاقتراحات والمساهمات في المشروع.

للوصول إلى الرمز والمساهمة، توجه إلى مستودع Karnewar على Github هنا.

توصيات المحررين

  • العلماء يستخدمون الذكاء الاصطناعي لإنشاء شفرة وراثية بشرية اصطناعية
  • إعادة النظر في صعود الذكاء الاصطناعي: إلى أي مدى وصل الذكاء الاصطناعي منذ عام 2010؟
  • تتعاون Intel وFacebook لمنح Cooper Lake دفعة من الذكاء الاصطناعي

ترقية نمط حياتكتساعد الاتجاهات الرقمية القراء على متابعة عالم التكنولوجيا سريع الخطى من خلال أحدث الأخبار ومراجعات المنتجات الممتعة والمقالات الافتتاحية الثاقبة ونظرات خاطفة فريدة من نوعها.