مشروع غوتشيبيرغ: كتب صوتية مزيفة بعمق من غوتشي ماني

""غوتشي ماني مجنون، قد أقف على حمار وحشي / أهبط فوق نسر، وأدخن سيجارة من الريفا."

محتويات

  • عباقرة الشر
  • Deepfake-A-ثون

هذه كلمات غنائية لغوتشي ماني من أغنيته "It's Gucci Time" لعام 2010 من الألبوم النداء: المطلوبين في جورجيا.

مقاطع الفيديو الموصى بها

"إنها حقيقة معترف بها عالميًا / أن الرجل الوحيد الذي يمتلك ثروة جيدة، لا بد أن يكون في حاجة إلى زوجة." وهذا أيضًا، الآن، حانة غوتشي، على الرغم من أنها كتبت في الأصل بواسطة جين أوستن في روايتها عن الأخلاق عام 1813، كبرياء وتحامل، على الرغم من أن غوتشي تضفي عليه مستوى من التباهي بالراب الذي لا يظهر تمامًا في قراءات أخرى للنص الإنجليزي الكلاسيكي. (بالمقارنة، الأعلى مسموع تتم قراءة الإدخال لنفس الرواية من قبل نجمة الراب روزاموند بايك التي لا تشوبها شائبة.)

كما تبين، كان غوتشي مشغولا - أكثر انشغالا حتى مما كان عليه خلال الفترة 2010-2015 عندما كان يصدر أشرطة مختلطة بمعدل مذهل يبلغ حوالي واحد في الشهر. اليوم، ظهر مغني الراب البالغ من العمر 41 عامًا لأول مرة في قراءات صوتية لنفسه وهو يقرأ مجموعة متنوعة من الروايات الكلاسيكية تحت عنوان رائع إلى حد ما ""مشروع غوتشيبيرج

". مجموعة صغيرة من الروايات تشمل مغامرات أليس في بلاد العجائب, نساء صغيرات, اقتراح متواضع, دراكولا، و أهمية أن تكون جديًا.

فقط هو لم يفعل. حسنا، ليس بالضبط.

MSCHF

انها أكثر سحر الصوت المزيف العميق، هذه المرة بفضل فريق الفنون الرقمية الجماعي ومقره نيويورك MSCHF. جديد من مشروعهم الأخير - الذي هم فيه تم ربط مسدس كرات الطلاء بأحد روبوتات Spot التابعة لشركة Boston Dynamics، وسمح للمستخدمين بالتحكم فيه عن بعد عبر الإنترنت - لقد قدم الفريق علامتهم التجارية التي تتميز بضغط الزر والذكاء التكنولوجي المتمثلة في عدم احترام المخادعين مشروع يتم فيه التحكم عن بعد لمغني الراب المولود رادريك ديلانتيك ديفيس (على الأقل، كلماته) ليروي عددًا كبيرًا من الموسيقى القديمة روايات.

عباقرة الشر

قال دانييل جرينبيرج من MSCHF لـ Digital Trends: "يعد Gucci Mane أحد أكثر الموسيقيين تأثيرًا في تاريخ موسيقى الراب. يعد مشروع جوتنبرج أحد آخر معاقل نصوص الملكية العامة على الإنترنت. من خلال الجمع بين الاثنين، باستخدام قوة الذكاء الاصطناعي. التكنولوجيا، لقد أنشأنا الكتب الصوتية الأكثر تأثيرًا التي يقرأها مغني الراب في تاريخ الإنترنت.

لإنشاء الذكاء الاصطناعي المحب للأدب (غير المصرح به على الإطلاق). مغني الراب، قام الفريق بصياغة مجموعة بيانات تدريبية مدتها حوالي ست ساعات خطاب غوتشي، مأخوذ من المقابلات والبودكاست وأي لقطات صوتية أخرى متاحة للعامة يمكنهم البحث عنها موقع YouTube. تم بعد ذلك تحرير هذه المادة المصدرية، وتقليصها إلى أجزاء مدتها 10 ثوانٍ، ومعادلتها، ونسخها، وتصنيفها.

MSCHF

قال جرينبيرج: "بالإضافة إلى ذلك، قام فريقنا بتصميم مفتاح/قاموس نطق Gucci لالتقاط خصوصيات لغة Gucci Mane الخاصة بشكل أفضل". وأضاف: “بكل جدية، هذا الشيء يعادل أطروحة في علم اللغة”.

ثم تم استخدام مجموعة البيانات لتدريب الذكاء الاصطناعي. نموذج، وتدليك مرارا وتكرارا بحيث يحسن الإخراج، ثم يتم تعزيزه بلمسات إنسانية لإضافة لمسة مثل التوقفات الحامل إلى النص حيث مطلوب.

"قد يبدو الأمر كما لو أن غوتشي يتحدث عبر ميكروفون مكسور في بعض الأحيان، أو عبر بث صوتي سيئ - لأنه كان موجودًا في الكثير من المواد المصدرية لدينا،" اعترف غرينبرغ. "ومع ذلك، باستثناء هذه العوامل البيئية، نشعر أن محاكاة الصوت الفعلية ناجحة للغاية. إنه لأمر مدهش ومخيف في نفس الوقت مدى جودة هذه التكنولوجيا في جعل أي شخص يقول ما يريد.

MSCHF

ولم يستجب غوتشي ماني الحقيقي لطلب التعليق. ومع ذلك، فإن هذا، كما اعترف جرينبرج، يعد بمثابة "منطقة رمادية" عندما يتعلق الأمر بحقوق الطبع والنشر. وقال: "لم يتم تشريع الآثار المترتبة على حقوق الطبع والنشر المترتبة على التزييف العميق بعد". "جميع العينات الصوتية التي قمنا بتدريب نموذجنا عليها كانت متاحة للجمهور من خلال المقابلات. في نهاية المطاف، لدينا صوت ليس صوتنا، يقرأ نصوصًا عامة لم نكتبها، ولكننا نقوم بإنشاء كتبنا الصوتية "الخاصة".

Deepfake-A-ثون

في العام الماضي، قامت وكالة الترفيه Roc Nation LLC التابعة لـ Jay-Z واجهت مشكلة مع برنامج التزييف العميق للصوت الذي استخدم صوت مغني الراب للتعبير عن هراء مثل Navy Seal Copypasta على YouTube. لقد كان ذلك، كما أشرت في ذلك الوقت، لغزًا مثيرًا للإثارة بالنسبة لمغني الراب الذي ردد ذات مرة عبارة "لقد أخذت عينات من صوتك، لقد كنت تستخدمه بشكل خاطئ" خلال شجاره مع ناز في أوائل العقد الأول من القرن الحادي والعشرين. لكن شركة Roc Nation لم تكن تدخل في التعقيد المثير للسخرية للقضية. لقد كانوا منزعجين فقط من قيام شخص ما "باستخدام الذكاء الاصطناعي بشكل غير قانوني". لانتحال صوت عميلنا."

ليس من الصعب أن نفهم لماذا قد يشعر الفنان بالانزعاج من شيء كهذا. مثل ال التزييف البصري العميق هذا يضع الممثلين في أفلام لم يظهروا فيها مطلقًا (أو كما هي القيام بالجولات مؤخرا، توم كروز في سلسلة من مقاطع فيديو TikTok مفرطة النشاط)، يستحوذ التزييف الصوتي العميق للفنان على أقصى استفادة أحد الأصول القيمة - صوتهم، في هذه الحالة - ويستخدمونه لإنشاء شيء لم يوافقوا أبدًا على أدائه في. هناك قضايا أخلاقية ومالية على المحك.

MSCHF

أكد جرينبيرج أن "تاريخ موسيقى الراب هو تاريخ المرجعية الذاتية". "في جميع أنحاء قانون التقليد بأكمله، في جميع أنحاء جسد عمل فنان معين. عندما تلقي نظرة خاطفة تحت غطاء محرك الذكاء الاصطناعي. نموذج التعلم، هناك عملية مشابهة بشكل غريب تحدث - نوع من المرجعية الذاتية المفرطة. على الرغم من أن الأمر قد يبدو مائلًا، إلا أن كل هذا يتوافق بشكل جيد للغاية.

هل يجب أن نقلق بشأن خطر التزييف العميق للصوت في عالم يمكن فيه طمس الحقيقة والمزيف إلى درجة مذهلة؟

وقال: “بالتأكيد، لكن الإنذار لن يمنع التزييف العميق من أن يصبح سائداً أكثر فأكثر”. "هذه التكنولوجيا موجودة لتبقى، وسنكون محظوظين جدًا إذا تم استخدامها للمتعة فقط. ربما القيام بأشياء ممتعة معها سيساعدنا على إبقائنا في هذا المجال. لقد وصلنا إلى نقطة انعطاف حيث أصبح من المستحيل تمييز الحقيقة والخيال على الإنترنت. وهكذا، أدركنا أنه من الضروري أن نهدئ آذاننا بصوت القراءة اللطيف الناتج عن الذكاء الاصطناعي من Gucci Mane.

بينما تنطلق أغاني صفارات الإنذار التي تقودنا إلى صخور Skynet، ربما ليست Gucci سيئة للغاية، كما يحدث. خاصة إذا كان من الممكن أن يكون غوتشي في حقبة 2009، حوالي الدولة ضد. رادريك ديفيس.

توصيات المحررين

  • تريد هذه الشركة الناشئة استنساخ صوتك بعمق وبيعه لمن يدفع أعلى سعر
  • هل تعتبر تقنية التزييف العميق تقنية خطيرة؟ يختلف المبدعون والمنظمون