تريد شركة Veritone استنساخ صوتك بتقنية Deepfake

هناك فيديو الذي ينبثق بشكل دوري على خلاصة YouTube الخاصة بي. إنها محادثة بين مغنيي الراب سنوب دوج و50 سنت يتحسرون على حقيقة أن جميع فناني الهيب هوب المعاصرين يبدون متشابهين مقارنة بجيلهم. يقول 50 سنت: "عندما يقرر شخص ما أن يكون على طبيعته، فإنه يقدم شيئًا لا يمكن لأي شخص آخر أن يقدمه". "نعم، لأنك بمجرد أن تكون أنت، فمن يمكن أن يكون أنت غيرك؟" سنوب يستجيب.

محتويات

"يمكننا إعادة استخدام الكثير"
كيف سيكون رد فعل الجمهور؟
فكر بالمستقبل

ينتحل سنوب دوج شخصية مغني الراب الحاليين الذين يشبهون التدفق الصوتي

عندما تم تحميل الفيديو في أكتوبر 2014، ربما كان هذا صحيحًا على نطاق واسع. ولكن بعد بضع سنوات فقط، من المؤكد أن الأمر ليس كذلك. في عالم التزييف الصوتي العميق، من الممكن تدريب الذكاء الاصطناعي. ليبدو مشابهًا بشكل مخيف لشخص آخر عن طريق تغذيته بمجموعة صوتية تتكون من ساعات من بياناته المنطوقة. النتائج هي دقيقة بشكل مثير للقلق.

مقاطع الفيديو الموصى بها

شخصيات عامة مثل مغني الراب جاي زي وقد اشتكى عالم النفس جوردان بيترسون بالفعل من قيام الأشخاص باختلاس أصواتهم من خلال إنشاء مقاطع صوتية مزيفة ثم جعلهم يقولون أشياء سخيفة على الإنترنت. "استيقظ،"

كتب بيترسون. "حرمة صوتك وصورتك في خطر جسيم". تلك هي الحالات المؤذية فقط. وفي حالات أخرى، يمكن أن تتحول النتائج إلى جريمة غير دقيقة. في حادثة واحدة عام 2019، استخدم المجرمون صوتًا مزيفًا عميقًا لانتحال صوت الرئيس التنفيذي لشركة طاقة وإقناع أحد أتباعه عبر الهاتف بتحويل مبلغ 243000 دولار أمريكي إلى حساب مصرفي بشكل عاجل.

فيريتون، منظمة العفو الدولية. الشركة التي تنشئ أدوات ذكية لتصنيف الوسائط لصناعة الترفيه هي إعادة قوة التزييف الصوتي العميق إلى أيدي (أو، أخطأ، حلق) أولئك الذين يحق لهم ذلك ينتمي. أعلنت الشركة هذا الشهر Marvel.ai، وهو ما وصفه رئيس الشركة رايان ستيلبيرج لـ Digital Trends بأنه "حل كامل للصوت كخدمة". مقابل رسوم، ستقوم Veritone ببناء ذكاء اصطناعي. نموذج ذلك يبدو مثلك تمامًا (أو، على الأرجح، شخص مشهور بصوت يمكن التعرف عليه على الفور)، والذي يمكن بعد ذلك ترخيصه على سبيل الإعارة مثل نسخة عالية التقنية من ارييل صفقة الصوت كضمان من الحوريةالصغيرة.

الصوت الاصطناعي بواسطة MARVEL.ai

قال ستيلبيرج: "إن صوتك لا يقل قيمة عن أي محتوى آخر أو سمة علامة تجارية تمتلكها". "[إنه على مستوى] اسمك وصورتك، أو وجهك، أو توقيعك، أو أغنية كتبتها أو جزء من المحتوى الذي أنشأته."

"يمكننا إعادة استخدام الكثير"

بالطبع، قام بعض الأفراد ببيع أصواتهم منذ فترة طويلة في شكل تسجيل إعلانات تجارية أو تعليقات صوتية، وغناء الأغاني، وأشكال أخرى لا حصر لها من تحقيق الدخل. لكن كل هذه المساعي تتطلب من الشخص أن يقول الكلمات فعليًا. ما يعد به حل Veritone هو جعل هذا قابلاً للتطوير بشكل فردي.

ماذا لو، على سبيل المثال، كان من الممكن أن يقوم كيفن هارت بترخيص صوته لعلامة تجارية فاخرة يمكنها بعد ذلك استخدامه لإنشاء إعلانات مخصصة يعرض اسم المشاهد، وموقع أقرب منفذ بيع فعلي له، والمنتج المعين الذي من المرجح أن يعرضه يشتري؟ بدلاً من قضاء أيام حرفيًا في حجرة التسجيل، قام الذكاء الاصطناعي. يمكن أن يسمح بذلك مع القليل (on هارت، على الأقل) من التوقيع على الخط المنقط للموافقة على استغلال صوته من قبل الطرف الثالث المذكور حزب. أثناء قيامه بتصوير فيلم، أو القيام بجولة كوميدية، أو أخذ إجازة، أو حتى النوم، يمكن أن يكون صوته الرقمي يجمع الأموال.

وأوضح ستيلبيرج فيما يتعلق بعملية التدريب: "يمكننا إعادة توظيف الكثير". "الأشخاص الذين يتحدثون كثيرًا بالفعل، سواء كانوا ينتجون بودكاست أو في وسائل الإعلام، هناك الكثير من البيانات هناك. من المحتمل أن يكون لدينا الكثير منها بالفعل إذا كانوا من عملاءنا.

"ما نجده رائعًا جدًا في هذه الفئة الجديدة من الذكاء الاصطناعي. هو التوسع والتنوع.

قال ستيلبيرج إن فكرة الصوت كخدمة خطرت بشركة Veritone منذ عدة سنوات. ومع ذلك، في ذلك الوقت لم يكن مقتنعًا بأن نماذج التعلم الآلي قادرة على إنشاء الأصوات الاصطناعية شديدة الواقعية التي كان يبحث عنها. وهذا مهم بشكل خاص عندما يتعلق الأمر بالأصوات التي نعرفها عن كثب، حتى لو لم نلتق بالمتحدث المعني مطلقًا. يمكن أن تكون النتائج نوعا من مسموع وادي غريب، مع كل صوت خاطئ ينبه المستمعين إلى حقيقة أنهم يستمعون إلى صوت مزيف. لكن هنا في عام 2021 فهو مقتنع بأن الأمور تقدمت إلى النقطة التي أصبح فيها ذلك ممكنًا الآن. ومن هنا Marvel.ai.

يتحدث ستيلبيرج بعبارات طنانة متحمسة عن الإمكانات الهائلة لهذه التكنولوجيا، ويتحدث عن العدد الكبير المحتمل من "طرائق التنفيذ". يمكن لـ Veritone إنشاء نماذج لتحويل النص إلى كلام. ويمكنه أيضًا بناء نماذج لتحويل الكلام إلى كلام، حيث يمكن للممثل الصوتي "قيادة" الأداء الصوتي من خلال القراءة الكلمات ذات التصريف المناسب ثم يتم تراكب الصوت النهائي في النهاية مثل Snapchat منقي. يمكن للشركة أيضًا بصمة كل صوت حتى تتمكن من معرفة ما إذا كان الجزء الصوتي الحقيقي الذي يظهر في مكان ما قد تم إنشاؤه باستخدام تقنيتها.

وقال: "كلما فكرت في الأمر أكثر، سوف تتوصل حرفياً إلى 50 حالة استخدام محتملة أخرى". "ما نجده رائعًا جدًا في هذه الفئة الجديدة من الذكاء الاصطناعي. هو التوسع والتنوع.

النظر في بعض الآخرين. قد يكون الرياضي الشهير إلهًا في ملعب كرة السلة، لكنه شيطان عندما يتعلق الأمر بذلك قراءة السطور في النص بطريقة تبدو طبيعية. باستخدام تقنية Veritone، فإن دورهم في مشاهد ألعاب الفيديو أو قراءة كتاب صوتي لمذكراتهم (والتي ربما لم يتم كتابته أيضًا) يمكن أن يؤديه ممثل صوتي، والذي يتم بعد ذلك تعديله رقميًا ليبدو مثل رياضي. كاحتمال آخر، يمكن ترجمة فيلم لبلدان أخرى بنفس صوت الممثل الذي يقرأ الآن الفيلم سطور باللغة الفرنسية أو الماندرين أو أي لغة أخرى، حتى لو كان الممثل لا يتحدث بالفعل هم.

كيف سيكون رد فعل الجمهور؟

السؤال الكبير الذي يخيم على كل هذا، بطبيعة الحال، هو كيف سيستجيب أفراد الجمهور لكل هذا. هذا هو الجزء الصعب الذي لا يمكن التنبؤ به. يجب على المشاهير اليوم أن يلعبوا دورًا معقدًا: شخصيات أكبر من الحياة تستحق أن تُلصق وجوهها على اللوحات الإعلانية، وأيضًا الأفراد الذين يعانون من مشاكل في العلاقات، ويغردون عن مشاهدة التلفزيون وهم يرتدون ملابس النوم، ويرسمون وجوهًا سخيفة عندما يتناولون الطعام الساخن صلصة.

ماذا يحدث إذن عندما تظهر الإعلانات التي لا تحتوي فقط على سطور قراءة المشاهير، ولكن أيضًا في الحالات التي نعرف فيها ذلك لم يقل المؤدي هذه السطور أبدًا، بل تم استخدام صوته برمجيًا ليجلب لنا هدفًا إعلان؟ قال ستيلبيرج إن الأمر لا يختلف كثيرًا عن قيام أحد المشاهير بتسليم السيطرة على وسائل التواصل الاجتماعي الخاصة به إلى مدير حساب طرف ثالث. إذا رأينا تغريدة تايلور سويفت، فإننا نعلم أنه من المحتمل جدًا ألا تكون تايلور نفسها هي التي تنقر على الرسالة، خاصة إذا كانت عبارة عن تأييد أو جزء من محتوى ترويجي.

لكن الصوت، بطريقة حقيقية جدًا، مختلف، على وجه التحديد لأنه أكثر شخصية. خاصة إذا كان مصحوبًا بدرجة من التخصيص، والتي تعد إحدى حالات الاستخدام الأكثر منطقية. الحقيقة هي أنه، على حد تعبير كاتب السيناريو ويليام جولدمان، لا أحد يعرف ماذا سيكون رد فعل الجمهور - على وجه التحديد لأنه لم يفعل أحد هذا بالضبط من قبل.

"سوف يقوم بتشغيل الطيف، أليس كذلك؟" قال ستيلبيرج. "سيقول [البعض] الناس: "سأستخدم هذه الأداة قليلاً لزيادة يومي لمساعدتي في توفير الوقت". سيقول آخرون بكل صراحة: "أريد صوتي في كل مكان لتوسيع علامتي التجارية، وسأقوم بترخيصها" خارج.'"

أفضل تخمين له هو أن القبول سيكون على أساس كل حالة على حدة. وقال: "عليك أن تكون متناغماً مع رد فعل جمهورك، وإذا رأيت أن الأمور تسير على ما يرام أم لا". "قد يحبون ذلك. قد يقولون: أتعرف ماذا؟ تعجبني حقيقة أنك تقدم لي محتوى أكثر بعشرة أضعاف أو محتوى شخصيًا أكثر، على الرغم من أنني أعلم أنك استخدمت محتوى اصطناعيًا لزيادته. شكرًا لك. شكرًا لك.'"

فكر بالمستقبل

أما بالنسبة للمستقبل؟ قال ستيلبيرج: “نريد العمل مع جميع وكالات المواهب الكبرى. نعتقد أن أي شخص يعمل في مجال جني الأموال من خلال علامة تجارية نادرة يجب أن يفكر في استراتيجيته الصوتية.

ولا تتوقع أن يظل الأمر يتعلق بالصوت فقط. وتابع: "لقد انبهرنا دائمًا بإمكانية استخدام المحتوى الاصطناعي إما لتوسيع أو تعزيز أو استبدال بعض الأشكال القديمة لإنتاج المحتوى بالكامل". "سواء كان ذلك بالمعنى الصوتي أو، في نهاية المطاف في المستقبل، أ شعور الفيديو.”

هذا صحيح: بمجرد أن تستحوذ على السوق في عالم التزييف الصوتي العميق، تخطط شركة Veritone للمضي قدمًا خطوة أخرى ودخول عالم الصور الرمزية الافتراضية المحققة بالكامل أن الصوت والشكل لا يمكن تمييزهما عن مصدرهما.

فجأة هؤلاء إعلانات مخصصة من تقرير الأقلية يبدو أقل بكثير مثل الخيال العلمي.

توصيات المحررين

جوائز Digital Trends Tech For Change CES 2023
داخل الحرب المتصاعدة بسرعة بين التزييف العميق وأجهزة كشف التزييف العميق
لا يستطيع Alexa وSiri فهم نبرة صوتك، لكن Oto يستطيع ذلك
كاليفورنيا تتخذ إجراءات صارمة ضد التزييف العميق للسياسة والإباحية
ابق مجهول الهوية عبر الإنترنت باستخدام تقنية التزييف العميق التي تنشئ وجهًا جديدًا تمامًا لك