वेरीटोन आपकी आवाज का डीपफेक क्लोन बनाना चाहता है

वहाँ है वीडियो जो समय-समय पर मेरे YouTube फ़ीड पर पॉप अप होता रहता है। यह रैपर्स स्नूप डॉग और 50 सेंट के बीच की बातचीत है जिसमें इस तथ्य पर दुख व्यक्त किया गया है कि, उनकी पीढ़ी की तुलना में, सभी आधुनिक हिप-हॉप कलाकार स्पष्ट रूप से एक जैसे लगते हैं। 50 सेंट का कहना है, "जब कोई व्यक्ति खुद बनने का फैसला करता है, तो वह कुछ ऐसा पेश करता है जो कोई और नहीं कर सकता।" "हाँ, 'क्योंकि एक बार जब आप आप बन जाते हैं - तो आपके अलावा आप कौन हो सकते हैं?" स्नूप जवाब देता है.

अंतर्वस्तु

"हम बहुत कुछ पुनः उपयोग कर सकते हैं"
जनता कैसे प्रतिक्रिया देगी?
भविष्य के बारे में सोचो

स्नूप डॉग आज के रैपर्स की ध्वनि-समान प्रवाह का प्रतिरूपण करता है

जब वीडियो अक्टूबर 2014 में अपलोड किया गया था, तो यह मोटे तौर पर सच हो सकता है। लेकिन कुछ ही वर्षों बाद यह निश्चित रूप से नहीं है। ऑडियो डीपफेक की दुनिया में, ए.आई. को प्रशिक्षित करना संभव है। किसी अन्य व्यक्ति के घंटों के बोले गए डेटा से युक्त एक ऑडियो कॉर्पस को फीड करके उसके समान ही अजीब ध्वनि उत्पन्न करना। परिणाम हैं बेहद सटीक.

अनुशंसित वीडियो

जैसे सार्वजनिक हस्तियाँ रैपर जे-जेड

और मनोवैज्ञानिक जॉर्डन पीटरसन ने पहले ही शिकायत की है कि लोग ऑडियो डीपफेक बनाकर और फिर उन्हें इंटरनेट पर मूर्खतापूर्ण बातें कहकर उनकी आवाज़ का दुरुपयोग कर रहे हैं। "जागो," पीटरसन ने लिखा. "आपकी आवाज़ की पवित्रता और आपकी छवि गंभीर ख़तरे में है।" ये सिर्फ शरारती मामले हैं। दूसरों में, परिणाम असंतुलित आपराधिकता में बदल सकते हैं। में 2019 की एक घटना, अपराधियों ने एक ऊर्जा कंपनी के सीईओ की आवाज का प्रतिरूपण करने के लिए एक ऑडियो डीपफेक का इस्तेमाल किया और फोन पर एक अधीनस्थ को बैंक खाते में तत्काल $243,000 स्थानांतरित करने के लिए राजी किया।

वेरीटोन, एक ए.आई. वह कंपनी जो मनोरंजन उद्योग के लिए मीडिया को लेबल करने के लिए स्मार्ट टूल बनाती है ऑडियो डीपफेक पावर को उन लोगों के हाथों (या, गलती से, गले) में वापस डालना जिनके लिए यह सही है संबंधित है. इसी महीने कंपनी ने घोषणा की थी मार्वल.एआई, जिसे कंपनी के अध्यक्ष रयान स्टीलबर्ग ने डिजिटल ट्रेंड्स में "सेवा के रूप में संपूर्ण आवाज समाधान" के रूप में वर्णित किया। शुल्क के लिए, वेरिटोन एक ए.आई. का निर्माण करेगा। उसे मॉडल करें बिल्कुल आपके जैसा लगता है (या, अधिक संभावना है, तुरंत पहचानी जाने वाली आवाज वाला एक प्रसिद्ध व्यक्ति), जिसे बाद में हाई-टेक संस्करण की तरह ऋण पर लाइसेंस दिया जा सकता है एरियल का आवाज-के-संपार्श्विक सौदेबाजी से नन्हीं जलपरी.

MARVEL.ai द्वारा सिंथेटिक आवाज

स्टीलबर्ग ने कहा, "आपकी आवाज़ किसी भी अन्य सामग्री या ब्रांड विशेषता जितनी ही मूल्यवान है।" "[यह आपके नाम और समानता, आपके चेहरे, आपके हस्ताक्षर, या आपके द्वारा लिखे गए गीत या आपके द्वारा बनाई गई सामग्री के टुकड़े के स्तर पर है।"

"हम बहुत कुछ पुनः उपयोग कर सकते हैं"

बेशक, कुछ व्यक्तियों ने लंबे समय से विज्ञापनों या वॉयसओवर की रिकॉर्डिंग, गाने गाने और मुद्रीकरण के अनगिनत अन्य रूपों में अपनी आवाज़ बेची है। लेकिन इन सभी प्रयासों के लिए व्यक्ति को वास्तव में शब्द कहने की आवश्यकता होती है। वेरिटोन का समाधान इसे व्यक्तिगत रूप से स्केलेबल बनाने का वादा करता है।

उदाहरण के लिए, क्या होगा यदि केविन हार्ट के लिए एक लक्जरी ब्रांड को अपनी आवाज़ का लाइसेंस देना संभव हो जो इसका उपयोग वैयक्तिकृत विज्ञापन बनाने के लिए कर सके इसमें दर्शक का नाम, उनके निकटतम ईंट-और-मोर्टार बिक्री आउटलेट का स्थान और वह विशेष उत्पाद शामिल हो सकता है जिसकी उन्हें सबसे अधिक संभावना हो सकती है। खरीदना? रिकॉर्डिंग बूथ में वस्तुतः दिन बिताने के बजाय, ए.आई. इसे थोड़ा और (पर) के साथ करने की अनुमति दी जा सकती है हार्ट का हिस्सा, कम से कम) उसकी आवाज की समानता के लिए उक्त तीसरे द्वारा उपयोग किए जाने के लिए सहमत होने के लिए बिंदीदार रेखा पर हस्ताक्षर करने की तुलना में दल। जब वह किसी फिल्म की शूटिंग कर रहा था, या कॉमेडी टूर कर रहा था, या छुट्टियाँ ले रहा था, या यहाँ तक कि सो रहा था, उसकी डिजिटल आवाज़ नकदी में बढ़ोतरी कर सकती थी।

प्रशिक्षण प्रक्रिया के संबंध में स्टीलबर्ग ने बताया, "हम बहुत कुछ का पुनरुत्पादन कर सकते हैं।" “जो लोग पहले से ही बहुत कुछ बोल रहे हैं, अगर वे पॉडकास्ट या मीडिया का निर्माण कर रहे हैं, तो वहां बहुत सारा डेटा है। यदि वे हमारे ग्राहक बनते हैं तो संभवतः हमारे पास पहले से ही इसका एक टन होगा।"

“ए.आई. की इस नई श्रेणी के बारे में हमें जो चीज़ बहुत आकर्षक लगती है। विस्तारशीलता और परिवर्तनशीलता है।"

स्टीलबर्ग ने कहा कि वॉयस-ए-ए-सर्विस का विचार वेरिटोन के दिमाग में कई साल पहले आया था। हालाँकि, उस समय वह इस बात से सहमत नहीं थे कि मशीन लर्निंग मॉडल अति-यथार्थवादी सिंथेटिक आवाज़ें बनाने में सक्षम थे जिनकी उन्हें तलाश थी। यह विशेष रूप से महत्वपूर्ण है जब उन आवाजों की बात आती है जिन्हें हम करीब से जानते हैं, भले ही हम वास्तव में वक्ता से कभी नहीं मिले हों। परिणाम कुछ इस तरह के हो सकते हैं सुनाई देने योग्य अलौकिक घाटी, हर गलत ध्वनि के साथ श्रोताओं को इस तथ्य के प्रति सचेत करती है कि वे नकली सुन रहे हैं। लेकिन यहां 2021 में उन्हें विश्वास है कि चीजें उस बिंदु तक आगे बढ़ गई हैं जहां यह अब संभव है। इसलिए मार्वल.एआई।

स्टीलबर्ग प्रौद्योगिकी की विशाल क्षमता के बारे में उत्साहित शब्दों में बोलते हैं, इसके "निष्पादन के तौर-तरीकों" की संभावित बहुतायत के बारे में बात करते हैं। वेरिटोन टेक्स्ट-टू-स्पीच के लिए मॉडल बना सकता है। यह वाक्-से-वाक् के लिए मॉडल भी बना सकता है, जिससे एक आवाज अभिनेता पढ़कर गायन प्रदर्शन को "संचालित" कर सकता है उपयुक्त विभक्ति के साथ शब्द और फिर स्नैपचैट की तरह अंत में समाप्त आवाज को मढ़ा जाना फ़िल्टर. कंपनी प्रत्येक आवाज़ को फ़िंगरप्रिंट भी कर सकती है ताकि यह बता सके कि कहीं वास्तविक ऑडियो का एक टुकड़ा जो पॉप अप होता है, उसकी तकनीक का उपयोग करके बनाया गया था।

"जितना अधिक आप इसके बारे में सोचेंगे... आप सचमुच 50 और [संभावित उपयोग-मामलों] के साथ आएंगे," उन्होंने कहा। “ए.आई. की इस नई श्रेणी के बारे में हमें जो चीज़ बहुत आकर्षक लगती है। विस्तारशीलता और परिवर्तनशीलता है।"

कुछ अन्य पर विचार करें. एक प्रसिद्ध एथलीट बास्केटबॉल कोर्ट पर भगवान हो सकता है, लेकिन जब बात आती है तो शैतान हो जाता है किसी स्क्रिप्ट में पंक्तियों को इस तरह से पढ़ना जो स्वाभाविक लगता है. वेरिटोन की तकनीक का उपयोग करते हुए, वीडियो गेम कटसीन में उनकी भूमिका या उनके संस्मरण की एक ऑडियो पुस्तक पढ़ना (जो वे करते हैं) हो सकता है कि उसने लिखा भी न हो) एक आवाज अभिनेता द्वारा प्रस्तुत किया जा सकता है, जिसे बाद में ध्वनि के रूप में डिजिटल रूप से बदल दिया जाता है धावक। एक अन्य संभावना के रूप में, एक फिल्म को उसी अभिनेता की आवाज़ के साथ अन्य देशों के लिए अनुवादित किया जा सकता है जिसे अब पढ़ा जा रहा है फ़्रेंच, मंदारिन, या कई भाषाओं में से किसी एक में पंक्तियाँ, भले ही अभिनेता वास्तव में नहीं बोलता हो उन्हें।

जनता कैसे प्रतिक्रिया देगी?

बेशक, इस सब पर एक बड़ा सवाल यह है कि जनता इस पर कैसे प्रतिक्रिया देगी। यह पेचीदा, अप्रत्याशित बात है। आज मशहूर हस्तियों को एक जटिल भूमिका निभानी चाहिए: जीवन से भी बड़ी शख्सियतें बिलबोर्ड पर अपना चेहरा दिखाने लायक हैं, और साथ ही जिन भरोसेमंद लोगों के बीच संबंधों में समस्याएं हैं, वे अपने पजामे में टीवी देखने के बारे में ट्वीट करते हैं, और जब वे गर्म खाना खाते हैं तो मूर्खतापूर्ण चेहरे बनाते हैं चटनी।

तब क्या होता है, जब ऐसे विज्ञापन सामने आते हैं जिनमें न केवल किसी सेलिब्रिटी को पंक्तियाँ पढ़ते हुए दिखाया जाता है, बल्कि ऐसे मामलों में भी जब हम जानते हैं कि क्या कहा गया है कलाकार ने वास्तव में उन पंक्तियों को कभी नहीं कहा, बल्कि उनकी आवाज़ को प्रोग्रामेटिक रूप से हमें लक्षित करने के लिए उपयोग किया गया था विज्ञापन? स्टीलबर्ग ने कहा कि किसी सेलिब्रिटी द्वारा अपने सोशल मीडिया का नियंत्रण किसी तीसरे पक्ष के अकाउंट मैनेजर को सौंपना थोड़ा अलग है। यदि हम टेलर स्विफ्ट के ट्वीट को देखते हैं, तो हम जानते हैं कि यह संभवतः टेलर स्वयं संदेश का दोहन नहीं कर रहा है, खासकर यदि यह एक समर्थन या प्रचार सामग्री का हिस्सा है।

लेकिन आवाज, बहुत वास्तविक तरीके से, अलग है, ठीक इसलिए क्योंकि यह अधिक व्यक्तिगत है। विशेष रूप से यदि यह वैयक्तिकरण की डिग्री के साथ है, जो कि उपयोग-मामलों में से एक है जो सबसे अधिक समझ में आता है। सच तो यह है कि, पटकथा लेखक विलियम गोल्डमैन को उद्धृत करते हुए, कोई नहीं जानता कि जनता की प्रतिक्रिया क्या होगी - ठीक इसलिए क्योंकि पहले किसी ने भी ऐसा नहीं किया है।

"यह स्पेक्ट्रम चलाने वाला है, है ना?" स्टीलबर्ग ने कहा। "[कुछ] लोग कहने जा रहे हैं, 'मैं समय बचाने में मदद करने के लिए अपने दिन को बढ़ाने के लिए इस उपकरण का थोड़ा सा उपयोग करने जा रहा हूं।' अन्य लोग पूरी तरह से कहने जा रहे हैं, 'मैं चाहता हूं कि हर जगह मेरी आवाज मेरे ब्रांड का विस्तार करे, और मैं इसे लाइसेंस देने जा रहा हूं बाहर।'"

उनका सबसे अच्छा अनुमान यह है कि स्वीकृति मामला-दर-मामला आधार पर होगी। उन्होंने कहा, "आपको अपने दर्शकों की प्रतिक्रिया के साथ तालमेल बिठाने की जरूरत है और आप देखते हैं कि चीजें काम कर रही हैं या काम नहीं कर रही हैं।" “उन्हें यह पसंद आ सकता है। वे कह सकते हैं, 'तुम्हें पता है क्या? मुझे यह तथ्य पसंद है कि आप मेरे लिए 10 गुना अधिक सामग्री या अधिक व्यक्तिगत सामग्री डाल रहे हैं, भले ही मैं जानता हूं कि आपने इसे बढ़ाने के लिए सिंथेटिक सामग्री का उपयोग किया है। धन्यवाद। धन्यवाद।'"

भविष्य के बारे में सोचो

भविष्य के लिए? स्टीलबर्ग ने कहा कि “हम सभी प्रमुख प्रतिभा एजेंसियों के साथ काम करना चाहते हैं। हमारा मानना है कि जो कोई भी एक दुर्लभ ब्रांड के आसपास पैसा बनाने के व्यवसाय में है, उसे अपनी आवाज रणनीति के बारे में सोचना चाहिए।

और यह अपेक्षा भी न करें कि यह केवल ऑडियो तक ही सीमित रहेगा। उन्होंने आगे कहा, "हम हमेशा सामग्री उत्पादन के कुछ विरासत रूपों को विस्तारित करने, बढ़ाने या संभावित रूप से पूरी तरह से बदलने के लिए सिंथेटिक सामग्री का उपयोग करने की क्षमता से आकर्षित हुए हैं।" “चाहे वह ऑडियो अर्थ में हो या, अंततः भविष्य में, ए वीडियो समझ.”

यह सही है: एक बार जब इसने ऑडियो डीपफेक की दुनिया में बाजार पर कब्जा कर लिया, तो वेरिटोन एक कदम आगे बढ़ने और दुनिया में प्रवेश करने की योजना बना रहा है। पूरी तरह से साकार आभासी अवतार जो ध्वनि और रूप दोनों ही अपने स्रोत से अप्रभेद्य हैं।

अचानक वो से वैयक्तिकृत विज्ञापन अल्पसंख्यक दस्तावेज़ यह विज्ञान कथा की तरह बिल्कुल कम लगता है।

संपादकों की सिफ़ारिशें

डिजिटल ट्रेंड्स टेक फॉर चेंज सीईएस 2023 अवार्ड्स
डीपफेक और डीपफेक डिटेक्टरों के बीच तेजी से बढ़ते युद्ध के अंदर
एलेक्सा और सिरी आपकी आवाज़ का स्वर नहीं समझ सकते, लेकिन ओटो समझ सकता है
कैलिफ़ोर्निया राजनीति और पोर्न के लिए डीपफेक पर नकेल कस रहा है
डीपफेक तकनीक के साथ ऑनलाइन गुमनाम रहें जो आपके लिए एक बिल्कुल नया चेहरा तैयार करती है