Baidu की गहरी आवाज़ 2 एक मानवीय आवाज़ की नकल कर सकती है

Baidu
चीन के इंटरनेट खोज बाजार में 80 प्रतिशत हिस्सेदारी रखने वाली बीजिंग स्थित दिग्गज कंपनी Baidu कृत्रिम बुद्धिमत्ता में भारी निवेश कर रही है। 2013 में, इसने मशीन लर्निंग पर केंद्रित एक अनुसंधान एवं विकास केंद्र, इंस्टीट्यूट ऑफ डीप लर्निंग खोला। और मई में, इसके नवीनतम संस्करण से पर्दा उठ गया गहरी आवाज, इसका AI-संचालित टेक्स्ट-टू-स्पीच इंजन।

गहरी आवाज 2, जो इस साल की शुरुआत में डीप वॉयस के सार्वजनिक डेब्यू के बाद आया है, वास्तविक समय का भाषण उत्पन्न कर सकता है जो मानव आवाज से लगभग अप्रभेद्य है। इससे भी अधिक प्रभावशाली बात यह है कि एक कार्यशील मॉडल बनाने के लिए इसे केवल तीस मिनट के ऑडियो की आवश्यकता होती है, और यह सैकड़ों विभिन्न वक्ताओं के क्षेत्रीय लहजे की नकल कर सकता है।

अनुशंसित वीडियो

यह डीप वॉइस के शुरुआती संस्करणों की तुलना में कई गुना बेहतर है, जिसमें एक आवाज सीखने में कई घंटे लगते थे।

मानव आवाज का एक कामकाजी मॉडल बनाने के लिए सैकड़ों विभिन्न वक्ताओं के बीच समानता की पहचान करने की डीप वॉयस 2 की क्षमता प्रमुख है। फिर, यह स्वायत्त रूप से उस मॉडल से अद्वितीय आवाज़ें प्राप्त करता है - ऐप्पल के सिरी जैसे वॉयस असिस्टेंट के विपरीत, जिसके लिए इसकी आवश्यकता होती है मानव हजारों घंटों का भाषण रिकॉर्ड करता है जिसे इंजीनियर हाथ से ट्यून करते हैं, डीप वॉयस 2 को मार्गदर्शन या मैनुअल की आवश्यकता नहीं होती है हस्तक्षेप।

Baidu (संकेत)

Baidu की सिलिकॉन वैली एआई लैब के एक शोध वैज्ञानिक एंड्रयू गिबियान्स्की ने द वर्ज को बताया, "इसे सही डेटा दें, और यह स्वयं सीख सकता है कि किस प्रकार की विशेषताएं महत्वपूर्ण हैं।"

Baidu उच्च गुणवत्ता वाली टेक्स्ट-टू-स्पीच तकनीक में निवेश करने वाली एकमात्र कंपनी नहीं है। Google का वेवनेट, कंपनी के डीपमाइंड डिवीजन का एक उत्पाद, वास्तविक मानव भाषण का नमूना लेकर और विभिन्न प्रकार की आवाजों में स्वतंत्र रूप से अपनी ध्वनियां बनाकर आवाजें उत्पन्न करता है। Adobe का प्रोजेक्ट VoCo वास्तविक समय में मानव भाषण को संपादन योग्य पाठ में परिवर्तित करता है। और कनाडाई एआई स्टार्टअप, लाइरेबर्ड, ऐसे एल्गोरिदम को लाइसेंस देता है जो केवल एक मिनट के नमूना ऑडियो के साथ किसी भी आवाज की नकल कर सकता है, बना सकता है आधे सेकंड से भी कम समय में एक हजार वाक्य, और यह भाषण को क्रोध, सहानुभूति और जैसी भावनाओं से भर सकता है। तनाव।

लेकिन यह उम्मीद न करें कि डीप वॉयस 2 या वेवनेट सिरी की जगह ले लेगा गूगल असिस्टेंट, या अमेज़ॅन का एलेक्सा जल्द ही कभी भी - एआई-संचालित अनुवाद ऐप्स को आज के फोन की उचित आपूर्ति की तुलना में अधिक संसाधनों की आवश्यकता होती है। लेकिन Baidu टेक्स्ट-टू-स्पीच ऐप्स और वॉयस-आधारित सहायक जैसे अनुप्रयोगों में संभावनाएं देखता है। “कई मानवीय आवाज़ों को शीघ्रता से संश्लेषित करने की क्षमता का भविष्य में व्यक्तिगत सहायकों और ईबुक रीडर जैसे उत्पादों पर बहुत बड़ा प्रभाव पड़ेगा। उदाहरण के लिए, जब आप ईबुक सुनते हैं तो आपके ईबुक के प्रत्येक अक्षर की एक अनोखी आवाज हो सकती है।

अपनी जीवनशैली को उन्नत करेंडिजिटल ट्रेंड्स पाठकों को सभी नवीनतम समाचारों, मजेदार उत्पाद समीक्षाओं, व्यावहारिक संपादकीय और एक तरह की अनूठी झलक के साथ तकनीक की तेज़ गति वाली दुनिया पर नज़र रखने में मदद करता है।

श्रेणियाँ

हाल का