वाक् पहचान पाठ आपकी टाइप करने की क्षमता से 3 गुना अधिक तेज़

स्टैनफोर्ड प्रयोग से पता चलता है कि वाक् पहचान अंगूठे की तुलना में अधिक तेजी से पाठ लिखती है

कंप्यूटर श्रुतलेख एक दशक पहले की तुलना में काफी बेहतर है, लेकिन वास्तव में कितना बेहतर है? यह स्टैनफोर्ड विश्वविद्यालय, वाशिंगटन विश्वविद्यालय और चीनी तकनीकी दिग्गज Baidu के कंप्यूटर वैज्ञानिकों के लिए एक चुनौती थी हाल ही में गति और गति दोनों में नवीनतम अत्याधुनिक वाक् पहचान सॉफ़्टवेयर के विरुद्ध मनुष्यों को खड़ा करने वाला एक प्रयोग किया गया शुद्धता।

स्टैनफोर्ड कंप्यूटर विज्ञान के प्रोफेसर जेम्स लैंडे ने कहा कि अध्ययन उनके और स्टैनफोर्ड के सहायक प्रोफेसर के बीच "कॉफी शॉप वार्तालाप" के रूप में शुरू हुआ एंड्रयू एनजी, वर्तमान में Baidu में मुख्य वैज्ञानिक हैं। लैंडे ने डिजिटल ट्रेंड्स को बताया, "एंड्रयू ने कहा कि Baidu के वाक् पहचान उपकरण वास्तव में बहुत अच्छे हो रहे थे, लेकिन वे इसे मापने के लिए सही प्रयोग नहीं जानते थे।"

अनुशंसित वीडियो

Baidu का डीप स्पीच 2 क्लाउड-आधारित वाक् पहचान सॉफ़्टवेयर एक गहन शिक्षण तंत्रिका नेटवर्क पर आधारित है: एक प्रभावशाली मशीन लर्निंग टूल जो वास्तविक विशाल डेटासेट का विश्लेषण करके खुद को प्रशिक्षित करने में सक्षम है भाषण।

संबंधित

  • ए.आई. केवल आपके मस्तिष्क को स्कैन करके ही आप बता सकते हैं कि आप एक अच्छे सर्जन हैं या नहीं
  • ए.आई. शोधकर्ताओं ने चिम्पांजियों के लिए चेहरे की पहचान करने वाली एक प्रणाली बनाई है

"पहले, हमारे पास इन मॉडलों को बनाने के लिए डेटा और कम्प्यूटेशनल क्षमता नहीं थी, ताकि एक कंप्यूटर भाषण के विभिन्न लहजे और पैटर्न को समझ सके," लैंडे ने आगे कहा।

अंत में, लैंडे और एनजी के बीच अनौपचारिक बातचीत एक पूर्ण प्रयोग में बदल गई, जिसमें 32 प्रतिभागी चीनी या अंग्रेजी बोल रहे थे। सभी प्रतिभागी टेक्स्ट मैसेजिंग में बड़े हो गए थे, और दोनों iPhone के साथ आने वाले मानक कीबोर्ड का उपयोग कर रहे थे।

अंग्रेजी बोलने वालों के लिए इसका मतलब नियमित iOS QWERTY कीबोर्ड था, जबकि मंदारिन बोलने वालों के लिए Apple का पिनयिन कीबोर्ड इस्तेमाल होता था। दोनों मामलों में, वाक् पहचान उपयोगकर्ताओं द्वारा टाइप करने में सक्षम होने की तुलना में लगभग तीन गुना तेज थी - जबकि त्रुटि हुई अंग्रेजी भाषण पहचान के लिए दर 20.4 प्रतिशत कम थी, और मंदारिन के लिए 63.4 प्रतिशत कम थी समकक्ष।

लांडे ने कहा, "मेरी उम्मीद थी कि भाषण पाठ से तेज़ होगा।" “हम यह जानते हैं, क्योंकि आप टाइप करने की तुलना में तेज़ी से बात कर सकते हैं। अतीत में समस्या यह थी कि आपको वाक् पहचान में बहुत सारी त्रुटियाँ मिलीं, और इससे आपकी गति धीमी हो गई। मुझे लगा कि भाषण तेज़ साबित होगा. मुझे यह उम्मीद नहीं थी कि यह तीन गुना तेज हो जाएगा। मुझे लगा कि शायद हम 50 प्रतिशत तेजी से आगे बढ़ेंगे। इसके बजाय यह उससे कहीं अधिक था।”

निःसंदेह, परीक्षण 100 प्रतिशत व्यापक नहीं है। वर्तमान में दुनिया का सबसे तेज़ मोबाइल कीबोर्ड (कम से कम अंग्रेजी में) थर्ड-पार्टी फ्लेक्सी कीबोर्ड है। सबसे तेज टेक्स्टिंग के लिए 2014 के गिनीज वर्ल्ड रिकॉर्ड में, एक उपयोगकर्ता टाइप करने में सक्षम था मात्र 18.44 सेकंड में 126 अक्षरों का वाक्य. हालाँकि, लैंडे ने कहा कि इस अध्ययन में एक नियमित iPhone कीबोर्ड को चुना गया क्योंकि यह विशिष्ट टाइपिस्ट का एक अच्छा संकेत देता है। उन्होंने कहा, "ज्यादातर लोग वैकल्पिक कीबोर्ड सीखने में समय नहीं लगाते हैं।"

अध्ययन का क्या मतलब है, लांडे का सुझाव है कि यह भाषण पहचान के लिए एक महत्वपूर्ण बेंचमार्क का प्रतिनिधित्व करता है। उन्होंने कहा, "अभी भी सुधार की गुंजाइश है, लेकिन हमें लगता है कि कुछ बदलाव का बिंदु बीत चुका है।" "नाम पहचानने, शोर-शराबे वाले माहौल में बेहतर प्रदर्शन करने आदि में और सुधार आएगा।"

उन्होंने कहा, इससे डेवलपर्स के लिए बिना किसी चिंता के अपने सिस्टम में वाक् पहचान को शामिल करने के बारे में अधिक गंभीरता से सोचने की अधिक संभावनाएं खुलती हैं। उन्होंने कहा, "जो बात तेजी से समझ में आएगी वह भाषण पर भरोसा करना है।" “उदाहरण के लिए, मल्टीमॉडल इंटरफ़ेस लोगों को नेविगेट करने में मदद करने के लिए भाषण को अन्य तत्वों के साथ जोड़ता है। हालाँकि, सबसे बड़ी चुनौती इसे समझने की होगी अर्थ शब्दों और वाक्यों का. उस हिस्से में अभी भी रास्ता तय करना बाकी है।”

संपादकों की सिफ़ारिशें

  • यदि आप बोलने में अक्षम हैं तो एलेक्सा का उपयोग करना मुश्किल है। वॉयसिट इसे ठीक कर सकता है
  • चीनी कंपनी चेहरे की पहचान पर काम कर रही है जो मास्क के नीचे आपकी पहचान कर सकती है
  • Google का Gboard वाक् पहचान में बहुत बेहतर होने वाला है

अपनी जीवनशैली को उन्नत करेंडिजिटल ट्रेंड्स पाठकों को सभी नवीनतम समाचारों, मजेदार उत्पाद समीक्षाओं, व्यावहारिक संपादकीय और एक तरह की अनूठी झलक के साथ तकनीक की तेज़ गति वाली दुनिया पर नज़र रखने में मदद करता है।

श्रेणियाँ

हाल का

Intel Arc A380 यहाँ AMD के एंट्री-लेवल GPU को टक्कर देने के लिए है

Intel Arc A380 यहाँ AMD के एंट्री-लेवल GPU को टक्कर देने के लिए है

इंटेल ने अब आधिकारिक तौर पर अपना पहला डेस्कटॉप ...

Google भूल जाने के अधिकार पर बहस करेगा

Google भूल जाने के अधिकार पर बहस करेगा

Google धारण करेगा सार्वजनिक बहसों की एक श्रृंखल...