स्टैनफोर्ड प्रयोग से पता चलता है कि वाक् पहचान अंगूठे की तुलना में अधिक तेजी से पाठ लिखती है
स्टैनफोर्ड कंप्यूटर विज्ञान के प्रोफेसर जेम्स लैंडे ने कहा कि अध्ययन उनके और स्टैनफोर्ड के सहायक प्रोफेसर के बीच "कॉफी शॉप वार्तालाप" के रूप में शुरू हुआ एंड्रयू एनजी, वर्तमान में Baidu में मुख्य वैज्ञानिक हैं। लैंडे ने डिजिटल ट्रेंड्स को बताया, "एंड्रयू ने कहा कि Baidu के वाक् पहचान उपकरण वास्तव में बहुत अच्छे हो रहे थे, लेकिन वे इसे मापने के लिए सही प्रयोग नहीं जानते थे।"
अनुशंसित वीडियो
Baidu का डीप स्पीच 2 क्लाउड-आधारित वाक् पहचान सॉफ़्टवेयर एक गहन शिक्षण तंत्रिका नेटवर्क पर आधारित है: एक प्रभावशाली मशीन लर्निंग टूल जो वास्तविक विशाल डेटासेट का विश्लेषण करके खुद को प्रशिक्षित करने में सक्षम है भाषण।
संबंधित
- ए.आई. केवल आपके मस्तिष्क को स्कैन करके ही आप बता सकते हैं कि आप एक अच्छे सर्जन हैं या नहीं
- ए.आई. शोधकर्ताओं ने चिम्पांजियों के लिए चेहरे की पहचान करने वाली एक प्रणाली बनाई है
"पहले, हमारे पास इन मॉडलों को बनाने के लिए डेटा और कम्प्यूटेशनल क्षमता नहीं थी, ताकि एक कंप्यूटर भाषण के विभिन्न लहजे और पैटर्न को समझ सके," लैंडे ने आगे कहा।
अंत में, लैंडे और एनजी के बीच अनौपचारिक बातचीत एक पूर्ण प्रयोग में बदल गई, जिसमें 32 प्रतिभागी चीनी या अंग्रेजी बोल रहे थे। सभी प्रतिभागी टेक्स्ट मैसेजिंग में बड़े हो गए थे, और दोनों iPhone के साथ आने वाले मानक कीबोर्ड का उपयोग कर रहे थे।
अंग्रेजी बोलने वालों के लिए इसका मतलब नियमित iOS QWERTY कीबोर्ड था, जबकि मंदारिन बोलने वालों के लिए Apple का पिनयिन कीबोर्ड इस्तेमाल होता था। दोनों मामलों में, वाक् पहचान उपयोगकर्ताओं द्वारा टाइप करने में सक्षम होने की तुलना में लगभग तीन गुना तेज थी - जबकि त्रुटि हुई अंग्रेजी भाषण पहचान के लिए दर 20.4 प्रतिशत कम थी, और मंदारिन के लिए 63.4 प्रतिशत कम थी समकक्ष।
लांडे ने कहा, "मेरी उम्मीद थी कि भाषण पाठ से तेज़ होगा।" “हम यह जानते हैं, क्योंकि आप टाइप करने की तुलना में तेज़ी से बात कर सकते हैं। अतीत में समस्या यह थी कि आपको वाक् पहचान में बहुत सारी त्रुटियाँ मिलीं, और इससे आपकी गति धीमी हो गई। मुझे लगा कि भाषण तेज़ साबित होगा. मुझे यह उम्मीद नहीं थी कि यह तीन गुना तेज हो जाएगा। मुझे लगा कि शायद हम 50 प्रतिशत तेजी से आगे बढ़ेंगे। इसके बजाय यह उससे कहीं अधिक था।”
निःसंदेह, परीक्षण 100 प्रतिशत व्यापक नहीं है। वर्तमान में दुनिया का सबसे तेज़ मोबाइल कीबोर्ड (कम से कम अंग्रेजी में) थर्ड-पार्टी फ्लेक्सी कीबोर्ड है। सबसे तेज टेक्स्टिंग के लिए 2014 के गिनीज वर्ल्ड रिकॉर्ड में, एक उपयोगकर्ता टाइप करने में सक्षम था मात्र 18.44 सेकंड में 126 अक्षरों का वाक्य. हालाँकि, लैंडे ने कहा कि इस अध्ययन में एक नियमित iPhone कीबोर्ड को चुना गया क्योंकि यह विशिष्ट टाइपिस्ट का एक अच्छा संकेत देता है। उन्होंने कहा, "ज्यादातर लोग वैकल्पिक कीबोर्ड सीखने में समय नहीं लगाते हैं।"
अध्ययन का क्या मतलब है, लांडे का सुझाव है कि यह भाषण पहचान के लिए एक महत्वपूर्ण बेंचमार्क का प्रतिनिधित्व करता है। उन्होंने कहा, "अभी भी सुधार की गुंजाइश है, लेकिन हमें लगता है कि कुछ बदलाव का बिंदु बीत चुका है।" "नाम पहचानने, शोर-शराबे वाले माहौल में बेहतर प्रदर्शन करने आदि में और सुधार आएगा।"
उन्होंने कहा, इससे डेवलपर्स के लिए बिना किसी चिंता के अपने सिस्टम में वाक् पहचान को शामिल करने के बारे में अधिक गंभीरता से सोचने की अधिक संभावनाएं खुलती हैं। उन्होंने कहा, "जो बात तेजी से समझ में आएगी वह भाषण पर भरोसा करना है।" “उदाहरण के लिए, मल्टीमॉडल इंटरफ़ेस लोगों को नेविगेट करने में मदद करने के लिए भाषण को अन्य तत्वों के साथ जोड़ता है। हालाँकि, सबसे बड़ी चुनौती इसे समझने की होगी अर्थ शब्दों और वाक्यों का. उस हिस्से में अभी भी रास्ता तय करना बाकी है।”
संपादकों की सिफ़ारिशें
- यदि आप बोलने में अक्षम हैं तो एलेक्सा का उपयोग करना मुश्किल है। वॉयसिट इसे ठीक कर सकता है
- चीनी कंपनी चेहरे की पहचान पर काम कर रही है जो मास्क के नीचे आपकी पहचान कर सकती है
- Google का Gboard वाक् पहचान में बहुत बेहतर होने वाला है
अपनी जीवनशैली को उन्नत करेंडिजिटल ट्रेंड्स पाठकों को सभी नवीनतम समाचारों, मजेदार उत्पाद समीक्षाओं, व्यावहारिक संपादकीय और एक तरह की अनूठी झलक के साथ तकनीक की तेज़ गति वाली दुनिया पर नज़र रखने में मदद करता है।