ए शोध का नया टुकड़ा मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी के कंप्यूटर साइंस और आर्टिफिशियल इंटेलिजेंस के जांचकर्ताओं द्वारा प्रयोगशाला (CSAIL) इन प्रणालियों को प्रशिक्षित करने के लिए एक नई तकनीक का सुझाव देती है - उन्हें देखकर सीखने के द्वारा इमेजिस।
अनुशंसित वीडियो
"यह बोली जाने वाली भाषा के बारे में सीखने के लिए कम पर्यवेक्षित प्रशिक्षण की आवश्यकता वाली मशीनें प्राप्त करने का एक प्रयास है।" जिम ग्लासCSAIL के एक वरिष्ठ अनुसंधान वैज्ञानिक ने डिजिटल ट्रेंड्स को बताया। “वाक् पहचान प्रणालियों को प्रशिक्षित करने का पारंपरिक तरीका लोगों की बातचीत की रिकॉर्डिंग का उपयोग करना है और, प्रत्येक उच्चारण के लिए, वास्तव में जो शब्द कहे गए हैं उन्हें लिपिबद्ध करना है। आदर्श रूप से, सिस्टम को ठीक से काम करने के लिए आपके पास सैकड़ों या हजारों घंटे का भाषण है। ऐसा करने वाली कुछ सबसे बड़ी कंपनियां - जैसे कि Baidu और Google - प्रशिक्षण के लिए हजारों घंटे का उपयोग कर रही हैं। उनके पास जितना अधिक एनोटेटेड डेटा होगा, ये सिस्टम उतना ही बेहतर प्रदर्शन करेंगे।"
तो इसमें गलत क्या है? आख़िरकार, जैसा कि बताया गया है, वाक्-पहचान तकनीक लगातार बेहतर होती जा रही है। कंप्यूटर वैज्ञानिक जो कुछ भी कर रहे हैं वह स्पष्ट रूप से काम कर रहा है।
यह सच हो सकता है, लेकिन यह नया दृष्टिकोण कुछ कारणों से दिलचस्प है। सबसे पहले, संयुक्त छवियों और ऑडियो को देखकर समझने के लिए खुद को प्रशिक्षित करने की मशीन की क्षमता को खोलना (आखिरकार, आप YouTube देखकर प्रशिक्षण की कल्पना कर सकते हैं) उस तरीके के बहुत करीब है जो हम मानव के रूप में सीखते हैं प्राणी.
दूसरा - और यकीनन अधिक महत्वपूर्ण बात - यह तथ्य है कि यह दुनिया के उन हिस्सों में भाषण पहचान लाने में मदद कर सकता है जो इस तरह की तकनीक से काफी लाभान्वित हो सकते हैं।
ग्लास ने आगे कहा, "एनोटेटेड डेटा तैयार करना महंगा है।" “वाक् पहचान दशकों से चल रही है और इसका अधिकांश हिस्सा उन देशों की भाषाओं के लिए है जो इस तरह के संसाधनों में निवेश कर सकते हैं। जब भाषा की बात आती है, तो यह वही होती है जिसके बारे में कंपनियां सोचती हैं कि इससे उन्हें लाभ कमाने में मदद मिलेगी। अंग्रेजी पर अब तक सबसे अधिक ध्यान दिया गया है, उसके बाद पश्चिमी यूरोपीय भाषाएँ और जापानी और मंदारिन जैसी अन्य भाषाएँ हैं। समस्या यह है कि दुनिया में लगभग 7,000 भाषाएँ बोली जाती हैं और लगभग 300 भाषाएँ हैं जिन्हें 10 लाख से अधिक लोग बोलते हैं। इनमें से बहुतों पर अधिक ध्यान नहीं दिया गया है - यदि कोई है तो।"
दुनिया के उन हिस्सों में जहां साक्षरता का स्तर कम है, यह देखना आसान है कि लोगों को जानकारी तक पहुंच प्रदान करने के मामले में भाषण पहचान कैसे गेम चेंजर हो सकती है। उम्मीद है, यह तकनीक उस लक्ष्य की प्राप्ति में मदद कर सकती है।
हालाँकि, शोध जितना रोमांचक है, ग्लास का कहना है कि यह अभी भी अपने शुरुआती चरण में है। वर्तमान में, CSAIL शोधकर्ता अपने सिस्टम को 1,000 छवियों के डेटाबेस के साथ फीड कर रहे हैं, प्रत्येक में एक फ्री-फॉर्म मौखिक विवरण है जो किसी न किसी तरह से संबंधित है। इसके बाद वे सिस्टम को एक रिकॉर्डिंग देकर उसका परीक्षण करते हैं और उसे 10 छवियां प्राप्त करने के लिए कहते हैं जो उसकी सुनने की क्षमता से सबसे अच्छी तरह मेल खाती हों।
समय के साथ, आशा है कि भाषण पहचान के ऐसे दृष्टिकोण उनकी प्रभावशीलता में उस बिंदु तक सुधार करेंगे जहां भाषण प्रशिक्षण डेटा की श्रमसाध्य लेबलिंग को अब एक आवश्यकता नहीं माना जाता है।
यदि सब कुछ योजना के अनुसार होता है, तो यह सभी के लिए बेहतर होना चाहिए - चाहे आप अमेरिका में अंग्रेजी बोलने वाले हों या दक्षिण अफ्रीका में ज़ोसा बोलने वाले हों।
संपादकों की सिफ़ारिशें
- चतुर नया ए.आई. जब आप घर से दूर होंगे तो सिस्टम आपके कुत्ते को प्रशिक्षित करने का वादा करता है
- एमआईटी का नया 'छायादार' शोध यह देखने के लिए छाया का उपयोग करता है कि कैमरे क्या नहीं देख सकते
- ए.आई. शोधकर्ताओं ने चिम्पांजियों के लिए चेहरे की पहचान करने वाली एक प्रणाली बनाई है
- एमआईटी, एडोब का नया ए.आई. एक-क्लिक पृष्ठभूमि निष्कासन, सामाजिक फ़िल्टर ला सकता है
अपनी जीवनशैली को उन्नत करेंडिजिटल ट्रेंड्स पाठकों को सभी नवीनतम समाचारों, मजेदार उत्पाद समीक्षाओं, व्यावहारिक संपादकीय और एक तरह की अनूठी झलक के साथ तकनीक की तेज़ गति वाली दुनिया पर नज़र रखने में मदद करता है।