बेहतर खोज: क्यों 'सिमेंटिक सर्च' अंततः Google को आपको समझने देगा

'क्यों-शब्दार्थ-खोज'-आखिरकार-Google-आपको-समझाने-देगी

वॉल स्ट्रीट जर्नल के अमीर एफ़राती ने एक लेख से भौंहें चढ़ा दी हैं (सदस्यता आवश्यक है) यह कहते हुए कि Google अधिक तथाकथित "सिमेंटिक सर्च" तकनीक पेश करके इंटरनेट खोज में अपने प्रतिद्वंद्वियों से आगे रहने के लिए काम कर रहा है। विचार यह है कि Google का खोज बॉक्स केवल उपयोगकर्ताओं के लिए कीवर्ड या विशेष रूप से निर्मित क्वेरी टाइप करने का स्थान नहीं होगा, बल्कि एक बॉक्स होगा जिसमें वास्तविक जानकारी होगी समझ कई शब्दों, नामों, क्रियाओं और संदर्भों को लोग टाइप करते हैं - और उस ज्ञान को उपयोगकर्ताओं की खोजों पर लागू कर सकते हैं। सिद्धांत रूप में, सिमेंटिक खोज ऐसे परिणाम देने में सक्षम होनी चाहिए जो खोजकर्ता के इरादे को दर्शाते हों कुछ मामलों में उपयोगकर्ताओं को किसी अन्य के पास भेजे बिना तुरंत उत्तर देने की Google की क्षमता में सुधार होता है साइट।

लेकिन रुकिए - क्या यह कुछ नया है? गूगल नहीं करता पहले से कुछ उत्तर ठीक सामने रखें? और सिमेंटिक खोज संभावित रूप से Google को इंटरनेट खोज व्यवसाय में अपनी बढ़त बनाए रखने में कैसे मदद कर सकती है?

अनुशंसित वीडियो

सिमेंटिक सर्च क्या है?

संक्षेप में, सिमेंटिक में आईबीएम सुपरकंप्यूटिंग एप्लिकेशन वॉटसन के साथ बहुत अधिक समानता है

मनुष्यों को आसानी से हरा दिया पर ख़तरे में! जैसा कि यह माइक्रोसॉफ्ट वर्ड में फाइंड डायलॉग के साथ करता है।

संक्षेप में कहें तो, कम्प्यूटरीकृत खोज की दुनिया दो प्रकारों में विभाजित है:

शाब्दिक खोज (कई बार बुलाना नेविगेशनल खोज) दर्ज किए गए कुछ या सभी शब्दों के लिए सटीक मिलान की तलाश करता है, और मिलान आइटम लौटाता है - चाहे फ़ाइलें, वेब पेज, उत्पाद, या जानकारी की कोई अन्य अलग इकाई। शाब्दिक खोज को स्टेम-मिलान, संयुग्मन और एसोसिएशन जैसी चीजों से बढ़ाया जा सकता है जो खोज को उपयोगी तरीकों से विस्तारित या प्रतिबंधित करते हैं - इसलिए "फ़्लाई" की खोज करने से "उड़ान" भी प्रभावित हो सकती है। शाब्दिक खोज वह है जिससे हम आज सबसे अधिक परिचित हैं, आंशिक रूप से क्योंकि यह कंप्यूटर के लिए सबसे आसान है अभिनय करना।

शब्दार्थ खोज शाब्दिक खोज से दो तरह से भिन्न है। सबसे पहले, अर्थ संबंधी खोज करने का प्रयास करती है समझना उपयोगकर्ता किसी प्रश्न में क्या पूछ रहा है, उसे प्रश्न के शब्दों और भाषा के विश्लेषण के माध्यम से संदर्भ में रखकर। यह विश्लेषण ज्ञान के कसकर पूर्व-संकलित पूल के आधार पर किया जाता है, जिसमें संभावित रूप से उपयोगकर्ता के बारे में ज्ञान भी शामिल है। दूसरा, फ़ाइलों, वेब पेजों, उत्पादों या अन्य वस्तुओं का एक सेट लौटाने के बजाय, सिमेंटिक खोज एक प्रदान करने का प्रयास करती है प्रत्यक्ष एक प्रश्न का उत्तर. यदि आप सिमेंटिक सर्च इंजन से पूछें कि "प्लूटो की खोज कब हुई थी?" इसका उत्तर हो सकता है "प्लूटो की खोज 18 फरवरी, 1930 को क्लाइड टॉम्बो द्वारा की गई थी^*," जहां एक शाब्दिक खोज इंजन संभवतः उन वेब पेजों के लिंक लौटाएगा जिनमें "खोजा गया" और "प्लूटो" शब्द शामिल हैं।

इससे पता चलता है कि शाब्दिक खोज और अर्थ संबंधी खोज विभिन्न कार्यों के लिए अच्छी हैं। जब कोई उपयोगकर्ता किसी विशिष्ट चीज़ की तलाश कर रहा हो तो शाब्दिक खोज बहुत अच्छी होती है चीज़, चाहे वह फ़ाइल हो, वेब पेज हो, दस्तावेज़ हो, उत्पाद हो, एल्बम हो, या अन्य अलग वस्तु हो। दूसरी ओर, सिमेंटिक खोज तब अधिक उपयोगी साबित होती है जब कोई उपयोगकर्ता विशिष्ट खोज रहा हो जानकारी — जैसे दिनांक, संख्या, समय, स्थान, या नाम।

वर्ड प्रोसेसर से लेकर वेब सर्च इंजन तक हर चीज में शाब्दिक खोज तकनीक के प्रसार के लिए धन्यवाद, हम शाब्दिक खोज के सबसे अधिक आदी हैं। हममें से अधिकांश लोग पहले से ही जानते हैं कि पहली कोशिश में हम जो चाहते हैं उसके करीब पहुंचने के लिए शाब्दिक खोज में हेरफेर कैसे करें। हालाँकि, एफ़राती के डब्लूएसजे लेख के अनुसार, Google का मानना है कि सिमेंटिक खोज तकनीक 10 से 20 प्रतिशत वेब खोजों के सीधे उत्तर प्रदान कर सकती है। कॉमस्कोर, गूगल के अनुसार 11.7 बिलियन खोजों को संभाला फरवरी 2012 में अकेले संयुक्त राज्य अमेरिका में। सिमेंटिक खोज क्षमताओं के साथ, लोगों को अन्य वेब पेजों और साइटों पर भेजने के बजाय, उनमें से 2.3 बिलियन से अधिक खोजों का सीधे उत्तर दिया जा सकता था।

क्या Google पहले से ही ऐसा नहीं करता?

यदि आपने Google वेब खोज का उपयोग किया है तो आप शायद सोच रहे होंगे "लेकिन रुकिए, Google पहले से ही ऐसा करता है!" प्रकार "टोक्यो में वर्तमान समय" या "माउंट एवरेस्ट कितना ऊंचा है” और Google अपने खोज परिणामों के शीर्ष पर सटीक उत्तर पर अपना सर्वश्रेष्ठ अनुमान लगाएगा। Google अपनी प्रतिक्रिया के लिए स्रोतों का भी हवाला देता है, और उनमें से कुछ स्रोत उत्तर के नीचे क्लासिक "दस नीले लिंक" में होंगे। (वैसे, Google की रिपोर्ट है कि माउंट एवरेस्ट 8,848 मीटर लंबा है।)

निष्पक्ष होने के लिए, यह उन कई उपयोगी क्षमताओं में से एक है जिन्हें Google ने अपने खोज बार में बनाया है: यह (परिष्कृत) गणित करेगा, प्रदर्शन करेगा इकाई और मुद्रा रूपांतरण, और उड़ान जानकारी और स्थानीय मूवी शो समय जैसी चीजें खींचें - जटिल टाइप करने की कोई आवश्यकता नहीं है सवाल। यह कुछ सार्वजनिक डेटा स्रोतों का भी लाभ उठा सकता है। उदाहरण के लिए, "टाइप करनाजनसंख्या मेक्सिकोखोज बॉक्स में विश्व बैंक का डेटा प्रदर्शित होगा। आज 113,423,047 लोगों की प्रतिक्रिया है।

हालाँकि, कुछ प्रकार के प्रश्नों के सीधे उत्तर प्रदान करने के Google के प्रयास बहुत जल्दी विफल हो जाते हैं, क्योंकि वे सुविधाएँ बड़े पैमाने पर होती हैं Google के शाब्दिक खोज इंजन के लिए विशेष मामलों के रूप में लागू किया गया है, न कि एक शब्दार्थ खोज के रूप में जो यह समझने की कोशिश करता है कि उपयोगकर्ता क्या कर रहा है चाहता हे। प्रकार "माउंट एवरेस्ट कितना ऊंचा है(वर्तनी पर ध्यान दें) खोज बॉक्स में, और Google उत्तर देने का प्रयास भी नहीं करता है: Google खोज को यह नहीं पता कि "mt" का अर्थ "माउंट" है। इसी तरह, यदि Google ने निर्धारित किया है कि आपका वर्तमान स्थान मेक्सिको में नहीं है (और, यदि Google के पास आपका स्थान नहीं है, तो वह आपके आईपी पते से अनुमान लगाएगा) और, नहीं, आप बाहर नहीं निकल सकते) के लिए खोज रहे हैं "जनसंख्या मेक्सिको सिटी'' कुछ अप्रत्याशित परिणाम आ सकते हैं। निश्चित रूप से मेक्सिको सिटी 10,852 से अधिक लोगों का घर है, है ना?

सिमेंटिक खोज कितनी भिन्न है

सिमेंटिक खोज इस प्रकार की गलतियों को दो तरीकों से खत्म करने का प्रयास करती है। सबसे पहले, यह अधिक सटीकता से समझने का प्रयास करता है इरादा किसी विशेष प्रश्न के पीछे. दूसरा, यह गहन ज्ञान के पूर्व-संकलित पूल के विरुद्ध उस क्वेरी के तत्वों का मिलान करने का प्रयास करता है ताकि यह देखा जा सके कि क्या यह एक सार्थक उत्तर दे सकता है।

जब आप Google जैसे शाब्दिक खोज इंजन को कोई प्रश्न भेजते हैं, तो यह तुरंत ज़िप नहीं होता है इंटरनेट पर प्रत्येक साइट पर नज़र डालें, और उन साइटों की एक सूची वापस रिपोर्ट करें जिनके बारे में उसे लगता है कि वे आपसे सबसे मेल खाती हैं शर्तें। इसके बजाय, Google के पास सॉफ़्टवेयर प्रोग्राम हैं जो लगातार नई साइटों और नए वेब पेजों के लिए इंटरनेट की खोज करते रहते हैं, जो एक नई साइट बनाते हैं अनुक्रमणिका उनके द्वारा खोजे गए सभी पृष्ठों से। हालाँकि यह एक बहुत बड़ा अति-सरलीकरण है, जब उपयोगकर्ता "" जैसी खोज क्वेरी टाइप करते हैंयाल्टा सम्मेलन," Google उस सूचकांक को उन पृष्ठों के लिए देखता है जो "याल्टा" और "सम्मेलन" दोनों से मेल खाते हैं, साथ ही ऐसे पृष्ठ जिनमें दोनों शब्द एक-दूसरे के निकट हैं (मान लीजिए, 8 या 10 शब्दों के भीतर)। फिर Google उन पृष्ठों के लिए URL एकत्र करता है, अपने आंतरिक पेजरैंक (Google द्वारा किसी पृष्ठ की सापेक्ष खूबियों का माप जो मूल रूप से इससे जुड़े लिंक को सकारात्मक वोटों के रूप में गिनता है) के आधार पर क्रमबद्ध करता है, और एक सूची लौटाता है।

ऐसी प्रक्रिया के पीछे डेटा प्रबंधन और इंजीनियरिंग, और Google दोनों ही चुनौतीपूर्ण और विशाल हैं इसे दूर करने के लिए बधाई का पात्र है - विशेषकर इसलिए क्योंकि Google अक्सर इसे बहुत ही कम समय में करने में सक्षम होता है दूसरा। माइक्रोसॉफ्ट के बिंग में भी पर्दे के पीछे ऐसी ही चीजें होती हैं।

एक सिमेंटिक खोज एक ही प्रश्न पर अलग ढंग से विचार करेगी। किसी क्वेरी की तुलना उन वेब पेजों के पूर्व-संकलित (और लगातार अपडेट किए गए) इंडेक्स से करने के बजाय, जिनके बारे में वह जानता है, एक सिमेंटिक सर्च इंजन क्वेरी की तुलना असतत, पूर्व-अनुपालित से करता है ज्ञान सेट यह उपलब्ध है. डेटाबेस जैसे ज्ञान सेट के बारे में सोचें: मूल रूप से, वे किसी विशेष विषय के बारे में डेटा, तथ्यों और आंकड़ों से भरे होते हैं। विभिन्न प्रकार के ज्ञान सेट हैं। कुछ दिलचस्प हैं ऑन्कोलॉजी (जो औपचारिक जानकारी का प्रतिनिधित्व करता है जिसे नियमों, कार्यों और प्रतिबंधों के साथ हेरफेर किया जा सकता है) और लोकसोनोमीज़, जो आम तौर पर सहयोगात्मक रूप से परिभाषित ज्ञान सेट का प्रतिनिधित्व करते हैं: उदाहरण हैशटैगिंग और सामाजिक बुकमार्क होंगे।

ज्ञान सेट केवल भंडारण डिब्बे से कहीं अधिक हैं। वे ज्ञान आधार में वस्तुओं के बीच संबंधों का भी प्रतिनिधित्व करते हैं, और जानकारी को सार्थक रूप से उपयोग करने में सक्षम बनाते हैं एकाधिक ज्ञान सेट. इसके अलावा, रिश्तों को अक्सर इस तरह से व्यक्त किया जाता है कि सटीक तार्किक निष्कर्ष निकाले जा सकें बिना सभी संभावित व्युत्पन्न डेटा को संग्रहीत करना होगा। यह थोड़ा सा मानवरूपीकरण है, लेकिन सिमेंटिक खोज इंजन उस डेटा पर बुनियादी तर्क और कटौती कर सकते हैं जिसके बारे में वे जानते हैं। उस प्रक्रिया के भाग के रूप में, सिमेंटिक खोज इंजनों को अक्सर उनकी व्युत्पत्तियों में विश्वास के स्तर का आकलन करने के लिए डिज़ाइन किया जाता है। अगर उन्हें नहीं लगता कि वे जानते हैं कि वे किस बारे में बात कर रहे हैं, तो वे चुप रह सकते हैं। यदि वे पूरी तरह आश्वस्त हैं, तो वे उत्तर देंगे।

इसलिए यदि आप सिमेंटिक सर्च इंजन में "याल्टा कॉन्फ्रेंस" इनपुट करते हैं, तो यह अपने ज्ञान सेट में दिखेगा और शायद कुछ बुनियादी तथ्य और आंकड़े सामने लाएगा, शायद "4 से 11 फरवरी, 1945।" यह संकेत दे सकता है कि स्टालिन, चर्चिल और फ्रैंकलिन रूजवेल्ट ने भाग लिया था, और यह विश्व युद्ध के अंतिम महीनों में भी महत्वपूर्ण था द्वितीय. काफ़ी बुनियादी चीज़.

यदि आप किसी शाब्दिक खोज इंजन से पूछें "क्या याल्टा सम्मेलन कोरियाई युद्ध के दौरान हुआ था?"आपको शायद केवल दस नीले लिंक की एक सूची मिलेगी। किसी के पास उत्तर हो सकता है.

हालाँकि, यदि आप सिमेंटिक सर्च इंजन से पूछते हैं, तो आपको एक शब्द में उत्तर मिलना चाहिए: "नहीं।"

वह वह जगह है जहां अर्थ संबंधी खोज अविश्वसनीय रूप से दिलचस्प हो जाती है।

क्या यह वोल्फ्राम अल्फ़ा नहीं है?

यदि ये प्रश्न उस प्रकार की चीज़ों की तरह लगते हैं जिन्हें लोग उछालते हैं वोल्फरम अल्फा खोज इंजन, आप बिल्कुल सही हैं। वेब पेजों का सूचकांक बनने के बजाय, वोल्फ्राम अल्फा एक ज्ञान इंजन बनने का प्रयास करता है। वोल्फ्राम अल्फ़ा किसी चीज़ (जैसे वेब पेज) की खोज करने के बारे में नहीं है, बल्कि उत्तर मांगने के बारे में है। वोल्फ्राम अल्फा अपने परिणाम देने के लिए पूर्व-अनुपालित ज्ञान आधारों पर निर्भर करता है, और कंपनी नियमित रूप से नए ज्ञान आधार जोड़ और अपडेट कर रही है। कुछ अत्यधिक विशिष्ट तकनीकी डेटा हैं - जैसे रासायनिक तत्वों या फल मक्खी के जीनोम पर जानकारी - जबकि अन्य अधिक सनकी हैं। उदाहरण के लिए, वोल्फ्राम अल्फा बिल्ली की नस्लों के बारे में काफी कुछ जानता है।

जब तक आप वोल्फ्राम अल्फा के ज्ञान के दायरे में रहते हैं, यह डेटा का उपयोगी विश्लेषण कर सकता है। उदाहरण के लिए, वोल्फ्राम अल्फा कर सकता है शेरों और बाघों की छलांग दूरी की तुलना करें. (उनकी तुलना की जा सकती है, लेकिन बाघ आम तौर पर शेरों को पछाड़ देते हैं।) लेकिन अगर आप जानना चाहते हैं कंगारू कितनी दूर तक छलांग लगा सकते हैं? उफ़, क्षमा करें: कोई डेटा उपलब्ध नहीं है।

लेकिन कंगारू हॉप्स पर असफल क्वेरी से पता चलता है कि वोल्फ्राम अल्फा चीजों को कैसे समझने की कोशिश करता है। उत्तर देने से पहले, इंजन इंगित करता है कि वह "कंगारू" का अर्थ "कंगारू" मान रहा है। वालबीज़," लेकिन उपयोगकर्ता एंटीलोपिन कंगारू, लाल कंगारू, या पूर्वी ग्रे पर स्विच कर सकते हैं कंगारू. इसी तरह, वोल्फ्राम अल्फा ने "कूदने की दूरी" के लिए एक प्रश्न के रूप में "कंगारू कितनी दूर तक छलांग लगा सकता है" की व्याख्या की है, यह जानवरों के बारे में एक विशिष्ट डेटा बिंदु हो सकता है। पता चला, वोल्फ्राम अल्फा के पास फिलहाल वह डेटा नहीं है, लेकिन क्वेरी की इसकी व्याख्या बहुत महत्वपूर्ण है।

क्या यह सिरी नहीं है?

यदि ये प्रश्न उन चीजों की तरह लगते हैं जो लोग iPhone 4S में सिरी पर फेंकते हैं (लेकिन, याद रखें, नहीं नया आईपैड इस सप्ताह शुरू हो रहा है), आप बिल्कुल सही हैं। हालाँकि, यह याद रखना महत्वपूर्ण है कि सिरी समीकरण का केवल आधा हिस्सा ही निपटाता है: उपयोगकर्ता के प्रश्नों को समझना। ऐसा करने में, सिरी वास्तविक समय में माइक्रोफ़ोन पर उपयोगकर्ता के भाषण को सटीक रूप से पहचानने की बहुत कठिन कंप्यूटिंग समस्या का सामना करता है। यह कोई छोटी उपलब्धि नहीं है, लेकिन यह कोई अर्थ संबंधी खोज इंजन नहीं है। पर्दे के पीछे, सिरी वोल्फ्राम अल्फा, येल्प और (यदि बाकी सब विफल हो जाता है) उपयोगकर्ता के पसंदीदा वेब सर्च इंजन को प्रश्न भेज रहा है। यदि आप सिरी से पूछें "क्या याल्टा सम्मेलन कोरियाई युद्ध के दौरान हुआ था," तो यह सटीक रूप से पहचान सकता है कि क्या आप पूछ रहे हैं - यह मेरे लिए था - लेकिन यह सिर्फ पुराने स्कूल की शाब्दिक वेब खोज करने की पेशकश करने जा रहा है आप।

क्या उम्मीद करें

सिमेंटिक खोज में Google की रुचि संभवतः दोगुनी है। सबसे पहले, यह संभवतः प्रौद्योगिकी का उपयोग एक और डींग हांकने वाले बिंदु के रूप में करना चाहता है जो इसे अपनी प्रतिस्पर्धा से आगे रखता है - ज्यादातर माइक्रोसॉफ्ट बिंग। बिंग के पास लंबे समय से एक वोल्फ्राम अल्फा के साथ साझेदारी जब संभव हो तो खोज इंजन को सीधे उत्तर देने में मदद करने के लिए डिज़ाइन किया गया है। हालाँकि, अब तक न तो बिंग और न ही गूगल ने सीधे खोज परिणामों के साथ उपभोक्ताओं के बीच बड़ी पैठ बनाई है। आख़िरकार, अधिकांश रोजमर्रा के खोज उपयोगकर्ता शायद यह नहीं जानते कि (सीमित) क्षमताएं पहले से मौजूद हैं। यहां तक कि उन उपयोगकर्ताओं के लिए भी जो इनके बारे में जानते हैं, Google को भी लगता है कि तकनीक केवल 10 से 20 प्रतिशत खोजों पर ही लागू होती है। यह बहुत सारी खोजें हैं, लेकिन इसका मतलब है कि अधिकांश (80 से 90 प्रतिशत) खोजें इसका उपयोग नहीं करेंगी।

हालाँकि, जैसे-जैसे उपभोक्ता नोटबुक, डेस्कटॉप और पारंपरिक कंप्यूटिंग प्लेटफ़ॉर्म को तेजी से त्याग रहे हैं, जटिल खोज प्रश्नों के संक्षिप्त, आसानी से समझे जाने वाले उत्तर प्रदान करने की क्षमता कम हो सकती है। बहुत मोबाइल की दुनिया में महत्वपूर्ण. उन उपयोगकर्ताओं के लिए जो गाड़ी चला रहे हैं या अन्यथा कीपैड या ऑनस्क्रीन कीबोर्ड के साथ खिलवाड़ करने के इच्छुक नहीं हैं, "गोल्डन गेट पार्क है" जैसे बोले गए प्रश्नों का उत्तर देने की क्षमता सेंट्रल पार्क से भी बड़ा?” या "मैल्कम के फ़्लैट का कौन सा रास्ता?" "हां" और "अगला बाईं ओर ले जाएं" जैसे सरल उत्तर मोबाइल के लिए अमूल्य विभेदक हो सकते हैं प्लेटफार्म.

यह लगभग निश्चित रूप से वह जगह है जहाँ Apple और Google जैसी कंपनियाँ प्रौद्योगिकी को अपनाना चाह रही हैं।

* टॉमबॉघ ने पहली बार 18 फरवरी, 1930 को प्लूटो को एक गतिशील वस्तु के रूप में पहचाना, लेकिन प्लूटो को पहले कई मौकों पर अनजाने में देखा गया था। वर्तमान में सबसे पहले ज्ञात 1909 में था। देखना? ज्ञान फिसलन भरा है.

फोटो के माध्यम से: एनेट शेफ़ / शटरस्टॉक.कॉम

संपादकों की सिफ़ारिशें

सारा इंटरनेट अब Google के AI के अंतर्गत है
आपको बिंग का उपयोग करने की आवश्यकता नहीं है - Google खोज में भी अब AI है
उफ़ - Google बार्ड AI डेमो पहले खोज परिणाम से अस्वीकृत है
यहां बताया गया है कि Google खोज किस प्रकार क्लिकबेट से निपटने की योजना बना रही है
Google खोज से व्यक्तिगत जानकारी कैसे हटाएं

बेहतर खोज: क्यों 'सिमेंटिक सर्च' अंततः Google को आपको समझने देगा

सिमेंटिक सर्च क्या है?

क्या Google पहले से ही ऐसा नहीं करता?

सिमेंटिक खोज कितनी भिन्न है

क्या यह वोल्फ्राम अल्फ़ा नहीं है?

क्या यह सिरी नहीं है?

क्या उम्मीद करें

संपादकों की सिफ़ारिशें

श्रेणियाँ

हाल का

Spotify के नए समूह सत्र फ़ीचर का उपयोग कैसे करें

विंडोज़ 8 स्टोर के पूरी तरह से ख़राब होने के 5 कारण

2013 में पीसी शिपमेंट में 10 प्रतिशत की गिरावट आई जबकि टैबलेट में 68 प्रतिशत की वृद्धि देखी गई