जब स्नैपचैट को पहली बार स्टैनफोर्ड मैकेनिकल इंजीनियरिंग कक्षा के हिस्से के रूप में पेश किया गया था, तो पाठ्यक्रम के भयभीत शिक्षण सहायक ने खुले तौर पर आश्चर्यचकित किया कि क्या ऐप के रचनाकारों ने एक सेक्सटिंग ऐप बनाया था। एक दशक से भी कम समय के बाद, स्नैपचैट वर्तमान में तकनीक के सामने आने वाली सबसे बड़ी समस्याओं में से एक को हल करने में मदद कर सकता है: रोकना ऑनलाइन "फर्जी समाचार" का प्रसार.
अंतर्वस्तु
- फर्जी खबरों का संकेत?
- सदियों से चला आ रहा चूहे-बिल्ली का खेल
इस लक्ष्य को ध्यान में रखते हुए, स्नैप रिसर्च - स्नैप, इंक. का अनुसंधान प्रभाग। - हाल ही में कैलिफोर्निया विश्वविद्यालय, रिवरसाइड परियोजना के लिए धनराशि दान की गई, जिसका लक्ष्य ऑनलाइन फर्जी समाचारों का पता लगाने का एक नया तरीका खोजना है। एल्गोरिदम यूसी रिवरसाइड विकसित किया गया है कथित तौर पर 75 प्रतिशत तक प्रभावशाली सटीकता स्तर के साथ फर्जी समाचारों का पता लगाने में सक्षम है। स्नैप के समर्थन से, उन्हें इसमें और सुधार होने की उम्मीद है।
अनुशंसित वीडियो
"जैसा कि मैं इसे समझता हूं, वे इस बात पर अच्छी पकड़ बनाने में बहुत रुचि रखते हैं कि कोई इस समस्या को कैसे समझ सकता है - और अंततः इसे कैसे हल कर सकता है।"
"स्नैप पहली कंपनियों में से एक नहीं है जो [इस समस्या] को देखते हुए दिमाग में आएगी," वैगेलिस पापलेक्साकिसयूसी रिवरसाइड में कंप्यूटर विज्ञान और इंजीनियरिंग विभाग में सहायक प्रोफेसर ने डिजिटल ट्रेंड्स को बताया। “फिर भी, स्नैप एक ऐसी कंपनी है जो सामग्री संभालती है। जैसा कि मैं इसे समझता हूं, वे इस बात पर अच्छी पकड़ बनाने में बहुत रुचि रखते हैं कि कोई इस समस्या को कैसे समझ सकता है - और अंततः इसे कैसे हल कर सकता है।
जो बात यूसी रिवरसाइड के शोध को फर्जी समाचार चक्र को तोड़ने की कोशिश करने वाली दर्जनों, शायद सैकड़ों अन्य शोध परियोजनाओं से अलग बनाती है, वह परियोजना की महत्वाकांक्षा है। यह कोई साधारण कीवर्ड अवरोधक नहीं है, न ही इसका उद्देश्य कुछ यूआरएल पर पूर्ण प्रतिबंध लगाना है। न ही, शायद सबसे दिलचस्प बात यह है कि उसे कहानियों में निहित तथ्यों में विशेष रुचि है। यह इसे स्नोप्स जैसी तथ्य-जांच वेबसाइटों से अलग बनाता है, जो वास्तविक स्वचालन के बजाय मानव इनपुट और मूल्यांकन पर भरोसा करते हैं।
पापलेक्साकिस ने कहा, "मैं वास्तव में मानवीय टिप्पणियों पर भरोसा नहीं करता।" "इसलिए नहीं कि मुझे इंसानों पर भरोसा नहीं है, बल्कि यह स्वाभाविक रूप से एक कठिन समस्या है जिसका निश्चित उत्तर पाना कठिन है। इसके लिए हमारी प्रेरणा यह पूछने से आती है कि अकेले डेटा को देखकर हम कितना कुछ कर सकते हैं, और क्या हम जितना संभव हो उतना कम मानव एनोटेशन का उपयोग कर सकते हैं - यदि कोई हो तो।'
फर्जी खबरों का संकेत?
नया एल्गोरिदम एक समाचार कहानी से जितना संभव हो उतने "संकेतों" को देखता है, और इसका उपयोग लेख की विश्वसनीयता को वर्गीकृत करने और वर्गीकृत करने के लिए करता है। पापलेक्साकिस ने कहा: “लेख किसने साझा किया? उन्होंने कौन से हैशटैग का उपयोग किया? ये किसने लिखा? यह किस समाचार संगठन से है? वेबपेज कैसा दिखता है? हम यह पता लगाने की कोशिश कर रहे हैं कि कौन से कारक [महत्वपूर्ण] हैं और उनका कितना प्रभाव है।
उदाहरण के लिए, हैशटैग #LockHerUp जरूरी नहीं कि यह पुष्टि करे कि कोई लेख अपने आप में फर्जी खबर है। हालाँकि, यदि कोई व्यक्ति ट्विटर पर कोई लेख साझा करते समय यह प्रत्यय जोड़ता है, तो यह कहानी में एक निश्चित झुकाव का संकेत दे सकता है। इनमें से पर्याप्त सुरागों को एक साथ जोड़ें, और विचार यह है कि अलग-अलग टुकड़े मिलकर एक संपूर्ण खुलासा करते हैं। इसे दूसरे तरीके से कहें तो, अगर यह बत्तख की तरह चलता है और बत्तख की तरह ही बड़बड़ाता है, तो संभावना है कि यह बत्तख ही है। या, इस मामले में, एक वेडलिंग, क्वैकिंग, ऑल्ट-राइट रूसी डक बॉट।
पापलेक्साकिस ने आगे कहा, "हमारी रुचि यह समझने में है कि शुरुआत में क्या होता है, और नेटवर्क को 'संक्रमित' करने से पहले हम शुरुआती चरणों में किसी चीज़ को कैसे चिह्नित कर सकते हैं।" "अभी हमारी रुचि यही है: किसी विशेष लेख की सामग्री और संदर्भ से हम क्या निचोड़ सकते हैं, इस पर काम करना।"
पैपलेक्साकिस समूह द्वारा विकसित एल्गोरिदम एक समाचार लेख के बारे में जानकारी की विभिन्न धाराओं का विश्लेषण करने के लिए टेंसर अपघटन नामक चीज़ का उपयोग करता है। टेंसर बहु-आयामी क्यूब हैं, जो डेटा के मॉडलिंग और विश्लेषण के लिए उपयोगी होते हैं जिनमें कई अलग-अलग घटक होते हैं। टेन्सर अपघटन किसी विशेष पैटर्न या विषय का प्रतिनिधित्व करने वाले टेन्सर को जानकारी के प्राथमिक टुकड़ों में तोड़कर डेटा में पैटर्न की खोज करना संभव बनाता है।
"यहां तक कि एनोटेटेड लेखों की हास्यास्पद रूप से छोटी संख्या भी हमें सटीकता के वास्तव में उच्च स्तर तक ले जा सकती है"
एल्गोरिदम पहले डेटा को इस तरह से प्रस्तुत करने के लिए टेंसर अपघटन का उपयोग करता है कि यह संभावित नकली समाचारों को एक साथ समूहित करता है। एल्गोरिथम का दूसरा स्तर उन लेखों को जोड़ता है जिन्हें एक-दूसरे के करीब माना जाता है। इन लेखों के बीच संबंध का मानचित्रण "संघ द्वारा अपराध" नामक सिद्धांत पर निर्भर करता है। यह सुझाव देते हुए कि दो लेखों के बीच संबंध का मतलब है कि उनके एक के समान होने की अधिक संभावना है एक और।
इसके बाद मशीन लर्निंग को ग्राफ़ पर लागू किया जाता है। यह "अर्ध-पर्यवेक्षित" दृष्टिकोण उपयोगकर्ताओं द्वारा वर्गीकृत किए गए लेखों की एक छोटी संख्या का उपयोग करता है, और फिर इस ज्ञान को बहुत बड़े डेटा सेट पर लागू करता है। हालाँकि इसमें अभी भी कुछ स्तर पर मनुष्य शामिल हैं, लेकिन संभावित नकली समाचारों को वर्गीकृत करने के अधिकांश वैकल्पिक तरीकों की तुलना में इसमें कम मानवीय व्याख्या शामिल है। शोधकर्ताओं द्वारा बताया गया 75 प्रतिशत सटीकता स्तर दो सार्वजनिक डेटासेट और 63,000 समाचार लेखों के अतिरिक्त संग्रह को सही ढंग से फ़िल्टर करने पर आधारित है।
पापलेक्साकिस ने कहा, "यहां तक कि एनोटेट किए गए लेखों की हास्यास्पद रूप से छोटी संख्या भी हमें वास्तव में सटीकता के उच्च स्तर तक ले जा सकती है।" "एक ऐसी प्रणाली होने से कहीं बेहतर जहां हमने व्यक्तिगत विशेषताओं, जैसे भाषा विज्ञान, या अन्य चीजों को पकड़ने की कोशिश की, जिन्हें लोग गलत सूचना के रूप में देख सकते हैं।"
सदियों से चला आ रहा चूहे-बिल्ली का खेल
कंप्यूटर विज्ञान के नजरिए से, यह देखना आसान है कि यह काम वैगेलिस पापलेक्साकिस और यूसी रिवरसाइड के अन्य शोधकर्ताओं - साथ ही स्नैपचैट के लोगों को क्यों पसंद आएगा। न केवल नकली समाचारों को वास्तविक समाचारों से अलग करने में सक्षम होना, बल्कि गंभीर पत्रकारिता या व्यंग्यात्मक लेखों से पक्षपातपूर्ण ऑप-एड को अलग करने में भी सक्षम होना प्याज यह उस प्रकार की बड़ी डेटा पहेली है जिसका इंजीनियर सपना देखते हैं।
हालाँकि, बड़ा सवाल यह है कि इस एल्गोरिदम का उपयोग कैसे किया जाएगा - और क्या यह अंततः नकली समाचारों की घटना पर नकेल कसने में मदद कर सकता है।
परियोजना में स्नैप का योगदान (जो $7,000 के "उपहार" और अतिरिक्त गैर-वित्तीय सहायता के बराबर है) यह गारंटी नहीं देता है कि कंपनी किसी वाणिज्यिक उत्पाद में प्रौद्योगिकी को अपनाएगी। लेकिन पापलेक्साकिस ने कहा कि उन्हें उम्मीद है कि शोध अंततः "प्लेटफ़ॉर्म पर कुछ तकनीकी हस्तांतरण की ओर ले जाएगा।"
उन्होंने बताया कि अंतिम लक्ष्य एक ऐसी प्रणाली विकसित करना है जो किसी भी लेख को विश्वसनीयता स्कोर प्रदान करने में सक्षम हो। सिद्धांत रूप में, इस तरह के स्कोर का उपयोग नकली समाचारों को उपयोगकर्ता द्वारा देखे जाने से पहले ही फ़िल्टर करने के लिए किया जा सकता है।
यह मशीन लर्निंग ईमेल स्पैम फ़िल्टर से भिन्न विचार नहीं है, जो संदेश के मुख्य भाग में छवि और पाठ के अनुपात जैसे कारकों के आधार पर एक स्कोरिंग प्रणाली भी लागू करता है। हालाँकि, पैपलेक्साकिस ने सुझाव दिया कि एक बेहतर तरीका केवल उपयोगकर्ताओं को इनके प्रति सचेत करना हो सकता है ऐसी कहानियाँ जो संभावित नकली श्रेणी में उच्च स्कोर करती हैं - "और फिर उपयोगकर्ता को यह तय करने दें कि क्या करना है यह।"
इसका एक अच्छा कारण यह तथ्य है कि समाचार हमेशा स्पैम बनाम स्पैम में इतनी सफाई से विभाजित नहीं होते हैं। हैम श्रेणियाँ, जैसा कि ईमेल करता है। निश्चित रूप से, कुछ लेख पूरी तरह से मनगढ़ंत हो सकते हैं, लेकिन अन्य अधिक संदिग्ध हो सकते हैं: जिनमें कोई प्रत्यक्ष झूठ नहीं है, लेकिन फिर भी पाठक को एक निश्चित दिशा में ले जाने का इरादा है। इन लेखों को हटाने से, भले ही हमें अपनी राय आपस में टकराती हुई लगे, इससे स्थिति और जटिल हो जाती है।
"यह एक अस्पष्ट क्षेत्र में आता है," पापलेक्साकिस ने जारी रखा। “अगर हम इसे अत्यधिक पक्षपातपूर्ण लेख के रूप में वर्गीकृत कर सकें तो यह ठीक है। जिसे हम गलत सूचना कह सकते हैं, उसके लिए अलग-अलग श्रेणियां हैं। [एक भारी पक्षपातपूर्ण लेख] एक सीधे-सीधे झूठे लेख जितना बुरा नहीं हो सकता है, लेकिन यह अभी भी पाठक को एक विशेष दृष्टिकोण बेच रहा है। यह नकली बनाम से अधिक सूक्ष्म है। नकली नहीं।"
अंततः, पापलेक्साकिस की एक ऐसी प्रणाली के साथ आने की इच्छा के बावजूद जो कम से कम निरीक्षण का उपयोग करती है संभव है, वह स्वीकार करते हैं कि यह एक चुनौती है जिसमें मनुष्य और दोनों को शामिल करना होगा मशीनें.
उन्होंने कहा, "मैं इसे तकनीकी दृष्टिकोण से चूहे-बिल्ली के खेल के रूप में देखता हूं।" "मुझे नहीं लगता कि 'इसे हल करना' कहना इसे देखने का सही तरीका है। लोगों को एक उपकरण प्रदान करना जो उन्हें किसी लेख के बारे में विशेष बातें समझने में मदद कर सके, समाधान का हिस्सा है। यह समाधान ऐसे उपकरण होंगे जो आपको स्वयं चीजों का मूल्यांकन करने, एक सक्रिय नागरिक के रूप में शिक्षित रहने, चीजों को समझने और लाइनों के बीच पढ़ने में मदद कर सकते हैं। मुझे नहीं लगता कि इस समस्या के लिए केवल तकनीकी समाधान लागू किया जा सकता है क्योंकि इसमें बहुत कुछ लोगों पर निर्भर करता है और वे चीजों को कैसे देखते हैं।
संपादकों की सिफ़ारिशें
- फर्जी खबरों का पता लगाने में एल्गोरिदम इंसानों से बेहतर प्रदर्शन करता है