เมื่อ Snapchat ได้รับการเสนอให้เป็นส่วนหนึ่งของชั้นเรียนวิศวกรรมเครื่องกลของมหาวิทยาลัยสแตนฟอร์ด ผู้ช่วยสอนที่น่าตกใจของหลักสูตรนี้สงสัยอย่างเปิดเผยว่าผู้สร้างแอปได้สร้างแอปส่งข้อความหรือไม่ ไม่ถึงหนึ่งทศวรรษต่อมา Snapchat สามารถช่วยแก้ปัญหาที่ใหญ่ที่สุดประการหนึ่งที่เทคโนโลยีกำลังเผชิญอยู่ นั่นก็คือการหยุด การแพร่กระจายของ "ข่าวปลอม" ทางออนไลน์.
สารบัญ
- สัญญาณข่าวลวง?
- เกมแมวจับหนูสำหรับทุกเพศทุกวัย
ด้วยเป้าหมายนี้ Snap Research - แผนกวิจัยของ Snap, Inc. — เพิ่งบริจาคเงินให้กับโครงการ University of California, Riverside โดยมีเป้าหมายเพื่อค้นหาวิธีใหม่ในการตรวจจับเรื่องราวข่าวปลอมทางออนไลน์ ที่ อัลกอริธึม UC Riverside ได้พัฒนาขึ้น มีรายงานว่าสามารถตรวจจับข่าวปลอมได้อย่างแม่นยำถึง 75 เปอร์เซ็นต์ ด้วยการสนับสนุนของ Snap พวกเขาหวังว่าจะปรับปรุงสิ่งนี้ต่อไป
วิดีโอแนะนำ
“ตามที่ฉันเข้าใจ พวกเขาสนใจที่จะทำความเข้าใจให้ดีว่าเราจะเข้าใจปัญหานี้ได้อย่างไร และแก้ไขมันได้ในท้ายที่สุด”
“Snap ไม่ใช่บริษัทแรกๆ ที่จะนึกถึง [ปัญหานี้]” วาเกลิส ปาปาเล็กซากิสผู้ช่วยศาสตราจารย์ในภาควิชาวิทยาการคอมพิวเตอร์และวิศวกรรมที่ UC Riverside กล่าวกับ Digital Trends “อย่างไรก็ตาม Snap เป็นบริษัทที่จัดการเนื้อหา ตามที่ฉันเข้าใจ พวกเขาสนใจที่จะทำความเข้าใจให้ดีว่าเราจะเข้าใจปัญหานี้ได้อย่างไร และแก้ไขปัญหาได้ในท้ายที่สุด”
สิ่งที่ทำให้งานวิจัยของ UC Riverside แตกต่างจากโครงการวิจัยอื่นๆ หลายสิบหรืออาจจะหลายร้อยโครงการที่พยายามทำลายวงจรข่าวปลอมก็คือความทะเยอทะยานของโครงการ ไม่ใช่ตัวบล็อกคำหลักธรรมดาๆ และไม่ได้มีเป้าหมายที่จะห้ามบาง URL แบบครอบคลุม และที่น่าสนใจที่สุดก็คือความสนใจเป็นพิเศษในข้อเท็จจริงที่มีอยู่ในเรื่องราวต่างๆ หรือไม่ สิ่งนี้ทำให้แตกต่างจากเว็บไซต์ตรวจสอบข้อเท็จจริงอย่าง Snopes ซึ่งอาศัยข้อมูลและการประเมินของมนุษย์ แทนที่จะเป็นระบบอัตโนมัติที่แท้จริง
“ฉันไม่เชื่อคำอธิบายประกอบของมนุษย์จริงๆ” Papalexakis กล่าว “ไม่ใช่เพราะฉันไม่เชื่อใจมนุษย์ แต่กลายเป็นว่านี่เป็นปัญหาที่ยากมากที่จะได้รับคำตอบที่ชัดเจน แรงจูงใจของเราในเรื่องนี้มาจากการถามว่าเราสามารถทำอะไรได้บ้างโดยดูจากข้อมูลเพียงอย่างเดียว และว่าเราสามารถใช้คำอธิบายประกอบของมนุษย์ให้น้อยที่สุดเท่าที่จะเป็นไปได้หรือไม่ ถ้ามีเลย”
สัญญาณข่าวลวง?
อัลกอริธึมใหม่จะพิจารณา "สัญญาณ" มากที่สุดเท่าที่จะเป็นไปได้จากเรื่องข่าว และใช้สิ่งนี้เพื่อพยายามจัดประเภทความน่าเชื่อถือของบทความ Papalexakis กล่าวว่า “ใครแชร์บทความนี้บ้าง? พวกเขาใช้แฮชแท็กอะไร? ใครเขียนมัน? มาจากสำนักข่าวไหนคะ? หน้าเว็บมีลักษณะอย่างไร? เรากำลังพยายามหาว่าปัจจัยใด [สำคัญ] และมีอิทธิพลมากน้อยเพียงใด”
ตัวอย่างเช่น แฮชแท็ก #LockHerUp อาจไม่ได้ยืนยันว่าบทความนั้นเป็นข่าวปลอมแต่อย่างใด อย่างไรก็ตาม หากมีคนเพิ่มส่วนต่อท้ายนี้เมื่อแชร์บทความบน Twitter ก็อาจบ่งบอกถึงความเอียงในเรื่องราวได้ เพิ่มเบาะแสเหล่านี้เข้าด้วยกันให้เพียงพอ และแนวคิดก็คือให้ชิ้นส่วนที่แยกจากกันรวมกันเป็นส่วนที่เผยให้เห็นทั้งหมด กล่าวอีกนัยหนึ่ง ถ้ามันเดินเหมือนเป็ดและต้มเหมือนเป็ด ก็มีโอกาสเป็นเป็ด หรือในกรณีนี้คือบอทเป็ดรัสเซียที่เดินเตาะแตะ alt-right
“ความสนใจของเราคือการทำความเข้าใจว่าเกิดอะไรขึ้นตั้งแต่เนิ่นๆ และวิธีที่เราจะทำเครื่องหมายบางสิ่งในระยะแรกก่อนที่มันจะเริ่ม 'แพร่ระบาด' เครือข่าย” Papalexakis กล่าวต่อ “นั่นคือความสนใจของเราในตอนนี้: ค้นหาสิ่งที่เราสามารถบีบออกจากเนื้อหาและบริบทของบทความใดบทความหนึ่งได้”
อัลกอริทึมที่พัฒนาโดยกลุ่มของ Papalexakis ใช้สิ่งที่เรียกว่าการสลายตัวของเทนเซอร์เพื่อวิเคราะห์กระแสข้อมูลต่างๆ เกี่ยวกับบทความข่าว เทนเซอร์เป็นลูกบาศก์หลายมิติ มีประโยชน์สำหรับการสร้างแบบจำลองและการวิเคราะห์ข้อมูลซึ่งมีส่วนประกอบที่แตกต่างกันมากมาย การสลายตัวของเทนเซอร์ทำให้สามารถค้นพบรูปแบบของข้อมูลได้โดยการแยกเทนเซอร์ออกเป็นส่วนๆ ของข้อมูลเบื้องต้น ซึ่งแสดงถึงรูปแบบหรือหัวข้อเฉพาะ
“แม้แต่บทความที่มีคำอธิบายประกอบจำนวนเพียงเล็กน้อยก็สามารถพาเราไปสู่ระดับความแม่นยำที่สูงมากได้”
ขั้นแรกอัลกอริทึมจะใช้การสลายตัวของเทนเซอร์เพื่อแสดงข้อมูลในลักษณะที่จัดกลุ่มเรื่องราวข่าวปลอมที่เป็นไปได้ไว้ด้วยกัน อัลกอริธึมระดับที่สองจะเชื่อมโยงบทความที่ถือว่าอยู่ใกล้กัน การเชื่อมโยงระหว่างบทความเหล่านี้โดยอาศัยหลักการที่เรียกว่า "ความผิดโดยการสมาคม" การแนะนำว่าการเชื่อมโยงระหว่างสองบทความหมายความว่ามีแนวโน้มที่จะคล้ายคลึงกันมากกว่า อื่น.
หลังจากนั้น แมชชีนเลิร์นนิงจะถูกนำมาใช้กับกราฟ วิธีการ "กึ่งกำกับดูแล" นี้ใช้บทความจำนวนเล็กน้อยซึ่งได้รับการจัดหมวดหมู่ตามผู้ใช้ จากนั้นจึงนำความรู้นี้ไปใช้กับชุดข้อมูลที่ใหญ่กว่ามาก แม้ว่าสิ่งนี้จะยังคงเกี่ยวข้องกับมนุษย์ในระดับหนึ่ง แต่ก็มีคำอธิบายประกอบของมนุษย์น้อยกว่าวิธีการอื่นส่วนใหญ่ในการจำแนกข่าวปลอมที่อาจเกิดขึ้น ระดับความแม่นยำ 75 เปอร์เซ็นต์ที่นักวิจัยเสนอนั้นขึ้นอยู่กับการกรองชุดข้อมูลสาธารณะสองชุดอย่างถูกต้องและการรวบรวมบทความข่าวเพิ่มเติมอีก 63,000 บทความ
“แม้แต่บทความที่มีคำอธิบายประกอบจำนวนเพียงเล็กน้อยก็สามารถพาเราไปสู่ระดับความแม่นยำที่สูงมากได้” Papalexakis กล่าว “สูงกว่าการมีระบบที่เราพยายามจับภาพลักษณะเฉพาะของแต่ละบุคคล เช่น ภาษาศาสตร์ หรือสิ่งอื่นๆ ที่ผู้คนอาจมองว่าให้ข้อมูลที่ไม่ถูกต้อง”
เกมแมวจับหนูสำหรับทุกเพศทุกวัย
จากมุมมองของวิทยาการคอมพิวเตอร์ เป็นเรื่องง่ายที่จะเห็นว่าเหตุใดงานนี้จึงดึงดูด Vagelis Papalexakis และนักวิจัยคนอื่นๆ ที่ UC Riverside รวมถึงบุคลากรที่ Snapchat ไม่เพียงแต่สามารถแยกแยะข่าวปลอมจากข่าวจริงได้ แต่ยังแยกแยะความคิดเห็นที่มีอคติจากนักข่าวที่จริงจังหรือบทความเสียดสีจาก หัวหอม เป็นปริศนาข้อมูลขนาดใหญ่ที่วิศวกรฝันถึง
คำถามที่ใหญ่กว่าคือวิธีการใช้อัลกอริธึมนี้ และท้ายที่สุดแล้วมันจะสามารถช่วยปราบปรามปรากฏการณ์ข่าวปลอมได้หรือไม่
การมีส่วนร่วมของ Snap ในโครงการ (ซึ่งมีมูลค่าเป็น "ของขวัญ" มูลค่า 7,000 ดอลลาร์และการสนับสนุนเพิ่มเติมที่ไม่ใช่ทางการเงิน) ไม่ได้รับประกันว่าบริษัทจะนำเทคโนโลยีดังกล่าวไปใช้กับผลิตภัณฑ์เชิงพาณิชย์ แต่ Papalexakis กล่าวว่าเขาหวังว่าในที่สุดการวิจัยจะ “นำไปสู่การถ่ายทอดเทคโนโลยีไปยังแพลตฟอร์ม”
เขาอธิบายว่าเป้าหมายสุดท้ายคือการพัฒนาระบบที่สามารถให้คะแนนความน่าเชื่อถือของบทความใด ๆ ได้ ตามทฤษฎี คะแนนดังกล่าวสามารถใช้เพื่อกรองข่าวปลอมก่อนที่ผู้ใช้จะมีโอกาสได้เห็น
นี่เป็นแนวคิดที่ไม่แตกต่างจากตัวกรองสแปมอีเมลของแมชชีนเลิร์นนิง ซึ่งใช้ระบบการให้คะแนนตามปัจจัยต่างๆ เช่น อัตราส่วนของรูปภาพต่อข้อความในเนื้อหาของข้อความ อย่างไรก็ตาม Papalexakis แนะนำว่าแนวทางที่ดีกว่าอาจเพียงแจ้งเตือนผู้ใช้ถึงสิ่งเหล่านั้น เรื่องราวที่ได้คะแนนสูงในหมวดหมู่ปลอมที่เป็นไปได้ — “จากนั้นให้ผู้ใช้ตัดสินใจว่าจะทำอย่างไร มัน."
เหตุผลหนึ่งที่ดีคือความจริงที่ว่าข่าวไม่ได้แบ่งแยกออกเป็นสแปมและสแปมอย่างเรียบร้อยเสมอไป หมวดหมู่แฮม เช่นเดียวกับอีเมล แน่นอนว่าบางบทความอาจเป็นการแต่งขึ้นอย่างไม่เปิดเผย แต่บางบทความอาจเป็นที่น่าสงสัยมากกว่า: ไม่มีการโกหกโดยตรง แต่ถึงกระนั้นก็มีจุดมุ่งหมายที่จะนำผู้อ่านไปในทิศทางที่แน่นอน การนำบทความเหล่านี้ออก แม้ว่าเราจะพบว่าความคิดเห็นขัดแย้งกับของเราเอง แต่ก็กลับเข้าสู่ขอบเขตที่เหนียวแน่นยิ่งขึ้น
“สิ่งนี้ตกอยู่ในพื้นที่สีเทา” Papalexakis กล่าวต่อ “ไม่เป็นไรถ้าเราจัดหมวดหมู่นี้เป็นบทความที่มีอคติอย่างมากได้ มีหมวดหมู่ที่แตกต่างกันสำหรับสิ่งที่เราอาจเรียกว่าข้อมูลที่ไม่ถูกต้อง [บทความที่มีอคติอย่างมาก] อาจไม่แย่เท่ากับบทความเท็จที่ตรงไปตรงมา แต่ยังคงขายมุมมองเฉพาะให้กับผู้อ่าน มันเหมาะสมยิ่งกว่าของปลอมกับของปลอม ไม่ปลอม."
ท้ายที่สุดแล้ว แม้ว่า Papalexakis จะปรารถนาที่จะสร้างระบบที่ใช้การกำกับดูแลเพียงเล็กน้อยก็ตาม เป็นไปได้ เขายอมรับว่านี่คือความท้าทายที่จะต้องรวมทั้งมนุษย์และ เครื่องจักร
“ผมมองว่ามันเป็นเกมแมวจับหนูจากมุมมองของเทคโนโลยี” เขากล่าว “ฉันไม่คิดว่าการพูดว่า 'แก้ไขมัน' เป็นวิธีที่ถูกต้องในการมองมัน การจัดหาเครื่องมือที่ช่วยให้ผู้คนเข้าใจสิ่งต่างๆ เกี่ยวกับบทความได้เป็นส่วนหนึ่งของการแก้ปัญหา โซลูชันนี้จะเป็นเครื่องมือที่สามารถช่วยให้คุณตัดสินสิ่งต่าง ๆ ด้วยตัวคุณเอง ได้รับการศึกษาในฐานะพลเมืองที่กระตือรือร้น ทำความเข้าใจสิ่งต่าง ๆ และอ่านระหว่างบรรทัด ฉันไม่คิดว่าวิธีแก้ปัญหาทางเทคโนโลยีเพียงอย่างเดียวสามารถนำไปใช้กับปัญหานี้ได้ เพราะส่วนใหญ่ขึ้นอยู่กับผู้คนและพวกเขามองสิ่งต่าง ๆ อย่างไร”
คำแนะนำของบรรณาธิการ
- อัลกอริทึมมีประสิทธิภาพเหนือกว่ามนุษย์ในการตรวจจับข่าวปลอม