Snapchat, Stanford makine mühendisliği dersinin bir parçası olarak ilk kez tanıtıldığında, kursun dehşete düşmüş öğretim asistanı, uygulamanın yaratıcılarının bir seks mesajlaşma uygulaması geliştirip geliştirmediğini açıkça merak etti. On yıldan kısa bir süre sonra Snapchat, teknolojinin şu anda karşı karşıya olduğu en büyük sorunlardan birinin çözülmesine yardımcı olabilir: “sahte haberlerin” internette yayılması.
İçindekiler
- Sahte haber sinyali mi?
- Yıllardır süren bir kedi-fare oyunu
Bu hedefi göz önünde bulundurarak Snap Research - Snap, Inc.'in araştırma bölümü. - yakın zamanda çevrimiçi sahte haberleri tespit etmenin yeni bir yolunu bulmayı amaçlayan Kaliforniya Üniversitesi, Riverside projesine fon bağışladı. UC Riverside'ın geliştirdiği algoritma Sahte haberleri yüzde 75'e varan etkileyici bir doğruluk oranıyla tespit edebildiği bildiriliyor. Snap'in desteğiyle bunu daha da geliştirmeyi umuyorlar.
Önerilen Videolar
"Anladığım kadarıyla, bu sorunun nasıl anlaşılabileceği ve nihayetinde çözülebileceği konusunda iyi bir anlayışa sahip olmak istiyorlar."
"Snap, [bu sorun] göz önüne alındığında akla gelen ilk şirketlerden biri değil" Vagelis PapalexakisUC Riverside Bilgisayar Bilimi ve Mühendisliği Bölümünde Yardımcı Doçent olan Digital Trends'e şunları söyledi: “Yine de Snap içerikle ilgilenen bir şirket. Anladığım kadarıyla, bu sorunun nasıl anlaşılabileceği ve nihayetinde çözülebileceği konusunda iyi bir anlayışa sahip olmak istiyorlar."
UC Riverside'ın araştırmasını sahte haber döngüsünü kırmaya çalışan düzinelerce, hatta belki de yüzlerce diğer araştırma projesinden farklı kılan şey, projenin tutkusudur. Basit bir anahtar kelime engelleyici değildir ve belirli URL'lere genel bir yasak koymayı da amaçlamaz. Belki de en ilginci, hikayelerde yer alan gerçeklerle de özellikle ilgilenmiyor. Bu, onu, gerçek otomasyon yerine insan girdisine ve değerlendirmesine dayanan Snopes gibi gerçekleri kontrol eden web sitelerinden farklı kılıyor.
Papalexakis, "İnsan açıklamalarına gerçekten güvenmiyorum" dedi. "İnsanlara güvenmediğimden değil ama bu, doğası gereği kesin bir cevap bulmanın zor olduğu bir sorun haline geldi. Bunun için motivasyonumuz, yalnızca verilere bakarak ne kadar şey yapabileceğimizi ve mümkün olduğunca az insani açıklama kullanıp kullanamayacağımızı (eğer varsa) sormaktan geliyor."
Sahte haber sinyali mi?
Yeni algoritma bir haberden mümkün olduğunca çok sayıda "sinyale" bakıyor ve bunu makalenin güvenilirliğini sınıflandırmaya çalışmak için kullanıyor. Papalexakis şunları söyledi: “Yazıyı kim paylaştı? Hangi hashtag'leri kullandılar? Kim yazdı? Hangi haber kuruluşundan? Web sayfası neye benziyor? Hangi faktörlerin önemli olduğunu ve bunların ne kadar etkili olduğunu anlamaya çalışıyoruz."
Örneğin, #LockHerUp hashtag'i bir makalenin tek başına sahte haber olduğunu kesin olarak doğrulamayabilir. Ancak bir kişinin Twitter'da bir makale paylaşırken bu eki eklemesi, hikayenin belirli bir yönüne işaret edebilir. Bu ipuçlarından yeteri kadarını bir araya getirdiğinizde, ayrı parçaların bir araya gelerek açıklayıcı bir bütün oluşturması fikri ortaya çıkar. Başka bir deyişle, eğer ördek gibi yürüyor ve ördek gibi vaklıyorsa büyük ihtimalle ördektir. Veya bu durumda paytak paytak yürüyen, vakvaklayan, alternatif sağ Rus ördek botu.
Papalexakis şöyle devam etti: "İlgimiz, erken aşamada ne olduğunu anlamak ve bir şeyi ağa 'bulaşmaya' başlamadan önce erken aşamalarda nasıl işaretleyebileceğimizdir." diye devam etti. "Şimdilik ilgilendiğimiz konu bu: belirli bir makalenin içeriğinden ve bağlamından neler çıkarabileceğimizi bulmak."
Papalexakis'in grubu tarafından geliştirilen algoritma, bir haber makalesi hakkındaki çeşitli bilgi akışlarını analiz etmek için tensör ayrıştırması adı verilen bir şeyi kullanıyor. Tensörler çok boyutlu küplerdir ve birçok farklı bileşene sahip verileri modellemek ve analiz etmek için kullanışlıdır. Tensör ayrıştırması, bir tensörü belirli bir modeli veya konuyu temsil eden temel bilgi parçalarına bölerek verilerdeki kalıpları keşfetmeyi mümkün kılar.
"Açıklamalı makalelerin gülünç derecede az sayıda olması bile bizi gerçekten çok yüksek düzeyde doğruluk düzeyine ulaştırabilir"
Algoritma ilk olarak verileri olası sahte haberleri bir arada gruplayacak şekilde temsil etmek için tensör ayrıştırmasını kullanıyor. Algoritmanın ikinci katmanı daha sonra birbirine yakın olduğu düşünülen makaleleri birbirine bağlar. Bu makaleler arasındaki bağlantının haritasını çıkarmak, "bağlantılı suçluluk" adı verilen bir ilkeye dayanır. iki makale arasındaki bağlantıların, bunların birine benzer olma olasılığının daha yüksek olduğu anlamına geldiğini öne sürmek bir diğer.
Bundan sonra grafiklere makine öğrenmesi uygulanır. Bu "yarı denetimli" yaklaşım, kullanıcılar tarafından kategorize edilen az sayıda makaleyi kullanır ve ardından bu bilgiyi çok daha büyük bir veri kümesine uygular. Bu hala bir düzeyde insanları kapsasa da, potansiyel sahte haberleri sınıflandırmanın çoğu alternatif yönteminden daha az insani açıklama içerir. Araştırmacıların öne sürdüğü yüzde 75'lik doğruluk seviyesi, iki halka açık veri kümesinin ve 63.000 haber makalesinden oluşan ek bir koleksiyonun doğru şekilde filtrelenmesine dayanıyor.
Papalexakis, "Gülünç derecede az sayıda açıklamalı makale bile bizi gerçekten çok yüksek düzeyde doğruluğa götürebilir" dedi. "Dil bilimi veya insanların yanlış bilgilendirici olarak görebileceği diğer şeyler gibi bireysel özellikleri yakalamaya çalıştığımız bir sisteme sahip olmaktan çok daha yüksek."
Yıllardır süren bir kedi-fare oyunu
Bilgisayar bilimi perspektifinden bakıldığında, bu çalışmanın neden Vagelis Papalexakis ve UC Riverside'daki diğer araştırmacıların yanı sıra Snapchat'taki kişilerin de ilgisini çekeceğini anlamak kolaydır. Sahte haberleri gerçek haberlerden ayırmakla kalmayıp, aynı zamanda önyargılı köşe yazılarını ciddi gazetecilikten veya hiciv makalelerini ciddi gazetecilikten ayırt edebilmek. Soğan mühendislerin hayalini kurduğu türden büyük veri açmazıdır.
Ancak asıl soru, bu algoritmanın nasıl kullanılacağı ve sonuçta sahte haber olgusunun ortadan kaldırılmasına yardımcı olup olmayacağıdır.
Snap'in projeye katkısı (bu, 7.000 ABD doları tutarındaki "hediye" ve ek mali olmayan destek anlamına gelir), şirketin teknolojiyi ticari bir üründe benimseyeceğini garanti etmez. Ancak Papalexakis, araştırmanın sonunda "platforma bir miktar teknoloji transferine yol açacağını" umduğunu söyledi.
Nihai hedefin, herhangi bir makaleye güvenilirlik puanı sağlayacak bir sistem geliştirmek olduğunu açıkladı. Teorik olarak böyle bir puan, sahte haberleri kullanıcı tarafından fark edilmeden önce filtrelemek için kullanılabilir.
Bu, aynı zamanda mesajın gövdesindeki görselin metne oranı gibi faktörlere dayalı bir puanlama sistemi uygulayan makine öğrenimi e-posta spam filtrelerinden farklı bir fikir değildir. Ancak Papalexakis, tercih edilebilecek bir yaklaşımın kullanıcıları yalnızca bu durumlara karşı uyarmak olabileceğini öne sürdü. olası sahte kategoride yüksek puan alan hikayeler - "ve sonra kullanıcının bu hikayelerle ne yapacağına karar vermesine izin verin BT."
Bunun iyi bir nedeni, haberlerin her zaman spam ve spam olarak bu kadar düzgün bir şekilde bölünmemesidir. E-postanın yaptığı gibi jambon kategorileri. Elbette, bazı makaleler baştan sona uydurma olabilir, ancak diğerleri daha şüpheli olabilir: doğrudan yalan içermez, ancak yine de okuyucuyu belirli bir yöne yönlendirmeyi amaçlar. Kendi fikirlerimizle çatışan görüşler bulsak bile bu makaleleri kaldırmak daha zorlu bir alana giriyor.
Papalexakis, "Bu gri bir alana giriyor" diye devam etti. “Bunu son derece taraflı bir makale olarak kategorize edebilirsek sorun değil. Yanlış bilgi diyebileceğimiz şeylerin farklı kategorileri var. [Çok taraflı bir makale] doğrudan yanlış bir makale kadar kötü olmayabilir, ancak yine de okuyucuya belirli bir bakış açısı satıyor. Sahte ve sahte olmaktan daha incelikli. sahte değil."
Sonuçta Papalexakis'in olabildiğince az gözetim kullanan bir sistem bulma arzusuna rağmen mümkün olsa da bunun hem insanları hem de insanları içermesi gereken bir zorluk olduğunu kabul ediyor makineler.
"Teknolojik açıdan bunu bir kedi-fare oyunu olarak görüyorum" dedi. “‘Çözmek’ demenin doğru bir bakış açısı olduğunu düşünmüyorum. İnsanlara bir makaleyle ilgili belirli şeyleri anlamalarına yardımcı olabilecek bir araç sağlamak çözümün bir parçasıdır. Bu çözüm, olayları kendi başınıza değerlendirmenize, aktif bir vatandaş olarak eğitimli kalmanıza, olayları anlamanıza ve satır aralarını okumanıza yardımcı olabilecek araçlar olacaktır. Bu soruna yalnızca teknolojik bir çözümün uygulanabileceğini düşünmüyorum çünkü bu büyük ölçüde insanlara ve onların olayları nasıl gördüklerine bağlı."
Editörlerin Önerileri
- Algoritma sahte haberleri tespit etmede insanlardan daha iyi performans gösteriyor