Czy Snap może uratować Internet przed fałszywymi wiadomościami? Oto tajna broń firmy

Vagelisa PapalexakisaRiverside Uniwersytetu Kalifornijskiego

Kiedy po raz pierwszy Snapchat został zaprezentowany w ramach zajęć z inżynierii mechanicznej na Uniwersytecie Stanforda, przerażony asystent nauczyciela otwarcie zastanawiał się, czy twórcy aplikacji nie stworzyli aplikacji do seksu. Niecałą dekadę później Snapchat może pomóc rozwiązać jeden z największych problemów, przed którymi stoi obecnie technologia: zatrzymanie rozpowszechnianie „fałszywych wiadomości” w Internecie.

Zawartość

  • Sygnał dla fałszywych wiadomości?
  • Gra w kotka i myszkę od lat

Mając to na uwadze, Snap Research — dział badawczy firmy Snap, Inc. — niedawno przekazał fundusze na projekt Uniwersytetu Kalifornijskiego w Riverside, którego celem jest znalezienie nowego sposobu wykrywania fałszywych wiadomości w Internecie. The algorytm opracowany przez UC Riverside podobno potrafi wykrywać fałszywe wiadomości z imponującą dokładnością sięgającą 75%. Dzięki wsparciu Snapa mają nadzieję na dalszą poprawę tego rozwiązania.

Polecane filmy

„Jak rozumiem, są oni bardzo zainteresowani dobrym zrozumieniem, w jaki sposób można zrozumieć ten problem i ostatecznie go rozwiązać”.

„Snap nie jest jedną z pierwszych firm, które przychodzą na myśl, biorąc pod uwagę [ten problem]” Vagelisa Papalexakisa, adiunkt na Wydziale Informatyki i Inżynierii na Uniwersytecie Kalifornijskim w Riverside, powiedział Digital Trends. „Niemniej Snap to firma, która zajmuje się treścią. Jak rozumiem, bardzo zależy im na dobrym zrozumieniu tego, jak można zrozumieć ten problem i ostatecznie go rozwiązać”.

Tym, co odróżnia badania Uniwersytetu Kalifornijskiego w Riverside od dziesiątek, a może nawet setek innych projektów badawczych próbujących przełamać cykl fałszywych wiadomości, jest ambicja projektu. Nie jest to zwykła blokada słów kluczowych ani nie ma na celu całkowitego zakazu niektórych adresów URL. Nie interesuje go też, co może najciekawsze, fakty zawarte w opowieściach. To odróżnia ją od witryn weryfikujących fakty, takich jak Snopes, które opierają się na wkładzie i ocenie człowieka, a nie na prawdziwej automatyzacji.

„Nie bardzo ufam ludzkim adnotacjom” – powiedział Papalexakis. „Nie dlatego, że nie ufam ludziom, ale z natury rzeczy jest to problem, na który trudno znaleźć ostateczną odpowiedź. Naszą motywacją jest pytanie, jak wiele możemy zrobić, patrząc na same dane i czy możemy używać jak najmniej ludzkich adnotacji – jeśli w ogóle w ogóle”.

Sygnał dla fałszywych wiadomości?

Nowy algorytm analizuje jak najwięcej „sygnałów” z wiadomości i wykorzystuje je do klasyfikacji wiarygodności artykułu. Papalexakis powiedział: „Kto udostępnił artykuł? Jakich hashtagów używali? Kto to napisał? Z jakiej organizacji informacyjnej to pochodzi? Jak wygląda strona internetowa? Próbujemy dowiedzieć się, które czynniki [mają znaczenie] i jaki mają wpływ.

Na przykład hashtag #LockHerUp niekoniecznie musi potwierdzać, że artykuł sam w sobie jest fałszywym newsem. Jeśli jednak ktoś doda ten przyrostek, udostępniając artykuł na Twitterze, może to sugerować pewne podejście do historii. Dodaj wystarczającą liczbę tych wskazówek, a pomysł jest taki, że oddzielne elementy utworzą odkrywczą całość. Inaczej mówiąc, jeśli chodzi jak kaczka i kwacze jak kaczka, jest duże prawdopodobieństwo, że to kaczka. Albo, w tym przypadku, kaczkowaty, kwakający, prawicowy rosyjski bot-kaczka.

protest przeciwko fałszywym wiadomościom
Snapchat wspierający algorytm walki z fałszywymi wiadomościami protestuje getty2

„Naszym interesem jest zrozumienie, co dzieje się na wczesnym etapie i jak możemy oznaczyć coś na wczesnym etapie, zanim zacznie „infekować” sieć” – kontynuował Papalexakis. „Na razie to nas interesuje: sprawdzenie, co możemy wycisnąć z treści i kontekstu konkretnego artykułu”.

Algorytm opracowany przez grupę Papalexakisa wykorzystuje tak zwaną dekompozycję tensorową do analizy różnych strumieni informacji o artykule prasowym. Tensory to wielowymiarowe kostki, przydatne do modelowania i analizowania danych, które mają wiele różnych komponentów. Rozkład tensora umożliwia odkrywanie wzorców w danych poprzez rozbicie tensora na elementarne fragmenty informacji, reprezentujące określony wzorzec lub temat.

„Nawet śmiesznie mała liczba artykułów z adnotacjami może zapewnić nam naprawdę wysoki poziom dokładności”

Algorytm najpierw wykorzystuje dekompozycję tensorową do reprezentowania danych w taki sposób, że grupuje możliwe fałszywe wiadomości. Następnie drugi poziom algorytmu łączy artykuły uważane za znajdujące się blisko siebie. Mapowanie powiązań między tymi artykułami opiera się na zasadzie zwanej „winą przez skojarzenie”, sugerując, że powiązania między dwoma artykułami oznaczają, że są one bardziej podobne do jednego inny.

Następnie do wykresów stosowane jest uczenie maszynowe. To podejście „częściowo nadzorowane” wykorzystuje niewielką liczbę artykułów, które zostały skategoryzowane przez użytkowników, a następnie stosuje tę wiedzę do znacznie większego zbioru danych. Chociaż w pewnym stopniu nadal dotyczy to ludzi, wymaga mniej ludzkich adnotacji niż większość alternatywnych metod klasyfikowania potencjalnych fałszywych wiadomości. Reklamowany przez badaczy poziom dokładności wynoszący 75% opiera się na prawidłowym filtrowaniu dwóch publicznych zbiorów danych i dodatkowym zbiorze 63 000 artykułów prasowych.

„Nawet absurdalnie mała liczba artykułów z adnotacjami może zapewnić nam naprawdę wysoki poziom dokładności” – powiedział Papalexakis. „Znacznie lepsze niż posiadanie systemu, w którym próbowaliśmy uchwycić indywidualne cechy, takie jak lingwistyka lub inne rzeczy, które ludzie mogą postrzegać jako dezinformujące”.

Gra w kotka i myszkę od lat

Z perspektywy informatyki łatwo zrozumieć, dlaczego ta praca spodobałaby się Vagelisowi Papalexakisowi i innym badaczom z UC Riverside, a także pracownikom Snapchata. Umiejętność nie tylko odróżnienia fałszywych wiadomości od prawdziwych wiadomości, ale także odróżnienia stronniczych komentarzy od poważnego dziennikarstwa lub artykułów satyrycznych od Cebula to rodzaj zagadki, o której marzą inżynierowie zajmujący się dużymi zbiorami danych.

Większe pytanie dotyczy jednak tego, w jaki sposób ten algorytm będzie wykorzystywany i czy może ostatecznie pomóc w rozprawieniu się ze zjawiskiem fałszywych wiadomości.

Wkład Snapa w projekt (który wynosi „prezent” w wysokości 7 000 dolarów i dodatkowe wsparcie pozafinansowe) nie gwarantuje, że firma zastosuje technologię w produkcie komercyjnym. Papalexakis wyraził jednak nadzieję, że badania ostatecznie „doprowadzą do transferu technologii na platformę”.

Ostatecznym celem, wyjaśnił, jest opracowanie systemu, który będzie w stanie zapewnić każdemu artykułowi ocenę wiarygodności. Teoretycznie taki wynik mógłby zostać wykorzystany do odfiltrowania fałszywych wiadomości, zanim w ogóle zdążą dojrzeć je użytkownik.

Nie różni się to od filtrów spamu e-mail opartych na uczeniu maszynowym, które również stosują system punktacji oparty na takich czynnikach, jak stosunek obrazu do tekstu w treści wiadomości. Jednak Papalexakis zasugerował, że preferowanym podejściem może być po prostu ostrzeganie użytkowników o takich zagrożeniach historie, które uzyskały wysokie wyniki w kategorii możliwych fałszywych informacji — „a następnie pozwól użytkownikowi zdecydować, z czym ma się zmierzyć To."

Jednym z dobrych powodów jest fakt, że wiadomości nie zawsze dzielą się tak wyraźnie na spam i wiadomości. kategorii szynki, podobnie jak e-mail. Jasne, niektóre artykuły mogą być całkowicie sfabrykowane, ale inne mogą budzić większe wątpliwości: nie zawierają bezpośrednich kłamstw, ale mimo to mają na celu poprowadzić czytelnika w określonym kierunku. Usunięcie tych artykułów, nawet jeśli opinie mogą być sprzeczne z naszymi, staje się trudniejszym obszarem.

„To należy do szarej strefy” – kontynuował Papalexakis. „Nie ma nic złego w tym, że możemy zaklasyfikować ten artykuł jako mocno stronniczy. Istnieją różne kategorie tego, co możemy nazwać dezinformacją. [Wysoce stronniczy artykuł] może nie jest tak zły, jak zwykły fałszywy artykuł, ale nadal przekazuje czytelnikowi określony punkt widzenia. Jest bardziej zniuansowany niż podróbka vs. autentyczne."

Ostatecznie, pomimo chęci Papalexakisa, aby opracować system, który wymagałby tak niewielkiego nadzoru, jak to możliwe, przyznaje, że jest to wyzwanie, które będzie musiało obejmować zarówno ludzi, jak i maszyny.

„Z technologicznego punktu widzenia postrzegam to jako zabawę w kotka i myszkę” – powiedział. „Nie sądzę, że stwierdzenie „rozwiązanie problemu” jest właściwym sposobem spojrzenia na ten problem. Częścią rozwiązania jest zapewnienie użytkownikom narzędzia, które może pomóc im zrozumieć określone elementy artykułu. Rozwiązaniem byłyby narzędzia, które pomogą Ci samodzielnie ocenić sytuację, zdobywać wiedzę jako aktywny obywatel, rozumieć rzeczy i czytać między wierszami. Nie sądzę, że można zastosować wyłącznie technologiczne rozwiązanie tego problemu, ponieważ wiele zależy od ludzi i ich sposobu postrzegania rzeczy”.

Zalecenia redaktorów

  • Algorytm przewyższa ludzi w wykrywaniu fałszywych wiadomości