Kunne Snap redde internettet fra falske nyheder? Her er virksomhedens hemmelige våben

Vagelis PapalexakisUC Riverside

Da Snapchat første gang blev lanceret som en del af en Stanford-mekanikklasse, spekulerede kursets forfærdede lærerassistent åbenlyst på, om appens skabere havde bygget en sexting-app. Mindre end et årti senere kunne Snapchat hjælpe med at løse et af de største problemer, som teknologien i øjeblikket står over for: at stoppe spredning af "falske nyheder" på nettet.

Indhold

  • Signalet for falske nyheder?
  • Et kat-og-mus-spil for tiderne

Med dette mål for øje har Snap Research — forskningsafdelingen af ​​Snap, Inc. — for nylig doneret finansiering til et University of California, Riverside-projekt, med det formål at finde en ny måde at opdage falske nyheder online. Det algoritmen UC Riverside har udviklet er angiveligt i stand til at opdage falske nyhedshistorier med et imponerende nøjagtighedsniveau på op til 75 procent. Med Snaps støtte håber de at forbedre dette yderligere.

Anbefalede videoer

"Som jeg forstår det, er de meget interesserede i at have et godt greb om, hvordan man kunne forstå dette problem - og løse det i sidste ende."

"Snap er ikke en af ​​de første virksomheder, der ville komme til at tænke på i betragtning af [dette problem]," Vagelis Papalexakis, adjunkt i Computer Science & Engineering Department ved UC Riverside, fortalte Digital Trends. “Alligevel er Snap en virksomhed, der håndterer indhold. Som jeg forstår det, er de meget interesserede i at have et godt greb om, hvordan man kunne forstå dette problem - og løse det i sidste ende."

Det, der gør UC Riversides forskning anderledes end de snesevis, måske endda hundredvis, af andre forskningsprojekter, der forsøger at bryde den falske nyhedscyklus, er projektets ambition. Det er ikke en simpel søgeordsblokering, og det har heller ikke til formål at sætte et generelt forbud mod visse URL'er. Og måske mest interessant er den heller ikke særlig interesseret i de fakta, der er indeholdt i historier. Dette adskiller det fra faktatjek-websteder som Snopes, der er afhængige af menneskelig input og evaluering i stedet for ægte automatisering.

"Jeg stoler ikke rigtig på menneskelige kommentarer," sagde Papalexakis. "Ikke fordi jeg ikke stoler på mennesker, men det er i sagens natur et svært problem at få et endegyldigt svar på. Vores motivation for dette kommer fra at spørge, hvor meget vi kan gøre ved at se på dataene alene, og om vi kan bruge så lidt menneskelig annotering som muligt - hvis nogen overhovedet."

Signalet for falske nyheder?

Den nye algoritme ser på så mange "signaler" som muligt fra en nyhedshistorie og bruger dette til at forsøge at klassificere artiklens troværdighed. Papalexakis sagde: "Hvem delte artiklen? Hvilke hashtags brugte de? Hvem har skrevet det? Hvilken nyhedsorganisation er det fra? Hvordan ser websiden ud? Vi forsøger at finde ud af, hvilke faktorer der har betydning, og hvor meget indflydelse de har."

For eksempel kan hashtagget #LockHerUp ikke nødvendigvis bekræfte, at en artikel i sig selv er falske nyheder. Men hvis en person tilføjer dette suffiks, når de deler en artikel på Twitter, kan det antyde en vis hældning til historien. Tilføj nok af disse spor sammen, og ideen er, at de separate stykker lægger op til en afslørende helhed. For at sige det på en anden måde, hvis den går som en and og kvaksalver som en and, er chancerne for, at det er en and. Eller, i dette tilfælde, en vaklende, kvakkende, alt-right russisk andebot.

protest mod falske nyheder
snapchat-understøttende algoritme bekæmp falske nyhedsprotester getty2

"Vores interesse er at forstå, hvad der sker tidligt, og hvordan vi kan markere noget på de tidlige stadier, før det begynder at 'inficere' netværket," fortsatte Papalexakis. "Det er vores interesse for nu: at finde ud af, hvad vi kan presse ud af indholdet og konteksten af ​​en bestemt artikel."

Algoritmen udviklet af Papalexakis' gruppe bruger noget, der kaldes tensor-nedbrydning til at analysere de forskellige strømme af information om en nyhedsartikel. Tensorer er multidimensionelle terninger, nyttige til modellering og analyse af data, som har mange forskellige komponenter. Tensor-nedbrydning gør det muligt at opdage mønstre i data ved at opdele en tensor i elementære stykker information, der repræsenterer et bestemt mønster eller emne.

"Selv et latterligt lille antal kommenterede artikler kan føre os til virkelig, virkelig høje niveauer af nøjagtighed"

Algoritmen bruger først tensor-dekomponering til at repræsentere data på en sådan måde, at den grupperer mulige falske nyhedshistorier sammen. Et andet niveau af algoritmen forbinder derefter artikler, som anses for at ligge tæt på hinanden. Kortlægning af sammenhængen mellem disse artikler bygger på et princip kaldet "guilt by association", tyder på, at forbindelser mellem to artikler betyder, at de er mere tilbøjelige til at ligne én en anden.

Herefter anvendes maskinlæring på graferne. Denne "semi-superviserede" tilgang bruger et lille antal artikler, som er blevet kategoriseret af brugere, og anvender derefter denne viden til et meget større datasæt. Selvom dette stadig involverer mennesker på et eller andet niveau, involverer det mindre menneskelig annotering end de fleste alternative metoder til at klassificere potentielle falske nyheder. Det nøjagtighedsniveau på 75 procent, som forskerne udråber, er baseret på korrekt filtrering af to offentlige datasæt og en yderligere samling på 63.000 nyhedsartikler.

"Selv et latterligt lille antal kommenterede artikler kan føre os til virkelig, virkelig høje niveauer af nøjagtighed," sagde Papalexakis. "Meget højere end at have et system, hvor vi forsøgte at fange individuelle funktioner, såsom lingvistik eller andre ting, folk kan se som misinformative."

Et kat-og-mus-spil for tiderne

Fra et datalogisk perspektiv er det let at se, hvorfor dette arbejde ville appellere til Vagelis Papalexakis og de andre forskere ved UC Riverside - såvel som folkene på Snapchat. At være i stand til ikke kun at sortere falske nyheder fra rigtige nyheder, men også skelne forudindtaget op-eds fra seriøs journalistik eller satiriske artikler fra Løget er den slags big data conundrum-ingeniører drømmer om.

Det større spørgsmål er dog, hvordan denne algoritme vil blive brugt - og om den i sidste ende kan hjælpe med at slå ned på fænomenet falske nyheder.

Snaps bidrag til projektet (som beløber sig til en "gave" på $7.000 og yderligere ikke-finansiel støtte) garanterer ikke, at virksomheden vil adoptere teknologien i et kommercielt produkt. Men Papalexakis sagde, at han håber, at forskningen i sidste ende vil "føre til en vis teknologioverførsel til platformen."

Det endelige mål, forklarede han, er at udvikle et system, der er i stand til at give enhver artikel, hvad der svarer til en troværdighedsscore. I teorien kunne en sådan score bruges til at bortfiltrere falske nyheder, før den overhovedet har chancen for at få et glimt af brugeren.

Dette er en ikke ulig idé til maskinlæring e-mail-spamfiltre, som også anvender et scoringssystem baseret på faktorer som forholdet mellem billede og tekst i brødteksten af ​​en meddelelse. Papalexakis foreslog imidlertid, at en foretrukken tilgang blot kunne være at advare brugerne om dem historier, der scorer højt i den mulige falske kategori — "og så lad brugeren bestemme, hvad han skal gøre med det."

En god grund til dette er det faktum, at nyheder ikke altid deler sig så pænt i spam vs. skinkekategorier, som e-mail gør. Nok kan nogle artikler være ud-og-ud-fabrikation, men andre kan være mere tvivlsomme: De indeholder ingen direkte løgne, men har ikke desto mindre til formål at lede læseren i én bestemt retning. Fjernelse af disse artikler, selv når vi kan finde meninger, der kolliderer med vores egne, kommer ind på mere klæbrigt territorium.

"Dette falder ind i en gråzone," fortsatte Papalexakis. »Det er fint, hvis vi kan kategorisere det her som en stærkt forudindtaget artikel. Der er forskellige kategorier for, hvad vi kan kalde misinformation. [En stærkt forudindtaget artikel] er måske ikke så slem som en direkte falsk artikel, men den sælger stadig et bestemt synspunkt til læseren. Det er mere nuanceret end falsk vs. ikke falsk."

I sidste ende, på trods af Papalexakis' ønske om at komme med et system, der bruger så lidt tilsyn som muligt, erkender han, at dette er en udfordring, som skal omfatte både mennesker og maskiner.

"Jeg ser det som et kat-og-mus-spil fra et teknologisk synspunkt," sagde han. "Jeg tror ikke, at det at sige 'at løse det' er den rigtige måde at se det på. At give folk et værktøj, der kan hjælpe dem med at forstå bestemte ting om en artikel, er en del af løsningen. Denne løsning ville være værktøjer, der kan hjælpe dig med at bedømme tingene selv, forblive uddannet som aktiv borger, forstå ting og læse mellem linjerne. Jeg tror ikke, at en udelukkende teknologisk løsning kan anvendes på dette problem, fordi så meget af det afhænger af mennesker, og hvordan de ser tingene."

Redaktørens anbefalinger

  • Algoritmen overgår mennesker til at spotte falske nyheder