Kan Snap redde internett fra falske nyheter? Her er selskapets hemmelige våpen

Vagelis PapalexakisUC Riverside

Da Snapchat først ble presentert som en del av en maskiningeniørtime i Stanford, lurte kursets forferdede lærerassistent åpent på om appens skapere hadde bygget en sexting-app. Mindre enn et tiår senere kan Snapchat bidra til å løse et av de største problemene teknologien står overfor for tiden: å stoppe spredning av "falske nyheter" på nettet.

Innhold

  • Signalet for falske nyheter?
  • Et katt-og-mus-spill for tidene

Med dette målet i tankene har Snap Research — forskningsavdelingen til Snap, Inc. – nylig donert midler til et University of California, Riverside-prosjekt, med sikte på å finne en ny måte å oppdage falske nyheter på nettet. De algoritmen UC Riverside har utviklet er angivelig i stand til å oppdage falske nyheter med et imponerende nøyaktighetsnivå på opptil 75 prosent. Med Snaps støtte håper de å forbedre dette ytterligere.

Anbefalte videoer

"Slik jeg forstår det, er de veldig interessert i å ha et godt grep om hvordan man kan forstå dette problemet - og løse det til slutt."

«Snap er ikke et av de første selskapene som kommer til å tenke på [dette problemet]» Vagelis Papalexakis, assisterende professor i informatikk- og ingeniøravdelingen ved UC Riverside, fortalte Digital Trends. – Likevel er Snap et selskap som håndterer innhold. Slik jeg forstår det, er de veldig interessert i å ha et godt grep om hvordan man kan forstå dette problemet – og løse det til slutt.»

Det som gjør UC Riversides forskning annerledes enn de dusinene, kanskje til og med hundrevis, av andre forskningsprosjekter som prøver å bryte den falske nyhetssyklusen, er prosjektets ambisjon. Det er ikke en enkel nøkkelordblokkering, og har heller ikke som mål å sette et generelt forbud mot visse nettadresser. Heller ikke, kanskje mest interessant, er den spesielt interessert i fakta som finnes i historier. Dette gjør det forskjellig fra faktasjekkende nettsteder som Snopes, som er avhengige av menneskelig input og evaluering i stedet for ekte automatisering.

"Jeg stoler egentlig ikke på menneskelige kommentarer," sa Papalexakis. "Ikke fordi jeg ikke stoler på mennesker, men fordi dette er et iboende vanskelig problem å få et definitivt svar på. Vår motivasjon for dette kommer fra å spørre hvor mye vi kan gjøre ved å se på dataene alene, og om vi kan bruke så lite menneskelig merknad som mulig - om noen i det hele tatt."

Signalet for falske nyheter?

Den nye algoritmen ser på så mange "signaler" som mulig fra en nyhetssak, og bruker dette til å prøve å klassifisere artikkelens pålitelighet. Papalexakis sa: «Hvem delte artikkelen? Hvilke hashtags brukte de? Hvem skrev det? Hvilken nyhetsorganisasjon er det fra? Hvordan ser nettsiden ut? Vi prøver å finne ut hvilke faktorer som betyr noe og hvor mye innflytelse de har.»

For eksempel kan hashtaggen #LockHerUp ikke nødvendigvis bekrefte at en artikkel er falske nyheter i seg selv. Men hvis en person legger til dette suffikset når de deler en artikkel på Twitter, kan det foreslå en viss skråstilling til historien. Legg nok av disse ledetrådene sammen, og ideen er at de separate delene utgjør en avslørende helhet. For å si det på en annen måte, hvis den går som en and og kvakker som en and, er sjansen stor for at det er en and. Eller, i dette tilfellet, en vaklende, kvalmende, alt-right russisk andebot.

falske nyheter protest
snapchat-støttealgoritme bekjempe protest mot falske nyheter getty2

"Vår interesse er å forstå hva som skjer tidlig, og hvordan vi kan flagge noe på de tidlige stadiene før det begynner å "infisere" nettverket," fortsatte Papalexakis. "Det er vår interesse for nå: å finne ut hva vi kan presse ut av innholdet og konteksten til en bestemt artikkel."

Algoritmen utviklet av Papalexakis' gruppe bruker noe som kalles tensordekomponering for å analysere de ulike informasjonsstrømmene om en nyhetsartikkel. Tensorer er flerdimensjonale kuber, nyttige for modellering og analyse av data som har mange forskjellige komponenter. Tensordekomponering gjør det mulig å oppdage mønstre i data ved å bryte en tensor i elementære deler av informasjon, som representerer et bestemt mønster eller emne.

"Selv et latterlig lite antall kommenterte artikler kan føre oss til virkelig, veldig høye nivåer av nøyaktighet"

Algoritmen bruker først tensordekomponering for å representere data på en slik måte at den grupperer mulige falske nyheter sammen. Et andre lag av algoritmen kobler deretter sammen artikler som anses å være tett sammen. Kartlegging av sammenhengen mellom disse artiklene er avhengig av et prinsipp kalt "guilt by association," antyder at sammenhenger mellom to artikler betyr at det er mer sannsynlig at de ligner én en annen.

Etter dette brukes maskinlæring på grafene. Denne "semi-overvåkede" tilnærmingen bruker et lite antall artikler som har blitt kategorisert av brukere, og bruker deretter denne kunnskapen til et mye større datasett. Selv om dette fortsatt involverer mennesker på et eller annet nivå, innebærer det mindre menneskelig merknad enn de fleste alternative metoder for å klassifisere potensielle falske nyheter. Nøyaktighetsnivået på 75 prosent angitt av forskerne er basert på korrekt filtrering av to offentlige datasett og en ekstra samling på 63 000 nyhetsartikler.

"Selv et latterlig lite antall kommenterte artikler kan føre oss til virkelig, veldig høye nivåer av nøyaktighet," sa Papalexakis. "Mye høyere enn å ha et system der vi prøvde å fange individuelle funksjoner, som lingvistikk, eller andre ting folk kan se på som feilinformative."

Et katt-og-mus-spill for tidene

Fra et datavitenskapelig perspektiv er det lett å se hvorfor dette arbeidet vil appellere til Vagelis Papalexakis og de andre forskerne ved UC Riverside - så vel som folkene på Snapchat. Å kunne ikke bare sortere falske nyheter fra ekte nyheter, men også skille partiske meninger fra seriøs journalistikk eller satiriske artikler fra Løken er den typen big data conundrum-ingeniører drømmer om.

Det større spørsmålet er imidlertid hvordan denne algoritmen vil bli brukt - og om den til slutt kan bidra til å slå ned på fenomenet falske nyheter.

Snaps bidrag til prosjektet (som utgjør en "gave" på $7 000 og ekstra ikke-økonomisk støtte) garanterer ikke at selskapet vil ta i bruk teknologien i et kommersielt produkt. Men Papalexakis sa at han håper forskningen til slutt vil "føre til en viss teknologioverføring til plattformen."

Det endelige målet, forklarte han, er å utvikle et system som er i stand til å gi enhver artikkel det som tilsvarer en troverdighetspoeng. I teorien kan en slik poengsum brukes til å filtrere ut falske nyheter før den i det hele tatt har sjansen til å bli sett av brukeren.

Dette er en ikke ulik idé til maskinlærings-e-post spamfiltre, som også bruker et poengsystem basert på faktorer som forholdet mellom bilde og tekst i brødteksten i en melding. Imidlertid antydet Papalexakis at en å foretrekke tilnærmingen kan være ganske enkelt å varsle brukere om disse historier som scorer høyt i den mulige falske kategorien — «og så la brukeren bestemme hva han skal gjøre med den."

En god grunn til dette er det faktum at nyheter ikke alltid deler seg så pent inn i spam vs. skinkekategorier, som e-post gjør. Visst, noen artikler kan være ut-og-ut-oppspinn, men andre kan være mer tvilsomme: de inneholder ingen direkte løgner, men ikke desto mindre ment å lede leseren i en bestemt retning. Fjerning av disse artiklene, selv når vi kan finne meninger som kolliderer med våre egne, kommer inn på mer klissete territorium.

"Dette faller inn i en gråsone," fortsatte Papalexakis. "Det er greit hvis vi kan kategorisere dette som en sterkt partisk artikkel. Det finnes ulike kategorier for det vi kan kalle feilinformasjon. [En sterkt partisk artikkel] er kanskje ikke så ille som en direkte falsk artikkel, men den selger fortsatt et bestemt synspunkt til leseren. Det er mer nyansert enn falsk vs. ikke falsk."

Til slutt, til tross for Papalexakis’ ønske om å komme opp med et system som bruker så lite tilsyn som mulig, erkjenner han at dette er en utfordring som vil måtte inkludere både mennesker og maskiner.

"Jeg ser det som et katt-og-mus-spill fra et teknologisk synspunkt," sa han. «Jeg tror ikke at det å si «løsning av det» er den rette måten å se det på. Å gi folk et verktøy som kan hjelpe dem å forstå bestemte ting om en artikkel er en del av løsningen. Denne løsningen vil være verktøy som kan hjelpe deg å bedømme ting selv, holde deg utdannet som en aktiv borger, forstå ting og lese mellom linjene. Jeg tror ikke at en utelukkende teknologisk løsning kan brukes på dette problemet fordi så mye av det avhenger av folk og hvordan de ser ting."

Redaktørenes anbefalinger

  • Algoritmen overgår mennesker når det gjelder å oppdage falske nyheter