När Snapchat först presenterades som en del av en maskinteknikkurs i Stanford undrade kursens förskräckta lärarassistent öppet om appens skapare hade byggt en sexting-app. Mindre än ett decennium senare kan Snapchat hjälpa till att lösa ett av de största problemen som tekniken för närvarande står inför: att stoppa spridning av "falska nyheter" på nätet.
Innehåll
- Signalen för falska nyheter?
- Ett katt-och-råtta-spel för åldrarna
Med detta mål i åtanke har Snap Research — forskningsavdelningen för Snap, Inc. — Donerade nyligen finansiering till ett University of California, Riverside-projekt, som syftar till att hitta ett nytt sätt att upptäcka falska nyheter online. De algoritmen UC Riverside har utvecklat är enligt uppgift kapabel att upptäcka falska nyheter med en imponerande noggrannhetsnivå på upp till 75 procent. Med Snaps stöd hoppas de kunna förbättra detta ytterligare.
Rekommenderade videor
"Som jag förstår det är de väldigt intresserade av att ha ett bra grepp om hur man kan förstå det här problemet - och lösa det i slutändan."
"Snap är inte ett av de första företagen som kommer att tänka på med tanke på [det här problemet]" Vagelis Papalexakis, biträdande professor vid avdelningen för datavetenskap och teknik vid UC Riverside, berättade för Digital Trends. ”Ändå är Snap ett företag som hanterar innehåll. Som jag förstår det är de väldigt intresserade av att ha ett bra grepp om hur man kan förstå det här problemet – och lösa det till slut.”
Det som gör UC Riversides forskning annorlunda än de dussintals, kanske till och med hundratals, andra forskningsprojekt som försöker bryta falska nyhetscykeln är projektets ambition. Det är inte en enkel nyckelordsblockerare och syftar inte heller till att sätta ett generellt förbud mot vissa webbadresser. Inte heller, kanske mest intressant, är den särskilt intresserad av fakta som finns i berättelser. Detta skiljer sig från faktakontrollwebbplatser som Snopes, som förlitar sig på mänsklig input och utvärdering istället för sann automatisering.
"Jag litar inte riktigt på mänskliga kommentarer," sa Papalexakis. "Inte för att jag inte litar på människor, men det här är ett i sig svårt problem att få ett definitivt svar på. Vår motivation för detta kommer från att fråga hur mycket vi kan göra genom att bara titta på data, och om vi kan använda så lite mänskliga kommentarer som möjligt - om någon alls."
Signalen för falska nyheter?
Den nya algoritmen tittar på så många "signaler" som möjligt från en nyhet, och använder detta för att försöka klassificera artikelns trovärdighet. Papalexakis sa: "Vem delade artikeln? Vilka hashtags använde de? Vem skrev det? Vilken nyhetsorganisation kommer det från? Hur ser webbsidan ut? Vi försöker ta reda på vilka faktorer som spelar roll och hur mycket inflytande de har."
Till exempel kan hashtaggen #LockHerUp inte nödvändigtvis bekräfta att en artikel i sig är falska nyheter. Men om en person lägger till det här suffixet när de delar en artikel på Twitter, kan det antyda en viss inriktning på berättelsen. Lägg ihop tillräckligt många av dessa ledtrådar, och tanken är att de separata bitarna blir en avslöjande helhet. För att uttrycka det på ett annat sätt, om den går som en anka och kvackar som en anka, är chansen stor att det är en anka. Eller, i det här fallet, en vaglande, kvackande, alt-right rysk ankabot.
"Vårt intresse är att förstå vad som händer tidigt och hur vi kan flagga något i ett tidigt skede innan det börjar "infektera" nätverket," fortsatte Papalexakis. "Det är vårt intresse för tillfället: att ta reda på vad vi kan pressa ut ur innehållet och sammanhanget för en viss artikel."
Algoritmen som utvecklats av Papalexakis grupp använder något som kallas tensornedbrytning för att analysera de olika informationsströmmarna om en nyhetsartikel. Tensorer är flerdimensionella kuber, användbara för att modellera och analysera data som har många olika komponenter. Tensorupplösning gör det möjligt att upptäcka mönster i data genom att dela upp en tensor i elementära delar av information, som representerar ett visst mönster eller ämne.
"Även ett löjligt litet antal kommenterade artiklar kan leda oss till riktigt, riktigt höga nivåer av noggrannhet"
Algoritmen använder först tensorupplösning för att representera data på ett sådant sätt att den grupperar möjliga falska nyheter. En andra nivå av algoritmen kopplar sedan samman artiklar som anses ligga nära varandra. Kartläggning av sambandet mellan dessa artiklar bygger på en princip som kallas "guilt by association", antyder att kopplingar mellan två artiklar betyder att de är mer benägna att likna en annan.
Efter detta tillämpas maskininlärning på graferna. Detta "semi-övervakade" tillvägagångssätt använder ett litet antal artiklar som har kategoriserats av användare, och tillämpar sedan denna kunskap på en mycket större datamängd. Även om detta fortfarande involverar människor på någon nivå, innebär det mindre mänskliga kommentarer än de flesta alternativa metoder för att klassificera potentiella falska nyheter. Den 75-procentiga noggrannhetsnivån som forskarna bjuder på är baserad på korrekt filtrering av två offentliga datauppsättningar och en extra samling av 63 000 nyhetsartiklar.
"Även ett löjligt litet antal kommenterade artiklar kan leda oss till riktigt, riktigt höga nivåer av noggrannhet," sa Papalexakis. "Mycket högre än att ha ett system där vi försökte fånga individuella funktioner, som lingvistik eller andra saker som människor kan se som felaktiga."
Ett katt-och-råtta-spel för åldrarna
Ur ett datavetenskapligt perspektiv är det lätt att se varför detta arbete skulle tilltala Vagelis Papalexakis och de andra forskarna vid UC Riverside - såväl som folket på Snapchat. Att inte bara kunna sortera falska nyheter från riktiga nyheter, utan också skilja partiska op-eds från seriös journalistik eller satiriska artiklar från Löken är den typ av big data conundrum-ingenjörer drömmer om.
Den större frågan är dock hur denna algoritm kommer att användas – och om den i slutändan kan hjälpa till att slå ner på fenomenet falska nyheter.
Snaps bidrag till projektet (som uppgår till en "gåva" på 7 000 USD och ytterligare icke-finansiellt stöd) garanterar inte att företaget kommer att använda tekniken i en kommersiell produkt. Men Papalexakis sa att han hoppas att forskningen så småningom kommer att "leda till viss teknisk överföring till plattformen."
Det slutliga målet, förklarade han, är att utveckla ett system som kan förse alla artiklar med vad som motsvarar en trovärdighetspoäng. I teorin skulle en sådan poäng kunna användas för att filtrera bort falska nyheter innan den ens har chansen att bli skymt av användaren.
Detta är en idé som inte liknar maskininlärning av skräppostfilter för e-post, som också tillämpar ett poängsystem baserat på faktorer som förhållandet mellan bild och text i meddelandetexten. Men Papalexakis föreslog att ett föredraget tillvägagångssätt helt enkelt kan vara att varna användarna om dessa berättelser som får höga poäng i den möjliga falska kategorin — "och sedan låter användaren bestämma vad den ska göra med Det."
En bra anledning till detta är det faktum att nyheter inte alltid delar sig så snyggt i spam vs. skinkakategorier, som e-post gör. Visst, vissa artiklar kan vara påhittade, men andra kan vara mer tveksamma: de innehåller inga direkta lögner, men ändå avsedda att leda läsaren i en viss riktning. Att ta bort dessa artiklar, även när vi kan hitta åsikter som krockar med våra egna, hamnar på mer klistrigt territorium.
"Detta faller i en gråzon", fortsatte Papalexakis. "Det är bra om vi kan kategorisera det här som en starkt partisk artikel. Det finns olika kategorier för vad vi kan kalla desinformation. [En starkt partisk artikel] kanske inte är lika illa som en direkt falsk artikel, men den säljer fortfarande en viss synpunkt till läsaren. Det är mer nyanserat än falskt vs. inte falsk."
I slutändan, trots Papalexakis önskan att komma med ett system som använder så lite tillsyn som möjligt, han erkänner att detta är en utmaning som måste omfatta både människor och maskiner.
"Jag ser det som ett katt-och-råtta-spel ur en teknisk synvinkel," sa han. "Jag tror inte att det är rätt sätt att se på det att säga att "lösa det". Att förse människor med ett verktyg som kan hjälpa dem att förstå vissa saker om en artikel är en del av lösningen. Denna lösning skulle vara verktyg som kan hjälpa dig att bedöma saker själv, hålla dig utbildad som en aktiv medborgare, förstå saker och läsa mellan raderna. Jag tror inte att en enbart teknisk lösning kan tillämpas på det här problemet eftersom så mycket av det beror på människor och hur de ser saker."
Redaktörens rekommendationer
- Algoritmen överträffar människor när det gäller att upptäcka falska nyheter