Toen Snapchat voor het eerst werd gepitcht als onderdeel van een les werktuigbouwkunde aan Stanford, vroeg de geschokte onderwijsassistent van de cursus zich openlijk af of de makers van de app een sexting-app hadden gebouwd. Minder dan tien jaar later zou Snapchat kunnen helpen bij het oplossen van een van de grootste problemen waarmee technologie momenteel wordt geconfronteerd: het stoppen van de verspreiding van “nepnieuws” online.
Inhoud
- Het signaal voor nepnieuws?
- Een kat-en-muisspel voor alle leeftijden
Met dit doel voor ogen heeft Snap Research, de onderzoeksafdeling van Snap, Inc. – heeft onlangs geld gedoneerd aan een project van de Universiteit van Californië, Riverside, met als doel een nieuwe manier te vinden om nepnieuwsverhalen online te detecteren. De algoritme dat UC Riverside heeft ontwikkeld is naar verluidt in staat nepnieuwsverhalen te detecteren met een indrukwekkend nauwkeurigheidsniveau tot 75 procent. Met de steun van Snap hopen ze dit verder te verbeteren.
Aanbevolen video's
“Zoals ik het begrijp, zijn ze erg geïnteresseerd in een goed begrip van hoe je dit probleem kunt begrijpen – en het uiteindelijk kunt oplossen.”
“Snap is niet een van de eerste bedrijven waar je aan zou denken gezien [dit probleem],” Vagelis Papalexakis, assistent-professor bij de afdeling Computer Science & Engineering van UC Riverside, aan Digital Trends. “Toch is Snap een bedrijf dat content verzorgt. Zoals ik het begrijp, zijn ze erg geïnteresseerd in een goed begrip van hoe je dit probleem kunt begrijpen – en het uiteindelijk kunt oplossen.”
Wat het onderzoek van UC Riverside anders maakt dan de tientallen, misschien zelfs honderden andere onderzoeksprojecten die de nepnieuwscyclus proberen te doorbreken, is de ambitie van het project. Het is geen eenvoudige trefwoordblokkering en het is ook niet bedoeld om bepaalde URL's volledig te verbieden. Het is misschien wel het meest interessante dat zij niet bijzonder geïnteresseerd is in de feiten die in verhalen vervat zijn. Dit onderscheidt het van websites voor het controleren van feiten, zoals Snopes, die afhankelijk zijn van menselijke input en evaluatie in plaats van echte automatisering.
“Ik vertrouw menselijke annotaties niet echt”, zei Papalexakis. “Niet omdat ik mensen niet vertrouw, maar omdat dit een inherent moeilijk probleem is om een definitief antwoord op te krijgen. Onze motivatie hiervoor komt voort uit de vraag hoeveel we kunnen doen door alleen naar de gegevens te kijken, en of we zo min mogelijk menselijke annotaties kunnen gebruiken – of die überhaupt al hebben.”
Het signaal voor nepnieuws?
Het nieuwe algoritme kijkt naar zoveel mogelijk ‘signalen’ uit een nieuwsbericht en gebruikt dit om de betrouwbaarheid van het artikel te classificeren. Papalexakis zei: “Wie heeft het artikel gedeeld? Welke hashtags gebruikten ze? Wie schreef het? Van welke nieuwsorganisatie is dit? Hoe ziet de webpagina eruit? We proberen erachter te komen welke factoren er toe doen en hoeveel invloed ze hebben.’
De hashtag #LockHerUp bevestigt bijvoorbeeld niet noodzakelijkerwijs dat een artikel op zichzelf nepnieuws is. Als iemand dit achtervoegsel echter toevoegt wanneer hij een artikel op Twitter deelt, kan dit een bepaalde inslag in het verhaal suggereren. Voeg genoeg van deze aanwijzingen bij elkaar en het idee is dat de afzonderlijke stukjes samen een onthullend geheel vormen. Anders gezegd: als het loopt als een eend en kwaakt als een eend, is de kans groot dat het een eend is. Of, in dit geval, een waggelende, kwakende, alt-right Russische eendbot.
“Ons belang is om te begrijpen wat er in een vroeg stadium gebeurt, en hoe we iets in een vroeg stadium kunnen signaleren voordat het het netwerk begint te ‘infecteren’”, vervolgde Papalexakis. “Dat is voor nu ons belang: uitzoeken wat we uit de inhoud en de context van een bepaald artikel kunnen halen.”
Het door de groep van Papalexakis ontwikkelde algoritme maakt gebruik van zogenaamde tensor-decompositie om de verschillende informatiestromen over een nieuwsartikel te analyseren. Tensoren zijn multidimensionale kubussen, handig voor het modelleren en analyseren van gegevens die uit veel verschillende componenten bestaan. Tensor-decompositie maakt het mogelijk om patronen in gegevens te ontdekken door een tensor op te splitsen in elementaire stukjes informatie die een bepaald patroon of onderwerp vertegenwoordigen.
“Zelfs een belachelijk klein aantal geannoteerde artikelen kan ons tot een heel, heel hoog nauwkeurigheidsniveau leiden”
Het algoritme maakt eerst gebruik van tensor-decompositie om gegevens zo weer te geven dat mogelijke nepnieuwsverhalen worden gegroepeerd. Een tweede laag van het algoritme verbindt vervolgens artikelen die als dicht bij elkaar worden beschouwd. Het in kaart brengen van het verband tussen deze artikelen is gebaseerd op een principe dat ‘schuld door associatie’ wordt genoemd. wat suggereert dat verbindingen tussen twee artikelen betekenen dat de kans groter is dat ze op één artikel lijken een andere.
Hierna wordt machine learning toegepast op de grafieken. Deze “semi-gecontroleerde” aanpak maakt gebruik van een klein aantal artikelen die door gebruikers zijn gecategoriseerd, en past deze kennis vervolgens toe op een veel grotere dataset. Hoewel hier op een bepaald niveau nog steeds mensen bij betrokken zijn, gaat het om minder menselijke annotaties dan bij de meeste alternatieve methoden om potentieel nepnieuws te classificeren. Het door de onderzoekers aangeprezen nauwkeurigheidsniveau van 75 procent is gebaseerd op het correct filteren van twee openbare datasets en een extra verzameling van 63.000 nieuwsartikelen.
“Zelfs een belachelijk klein aantal geannoteerde artikelen kan ons tot een heel, heel hoog nauwkeurigheidsniveau leiden”, zegt Papalexakis. “Veel hoger dan het hebben van een systeem waarin we individuele kenmerken probeerden vast te leggen, zoals taalkunde, of andere dingen die mensen als desinformatief kunnen beschouwen.”
Een kat-en-muisspel voor alle leeftijden
Vanuit een computerwetenschappelijk perspectief is het gemakkelijk in te zien waarom dit werk Vagelis Papalexakis en de andere onderzoekers van UC Riverside zou aanspreken, evenals de mensen van Snapchat. Niet alleen nepnieuws van echt nieuws kunnen onderscheiden, maar ook bevooroordeelde opiniestukken kunnen onderscheiden van serieuze journalistiek of satirische artikelen van De ui is het soort big data-raadsel waar ingenieurs van dromen.
De grotere vraag is echter hoe dit algoritme zal worden gebruikt – en of het uiteindelijk kan helpen het fenomeen nepnieuws aan te pakken.
De bijdrage van Snap aan het project (die neerkomt op een ‘geschenk’ van $7.000 en aanvullende niet-financiële steun) garandeert niet dat het bedrijf de technologie in een commercieel product zal omarmen. Maar Papalexakis zei dat hij hoopt dat het onderzoek uiteindelijk “zal leiden tot enige technologieoverdracht naar het platform.”
Het uiteindelijke doel, zo legde hij uit, is het ontwikkelen van een systeem dat in staat is om elk artikel een betrouwbaarheidsscore te geven. In theorie zou een dergelijke score kunnen worden gebruikt om nepnieuws uit te filteren voordat de gebruiker er zelfs maar een glimp van kan opvangen.
Dit is een idee dat niet veel verschilt van machinaal lerende e-mailspamfilters, die ook een scoresysteem toepassen op basis van factoren zoals de verhouding tussen afbeelding en tekst in de hoofdtekst van een bericht. Papalexakis suggereerde echter dat een aanpak die de voorkeur verdient erin zou kunnen bestaan gebruikers hier eenvoudigweg op te wijzen verhalen die hoog scoren in de categorie mogelijke nep – “en vervolgens de gebruiker laten beslissen wat hij ermee doet Het."
Een goede reden hiervoor is het feit dat nieuws niet altijd zo netjes wordt verdeeld in spam versus spam. hamcategorieën, zoals e-mail dat doet. Zeker, sommige artikelen zijn misschien regelrecht verzonnen, maar andere zijn misschien twijfelachtiger: bevatten geen directe leugens, maar zijn niettemin bedoeld om de lezer in een bepaalde richting te leiden. Het verwijderen van deze artikelen, zelfs als we merken dat onze meningen botsen met de onze, komt op lastiger terrein terecht.
“Dit valt in een grijs gebied”, vervolgde Papalexakis. “Het is prima als we dit kunnen categoriseren als een sterk bevooroordeeld artikel. Er zijn verschillende categorieën voor wat we desinformatie zouden kunnen noemen. [Een zwaar bevooroordeeld artikel] is misschien niet zo slecht als een regelrecht vals artikel, maar het verkoopt nog steeds een bepaald standpunt aan de lezer. Het is genuanceerder dan nep vs. niet nep."
Uiteindelijk, ondanks de wens van Papalexakis om met een systeem te komen dat zo min mogelijk toezicht gebruikt mogelijk is, erkent hij dat dit een uitdaging is die zowel mensen als mensen zal moeten omvatten machines.
“Ik zie het vanuit technologisch oogpunt als een kat-en-muisspel”, zei hij. “Ik denk niet dat het zeggen van ‘het oplossen’ de juiste manier is om ernaar te kijken. Mensen voorzien van een hulpmiddel waarmee ze bepaalde dingen over een artikel kunnen begrijpen, is een deel van de oplossing. Deze oplossing bestaat uit hulpmiddelen die u kunnen helpen dingen zelf te beoordelen, opgeleid te blijven als actieve burger, dingen te begrijpen en tussen de regels door te lezen. Ik denk niet dat er een uitsluitend technologische oplossing voor dit probleem kan worden toegepast, omdat het voor een groot deel afhangt van mensen en hoe zij de dingen zien.”
Aanbevelingen van de redactie
- Algoritmen presteren beter dan mensen bij het opsporen van nepnieuws