Kad je Snapchat prvi put predstavljen kao dio predavanja strojarstva na Stanfordu, užasnuti asistent u nastavi otvoreno se zapitao jesu li kreatori aplikacije napravili aplikaciju za razmjenu poruka. Manje od desetljeća kasnije, Snapchat bi mogao pomoći u rješavanju jednog od najvećih problema s kojima se tehnologija trenutno suočava: zaustavljanje širenje “lažnih vijesti” na internetu.
Sadržaj
- Signal za lažne vijesti?
- Igra mačke i miša za vjekove
S tim ciljem na umu, Snap Research — istraživački odjel tvrtke Snap, Inc. — nedavno je donirao financiranje projektu Sveučilišta Kalifornija, Riverside, s ciljem pronalaženja novog načina otkrivanja lažnih vijesti na internetu. The algoritam koji je razvio UC Riverside je navodno sposoban otkriti lažne vijesti s impresivnom razinom točnosti do 75 posto. Uz podršku Snapa, nadaju se da će ovo dodatno poboljšati.
Preporučeni videozapisi
"Koliko sam shvatio, oni su vrlo zainteresirani da dobro shvate kako bi netko mogao razumjeti ovaj problem - i riješiti ga u konačnici."
“Snap nije jedna od prvih tvrtki koja bi mi pala na pamet s obzirom na [ovaj problem],” Vagelis Papalexakis, docent na Odjelu za računalne znanosti i inženjerstvo na UC Riverside, rekao je za Digital Trends. “Ipak, Snap je tvrtka koja se bavi sadržajem. Koliko sam shvatio, oni su jako zainteresirani da dobro shvate kako bi netko mogao razumjeti ovaj problem - i na kraju ga riješiti."
Ono po čemu se istraživanje UC Riverside razlikuje od desetaka, možda čak i stotina drugih istraživačkih projekata koji pokušavaju razbiti krug lažnih vijesti jest ambicija projekta. To nije jednostavan blokator ključnih riječi, niti mu je cilj staviti opću zabranu na određene URL-ove. Niti, što je možda najzanimljivije, nije posebno zainteresiran za činjenice sadržane u pričama. To ga čini drugačijim od web stranica za provjeru činjenica poput Snopesa, koje se oslanjaju na ljudski unos i procjenu umjesto prave automatizacije.
"Ne vjerujem baš ljudskim komentarima", rekao je Papalexakis. “Ne zato što ne vjerujem ljudima, već je ovo inherentno težak problem za dobiti konačan odgovor. Naša motivacija za to proizlazi iz pitanja koliko možemo učiniti gledajući samo podatke i možemo li koristiti što je moguće manje ljudskih bilješki - ako ih uopće ima."
Signal za lažne vijesti?
Novi algoritam gleda što je moguće više "signala" iz vijesti i koristi se time da pokuša klasificirati vjerodostojnost članka. Papalexakis je rekao: “Tko je podijelio članak? Koje su hashtagove koristili? Tko je napisao? Iz koje je novinske kuće? Kako izgleda web stranica? Pokušavamo otkriti koji su čimbenici [bitni] i koliki utjecaj imaju."
Na primjer, hashtag #LockHerUp ne mora nužno potvrditi da je članak sam po sebi lažna vijest. Međutim, ako osoba doda ovaj sufiks kada dijeli članak na Twitteru, to bi moglo sugerirati određeni nagib priče. Dodajte dovoljno ovih tragova zajedno, a ideja je da se zasebni dijelovi dodaju u cjelinu koja otkriva. Drugim riječima, ako hoda kao patka i kvoca kao patka, velike su šanse da je patka. Ili, u ovom slučaju, gegajući, kvocajući, alt-desni ruski patki bot.
“Naš interes je razumjeti što se događa rano i kako možemo označiti nešto u ranim fazama prije nego što počne ‘inficirati’ mrežu,” nastavio je Papalexakis. "To je zasad naš interes: razraditi što možemo izvući iz sadržaja i konteksta određenog članka."
Algoritam koji je razvila Papalexakisova grupa koristi nešto što se zove tenzorska dekompozicija za analizu različitih tokova informacija o novinskom članku. Tenzori su višedimenzionalne kocke, korisne za modeliranje i analizu podataka koji imaju mnogo različitih komponenti. Dekompozicija tenzora omogućuje otkrivanje uzoraka u podacima rastavljanjem tenzora na elementarne dijelove informacija, koji predstavljaju određeni obrazac ili temu.
"Čak i smiješno mali broj članaka s komentarima može nas dovesti do stvarno, stvarno visokih razina točnosti"
Algoritam prvo koristi tenzorsku dekompoziciju za predstavljanje podataka na takav način da grupira moguće lažne vijesti. Drugi nivo algoritma zatim povezuje članke za koje se smatra da su bliski. Preslikavanje veze između ovih članaka oslanja se na načelo zvano "krivnja po povezanosti", sugerirajući da veze između dva članka znače da je vjerojatnije da su slični jednom još.
Nakon toga, strojno učenje se primjenjuje na grafikone. Ovaj "polu-nadzirani" pristup koristi mali broj članaka koje su korisnici kategorizirali, a zatim primjenjuje to znanje na mnogo veći skup podataka. Iako to još uvijek uključuje ljude na određenoj razini, uključuje manje ljudskih komentara od većine alternativnih metoda klasificiranja potencijalnih lažnih vijesti. Razina točnosti od 75 posto koju su hvalili istraživači temelji se na ispravnom filtriranju dva javna skupa podataka i dodatnoj zbirci od 63.000 novinskih članaka.
"Čak i smiješno mali broj članaka s komentarima može nas dovesti do stvarno, stvarno visoke razine točnosti", rekao je Papalexakis. "Puno više od sustava u kojem smo pokušavali uhvatiti pojedinačne značajke, poput lingvistike ili drugih stvari koje bi ljudi mogli smatrati dezinformativnima."
Igra mačke i miša za vjekove
Iz perspektive računalne znanosti, lako je vidjeti zašto bi se ovaj rad svidio Vagelisu Papalexakisu i drugim istraživačima s UC Riversidea - kao i ljudima iz Snapchata. Biti u stanju ne samo razvrstati lažne vijesti od pravih vijesti, već i razlikovati pristrane komentare od ozbiljnog novinarstva ili satirične članke iz Luk je vrsta zagonetke velikih podataka o kojoj inženjeri sanjaju.
Međutim, veće je pitanje kako će se ovaj algoritam koristiti - i može li u konačnici pomoći u suzbijanju fenomena lažnih vijesti.
Snapov doprinos projektu (koji iznosi "dar" od 7000 dolara i dodatnu nefinancijsku podršku) ne jamči da će tvrtka usvojiti tehnologiju u komercijalnom proizvodu. Ali Papalexakis je rekao kako se nada da će istraživanje na kraju "dovesti do nekog prijenosa tehnologije na platformu".
Krajnji je cilj, objasnio je, razviti sustav koji je sposoban svakom članku pružiti ocjenu pouzdanosti. U teoriji, takav bi se rezultat mogao koristiti za filtriranje lažnih vijesti prije nego što ih korisnik uopće ima priliku vidjeti.
Ovo nije različita ideja od strojnog učenja filtara neželjene e-pošte, koji također primjenjuju sustav bodovanja temeljen na faktorima poput omjera slike i teksta u tijelu poruke. Međutim, Papalexakis je predložio da bi bolji pristup mogao biti jednostavno upozoravanje korisnika na njih priče koje imaju visoku ocjenu u kategoriji mogućih lažnih — “i onda neka korisnik odluči što će učiniti s to."
Jedan dobar razlog za to je činjenica da se vijesti ne dijele uvijek tako uredno na spam i spam. kategorije šunke, kao što to čini e-pošta. Naravno, neki članci mogu biti potpuna izmišljotina, ali drugi mogu biti upitniji: ne sadrže izravne laži, ali unatoč tome namjeravaju odvesti čitatelja u jednom određenom smjeru. Uklanjanje ovih članaka, čak i kada bismo mogli pronaći mišljenja koja se sukobljavaju s našima, ulazi u nezgodniji teritorij.
"Ovo spada u sivu zonu", nastavio je Papalexakis. “U redu je ako ovo možemo kategorizirati kao izrazito pristran članak. Postoje različite kategorije za ono što bismo mogli nazvati dezinformacijama. [Jako pristran članak] možda nije tako loš kao lažan članak, ali ipak čitatelju prodaje određeno stajalište. Više je nijansiran od lažnog u odnosu na nije lažan."
U konačnici, unatoč Papalexakisovoj želji da osmisli sustav koji koristi što manje nadzora moguće, on priznaje da je to izazov koji će morati uključiti i ljude i strojevi.
“S tehnološkog gledišta to vidim kao igru mačke i miša”, rekao je. “Ne mislim da je reći 'rješavanje' pravi način gledanja na to. Pružanje ljudima alata koji im može pomoći da razumiju određene stvari o članku dio je rješenja. Ovo bi rješenje bili alati koji vam mogu pomoći da sami prosudite stvari, da ostanete obrazovani kao aktivan građanin, da razumijete stvari i čitate između redaka. Ne mislim da se samo tehnološko rješenje može primijeniti na ovaj problem jer mnogo toga ovisi o ljudima i tome kako oni vide stvari.”
Preporuke urednika
- Algoritam je bolji od ljudi u uočavanju lažnih vijesti