Bi lahko Snap rešil internet pred lažnimi novicami? Tukaj je skrivno orožje podjetja

Vagelis PapalexakisUC Riverside

Ko je bil Snapchat prvič predstavljen kot del tečaja strojništva na Stanfordu, se je zgroženi asistent tečaja odkrito spraševal, ali so ustvarjalci aplikacije zgradili aplikacijo za pošiljanje seksov. Manj kot desetletje kasneje bi lahko Snapchat pomagal rešiti enega največjih problemov, s katerimi se trenutno sooča tehnologija: zaustavitev širjenje »lažnih novic« na spletu.

Vsebina

  • Signal za lažne novice?
  • Igra mačke in miši za stoletja

S tem ciljem v mislih je Snap Research — raziskovalni oddelek družbe Snap, Inc. — nedavno je doniral sredstva za projekt Univerze v Kaliforniji, Riverside, katerega namen je najti nov način odkrivanja lažnih novic na spletu. The algoritem, ki ga je razvil UC Riverside naj bi bil sposoben zaznati lažne novice z impresivno stopnjo natančnosti do 75 odstotkov. S podporo družbe Snap upajo, da bodo to še izboljšali.

Priporočeni videoposnetki

"Kolikor razumem, jih zelo zanima, kako bi razumeli to težavo - in jo na koncu rešili."

"Snap ni eno prvih podjetij, ki bi mi prišlo na misel glede na [to težavo],"

Vagelis Papalexakis, docent na oddelku za računalništvo in tehniko na UC Riverside, je povedal za Digital Trends. »Kljub temu je Snap podjetje, ki skrbi za vsebino. Kolikor razumem, jih zelo zanima, kako bi razumeli to težavo - in jo na koncu rešili.«

Raziskava UC Riverside se razlikuje od desetin, morda celo sto drugih raziskovalnih projektov, ki poskušajo prekiniti cikel lažnih novic, ambicioznost projekta. To ni preprost blokator ključnih besed, niti ni namenjen popolni prepovedi določenih URL-jev. Prav tako ga, kar je morda najbolj zanimivo, ne zanimajo posebej dejstva, ki jih vsebujejo zgodbe. Zaradi tega se razlikuje od spletnih mest za preverjanje dejstev, kot je Snopes, ki se zanašajo na človeški vnos in vrednotenje namesto prave avtomatizacije.

"V resnici ne zaupam človeškim opombam," je dejal Papalexakis. »Ne zato, ker ne bi zaupal ljudem, ampak postane to že sama po sebi težka težava, na katero je treba dobiti dokončen odgovor. Naša motivacija za to izhaja iz vprašanja, koliko lahko naredimo, če pogledamo samo podatke, in ali lahko uporabimo čim manj človeških opomb - če sploh.«

Signal za lažne novice?

Novi algoritem preuči čim več "signalov" iz novice in to uporabi, da poskusi razvrstiti verodostojnost članka. Papalexakis je rekel: »Kdo je delil članek? Katere hashtage so uporabili? Kdo je to napisal? Iz katere novinarske organizacije je? Kako izgleda spletna stran? Poskušamo ugotoviti, kateri dejavniki [pomembni] in kolikšen vpliv imajo."

Na primer, hashtag #LockHerUp morda ne potrjuje nujno, da je članek sam po sebi lažna novica. Vendar, če oseba doda to pripono, ko deli članek na Twitterju, lahko to nakazuje določeno nagnjenost zgodbe. Dodajte dovolj teh namigov skupaj in ideja je, da se ločeni deli seštejejo v razkrivajočo celoto. Povedano drugače, če hodi kot raca in kvače kot raca, obstaja velika verjetnost, da je raca. Ali, v tem primeru, gugajoči, kvakajoči, alt-desni ruski račji bot.

protest proti lažnim novicam
snapchat podpira algoritem boj proti lažnim novicam protest getty2

"Naš interes je razumeti, kaj se zgodi zgodaj, in kako lahko nekaj označimo v zgodnjih fazah, preden začne 'okužiti' omrežje," je nadaljeval Papalexakis. "To je trenutno naš interes: ugotoviti, kaj lahko iztisnemo iz vsebine in konteksta določenega članka."

Algoritem, ki ga je razvila Papalexakisova skupina, uporablja nekaj, kar se imenuje tenzorska dekompozicija, za analizo različnih tokov informacij o novičarskem članku. Tenzorji so večdimenzionalne kocke, uporabne za modeliranje in analizo podatkov, ki imajo veliko različnih komponent. Dekompozicija tenzorja omogoča odkrivanje vzorcev v podatkih z razdelitvijo tenzorja na osnovne informacije, ki predstavljajo določen vzorec ali temo.

"Tudi smešno majhno število komentiranih člankov nas lahko pripelje do res, zelo visokih stopenj natančnosti"

Algoritem najprej uporabi tenzorsko razgradnjo za predstavitev podatkov na tak način, da združi morebitne lažne novice. Druga raven algoritma nato poveže članke, za katere velja, da so blizu skupaj. Preslikava povezave med temi členi temelji na načelu, imenovanem "krivda po povezavi", nakazuje, da povezave med dvema členoma pomenijo večjo verjetnost, da sta podobna enemu drugo.

Po tem se strojno učenje uporabi za grafe. Ta »pol-nadzorovan« pristop uporablja majhno število člankov, ki so jih uporabniki kategorizirali, in nato to znanje uporabi za veliko večji nabor podatkov. Čeprav to na neki ravni še vedno vključuje ljudi, vključuje manj človeških opomb kot večina alternativnih metod razvrščanja morebitnih lažnih novic. Raven 75-odstotne natančnosti, ki jo navajajo raziskovalci, temelji na pravilnem filtriranju dveh javnih podatkovnih nizov in dodatni zbirki 63.000 člankov z novicami.

"Celo smešno majhno število komentiranih člankov nas lahko pripelje do res, zelo visokih stopenj natančnosti," je dejal Papalexakis. "Veliko višje, kot če bi imeli sistem, v katerem smo poskušali zajeti posamezne značilnosti, kot je jezikoslovje, ali druge stvari, ki se ljudem morda zdijo napačne."

Igra mačke in miši za stoletja

Z vidika računalništva je enostavno razumeti, zakaj bi to delo pritegnilo Vagelisa Papalexakisa in druge raziskovalce na UC Riverside - kot tudi ljudi v Snapchatu. Biti sposoben ne samo razvrstiti lažne novice od resničnih novic, ampak tudi razlikovati pristranske komentarje od resnega novinarstva ali satiričnih člankov iz Čebula je uganka o velikih podatkih, o kateri sanjajo inženirji.

Večje vprašanje pa je, kako bo ta algoritem uporabljen - in ali lahko na koncu pomaga zatreti pojav lažnih novic.

Snapov prispevek k projektu (ki znaša 7000 dolarjev "darila" in dodatne nefinančne podpore) ne zagotavlja, da bo podjetje sprejelo tehnologijo v komercialnem izdelku. Toda Papalexakis je dejal, da upa, da bo raziskava sčasoma "pripeljala do nekaj prenosa tehnologije na platformo."

Pojasnil je, da je končni cilj razviti sistem, ki je sposoben vsakemu članku zagotoviti oceno zanesljivosti. Teoretično bi lahko takšen rezultat uporabili za filtriranje lažnih novic, še preden jih uporabnik sploh opazi.

To ni nič drugega kot zamisel strojnega učenja e-poštnih filtrov za vsiljeno pošto, ki prav tako uporabljajo sistem točkovanja na podlagi dejavnikov, kot je razmerje med sliko in besedilom v telesu sporočila. Vendar je Papalexakis predlagal, da bi bil boljši pristop preprosto opozarjanje uporabnikov nanje zgodbe, ki dosegajo visoko oceno v kategoriji možnih ponaredkov — »in nato prepustite uporabniku, da se odloči, kaj bo s tem naredil to."

Eden od dobrih razlogov za to je dejstvo, da novice niso vedno tako natančno razdeljene na neželeno pošto in. kategorije šunke, kot to počne e-pošta. Seveda so nekateri članki lahko popolna izmišljotina, drugi pa so lahko bolj vprašljivi: ne vsebujejo neposrednih laži, vendar so kljub temu namenjeni bralcu voditi v določeno smer. Odstranjevanje teh člankov, tudi če ugotovimo, da so mnenja v nasprotju z našimi, pride na bolj občutljivo področje.

"To spada v sivo območje," je nadaljeval Papalexakis. »V redu je, če lahko to kategoriziramo kot močno pristranski članek. Obstajajo različne kategorije za to, čemur lahko rečemo dezinformacije. [Zelo pristranski članek] morda ni tako slab kot naravnost lažen članek, vendar bralcu še vedno prodaja določeno stališče. Je bolj niansiran kot ponaredek vs. ni ponaredek."

Navsezadnje kljub Papalexakisovi želji, da pripravi sistem, ki uporablja tako malo nadzora kot mogoče, priznava, da je to izziv, ki bo moral vključevati tako ljudi kot stroji.

"S tehnološkega vidika to vidim kot igro mačke z mišjo," je dejal. »Mislim, da beseda 'reševanje' ni pravi način gledanja na to. Zagotavljanje ljudem orodja, ki jim lahko pomaga razumeti določene stvari o članku, je del rešitve. Ta rešitev bi bila orodja, ki vam lahko pomagajo, da sami presodite stvari, ostanete izobraženi kot aktiven državljan, razumete stvari in berete med vrsticami. Mislim, da za to težavo ni mogoče uporabiti samo tehnološke rešitve, ker je veliko odvisno od ljudi in njihovega pogleda na stvari.«

Priporočila urednikov

  • Algoritem je boljši od ljudi pri odkrivanju lažnih novic