Kai Snapchat pirmą kartą buvo pristatytas kaip Stanfordo mechanikos inžinerijos pamokos dalis, kurso pasibaisėjęs dėstytojo asistentas atvirai susimąstė, ar programos kūrėjai sukūrė sekstingo programą. Mažiau nei po dešimtmečio „Snapchat“ gali padėti išspręsti vieną didžiausių problemų, su kuriomis šiuo metu susiduria technologijos: sustabdyti „netikrų naujienų“ plitimas internete.
Turinys
- Signalas melagingoms naujienoms?
- Katės ir pelės žaidimas amžiams
Turėdamas omenyje šį tikslą, „Snap Research“ – „Snap, Inc.“ tyrimų padalinys. — neseniai skyrė finansavimą Kalifornijos universiteto Riverside projektui, kurio tikslas – rasti naują būdą aptikti netikras naujienas internete. The sukurtas algoritmas UC Riverside pranešama, kad gali aptikti netikras naujienas įspūdingu tikslumo lygiu iki 75 procentų. Su „Snap“ palaikymu jie tikisi tai dar labiau pagerinti.
Rekomenduojami vaizdo įrašai
„Kaip aš suprantu, jiems labai svarbu gerai suprasti, kaip būtų galima suprasti šią problemą ir galiausiai ją išspręsti.
„Snap nėra viena iš pirmųjų įmonių, kuri ateina į galvą, atsižvelgiant į [šią problemą]“, Vagelis PapalexakisUC Riverside kompiuterių mokslo ir inžinerijos katedros docentas, pasakojo „Digital Trends“. „Nepaisant to, Snap yra įmonė, kuri tvarko turinį. Kaip suprantu, jiems labai svarbu gerai suprasti, kaip galima suprasti šią problemą ir galiausiai ją išspręsti.
Tai, kuo UC Riverside'o tyrimai skiriasi nuo dešimčių, o gal net šimtų kitų tyrimų projektų, bandančių nutraukti netikrų naujienų ciklą, yra projekto užmojis. Tai nėra paprastas raktinių žodžių blokatorius, taip pat nesiekiama visiškai uždrausti tam tikrų URL. Taip pat, ko gero, įdomiausia, kad jos ypač nedomina istorijose esantys faktai. Dėl to jis skiriasi nuo faktus tikrinančių svetainių, tokių kaip „Snopes“, kurios remiasi žmogaus indėliu ir įvertinimu, o ne tikru automatizavimu.
„Aš tikrai nepasitikiu žmonių anotacijomis“, - sakė Papalexakis. „Ne todėl, kad nepasitikiu žmonėmis, bet tai yra iš prigimties sudėtinga problema, į kurią reikia gauti galutinį atsakymą. Mūsų motyvacija kyla iš klausimo, kiek daug galime nuveikti žiūrėdami vien tik į duomenis ir ar galime naudoti kuo mažiau žmogiškų komentarų, jei tokių yra.
Signalas melagingoms naujienoms?
Naujasis algoritmas atsižvelgia į kiek įmanoma daugiau naujienų „signalų“ ir naudoja tai bandydamas klasifikuoti straipsnio patikimumą. Papalexakis pasakė: „Kas pasidalino straipsniu? Kokias grotažymes jie naudojo? Kas tai parašė? Iš kokios naujienų organizacijos tai? Kaip atrodo tinklalapis? Bandome išsiaiškinti, kurie veiksniai [svarbūs] ir kokią įtaką jie turi.
Pavyzdžiui, žyma su grotelėmis #LockHerUp nebūtinai patvirtina, kad straipsnis pats savaime yra netikra naujiena. Tačiau jei asmuo prideda šią priesagą, kai bendrina straipsnį „Twitter“, tai gali pasiūlyti tam tikrą istorijos pasvirimą. Pridėkite pakankamai šių įkalčių, ir idėja yra ta, kad atskiros dalys sudarys atskleidžiančią visumą. Kitaip tariant, jei jis vaikšto kaip antis ir kvatoja kaip antis, tikėtina, kad tai antis. Arba, šiuo atveju, plaukiojantis, kvatojantis, „alt-right“ rusų ančių botas.
„Mūsų interesas yra suprasti, kas vyksta anksti, ir kaip galime ką nors pažymėti ankstyvosiose stadijose, kol tai nepradės „užkrėsti“ tinklą“, – tęsė Papalexakis. „Šiuo metu tai yra mūsų interesas: išsiaiškinti, ką galime išspausti iš konkretaus straipsnio turinio ir konteksto.
Papalexakio grupės sukurtas algoritmas naudoja tai, kas vadinama tensoriniu skaidymu, kad analizuotų įvairius informacijos apie naujienų straipsnį srautus. Tenzoriai yra daugiamačiai kubai, naudingi modeliuojant ir analizuojant duomenis, turinčius daug skirtingų komponentų. Tenzorių skaidymas leidžia aptikti duomenų šablonus, suskaidant tenzorį į elementarias informacijos dalis, vaizduojančias tam tikrą modelį ar temą.
„Net juokingai mažas anotuotų straipsnių skaičius gali padėti pasiekti tikrai aukštą tikslumo lygį“
Algoritmas pirmiausia naudoja tensorinį skaidymą, kad pateiktų duomenis taip, kad sugrupuotų galimas netikras naujienas. Tada antroji algoritmo pakopa sujungia straipsnius, kurie laikomi arti vienas kito. Ryšio tarp šių straipsnių nustatymas remiasi principu, vadinamu „kaltė dėl asociacijos“. tai rodo, kad dviejų straipsnių ryšiai reiškia, kad jie labiau panašūs į vieną kitas.
Po to grafikams taikomas mašininis mokymasis. Šis „iš dalies prižiūrimas“ metodas naudoja nedaug straipsnių, kuriuos vartotojai suskirstė į kategorijas, o vėliau šias žinias pritaiko daug didesniam duomenų rinkiniui. Nors tam tikru lygmeniu tai vis dar susiję su žmonėmis, ji apima mažiau žmonių anotacijų nei daugelis alternatyvių galimų netikrų naujienų klasifikavimo metodų. Tyrėjų nurodytas 75 procentų tikslumo lygis pagrįstas teisingu dviejų viešų duomenų rinkinių filtravimu ir papildoma 63 000 naujienų straipsnių kolekcija.
„Net juokingai mažas anotuotų straipsnių skaičius gali mus pasiekti tikrai labai aukštą tikslumo lygį“, – sakė Papalexakis. „Daug daugiau nei turėti sistemą, kurioje bandėme užfiksuoti atskiras ypatybes, pvz., lingvistiką ar kitus dalykus, kuriuos žmonės gali laikyti dezinformaciniais.
Katės ir pelės žaidimas amžiams
Žvelgiant iš kompiuterių mokslo perspektyvos, nesunku suprasti, kodėl šis darbas patiktų Vageliui Papalexakiui ir kitiems UC Riverside tyrėjams, taip pat Snapchat žmonėms. Gebėjimas ne tik atskirti netikras naujienas nuo tikrų naujienų, bet ir atskirti šališkus pranešimus nuo rimtos žurnalistikos ar satyrinius straipsnius Svogūnas yra tokia, apie kurią svajoja didžiųjų duomenų galvosūkių inžinieriai.
Tačiau didesnis klausimas yra tai, kaip šis algoritmas bus naudojamas ir ar jis galiausiai gali padėti susidoroti su netikrų naujienų reiškiniu.
„Snap“ įnašas į projektą (kuris sudaro 7 000 USD „dovaną“ ir papildomą nefinansinę paramą) negarantuoja, kad įmonė pritaikys technologiją komerciniame produkte. Tačiau Papalexakis teigė, kad tikisi, kad tyrimas galiausiai „leis tam tikrą technologijų perkėlimą į platformą“.
Jis paaiškino, kad galutinis tikslas yra sukurti sistemą, kuri galėtų pateikti bet kuriam straipsniui patikimumo balą. Teoriškai toks balas galėtų būti naudojamas norint išfiltruoti netikras naujienas, kol vartotojas net neturi galimybės jas pamatyti.
Ši idėja yra nepanaši į mašininio mokymosi el. pašto šiukšlių filtrus, kurie taip pat taiko balų sistemą, pagrįstą tokiais veiksniais kaip vaizdo ir teksto santykis pranešimo turinyje. Tačiau Papalexakis pasiūlė, kad geriausias būdas būtų tiesiog įspėti vartotojus apie tai istorijas, kurios galimų netikrų kategorijoje yra gerai įvertintos – „ir tada leiskite vartotojui nuspręsti, ką daryti tai“.
Viena iš svarių priežasčių yra tai, kad naujienos ne visada taip tvarkingai skirstomos į šlamštą ir šlamštą. kumpio kategorijas, kaip tai daro el. Žinoma, kai kurie straipsniai gali būti išgalvoti, tačiau kiti gali būti labiau abejotini: juose nėra tiesioginio melo, bet vis tiek siekiama nukreipti skaitytoją tam tikra kryptimi. Pašalinus šiuos straipsnius, net kai galime rasti nuomonių, prieštaraujančių mūsų nuomonei, patenkama į klampesnę sritį.
„Tai patenka į pilką zoną“, - tęsė Papalexakis. „Gerai, jei galime tai priskirti labai neobjektyviam straipsniui. Tai, ką galime pavadinti dezinformacija, skirstomos į skirtingas kategorijas. [Labai šališkas straipsnis] gali būti ne toks blogas kaip tiesioginis klaidingas straipsnis, tačiau jis vis tiek parduoda skaitytojui tam tikrą požiūrį. Tai daugiau niuansų nei netikras vs. ne netikras“.
Galų gale, nepaisant Papalexakis noro sukurti sistemą, kuriai būtų reikalinga tiek mažai priežiūros, kaip įmanoma, jis pripažįsta, kad tai yra iššūkis, kuris turės apimti ir žmones, ir mašinos.
„Manau, kad tai yra katės ir pelės žaidimas technologiniu požiūriu“, - sakė jis. „Nemanau, kad pasakymas „išspręsti“ yra teisingas būdas į tai žiūrėti. Suteikti žmonėms įrankį, galintį padėti suprasti konkrečius straipsnio dalykus, yra sprendimo dalis. Šis sprendimas būtų įrankiai, galintys padėti jums spręsti apie dalykus patiems, išlikti išsilavinusiems kaip aktyviems piliečiams, suprasti dalykus ir skaityti tarp eilučių. Nemanau, kad šiai problemai galima pritaikyti vien technologinį sprendimą, nes labai daug tai priklauso nuo žmonių ir nuo to, kaip jie mato dalykus.
Redaktorių rekomendacijos
- Algoritmas pranoksta žmones aptikdamas netikras naujienas