Када је Снапцхат први пут представљен као део часа машинства на Станфорду, ужаснути асистент на курсу отворено се питао да ли су креатори апликације направили апликацију за секстинг. Мање од деценије касније, Снапцхат би могао да помогне у решавању једног од највећих проблема са којима се тренутно суочава технологија: заустављање ширење „лажних вести“ на мрежи.
Садржај
- Сигнал за лажне вести?
- Игра мачке и миша за векове
Имајући овај циљ на уму, Снап Ресеарцх — истраживачки одсек компаније Снап, Инц. — недавно је донирао средства пројекту Риверсиде Универзитета у Калифорнији, са циљем да пронађе нови начин откривања лажних вести на мрежи. Тхе алгоритам УЦ Риверсиде је развио је наводно способан да открије лажне вести са импресивним нивоом тачности до 75 процената. Уз подршку Снапа, надају се да ће ово додатно побољшати.
Препоручени видео снимци
„Колико ја разумем, они су веома заинтересовани да добро схвате како неко може разумети овај проблем - и на крају га решити.
„Снап није једна од првих компанија која би пала на памет с обзиром на [овај проблем]“, Вагелис Папалекакис, доцент на одсеку за рачунарске науке и инжењерство на УЦ Риверсиде, рекао је за Дигитал Трендс. „Ипак, Снап је компанија која се бави садржајем. Колико ја разумем, они су веома заинтересовани да добро схвате како неко може разумети овај проблем - и на крају га решити."
Оно по чему се истраживање УЦ Риверсиде разликује од десетина, можда чак и стотина, других истраживачких пројеката који покушавају да прекину циклус лажних вести јесте амбиција пројекта. То није једноставан блокатор кључних речи, нити има за циљ да забрани одређене УРЛ-ове. Нити, што је можда најзанимљивије, није посебно заинтересовано за чињенице садржане у причама. Ово га разликује од веб локација за проверу чињеница као што је Снопес, које се ослањају на људски унос и процену уместо на праву аутоматизацију.
„Не верујем баш људским белешкама“, рекао је Папалексакис. „Не зато што немам поверења у људе, али постати ово је инхерентно тежак проблем за добијање коначног одговора. Наша мотивација за ово потиче од питања колико можемо да урадимо гледајући само податке и да ли можемо да користимо што је могуће мање људских напомена - ако их уопште има.
Сигнал за лажне вести?
Нови алгоритам посматра што је више могуће „сигнала“ из новинске приче и користи то да покуша да класификује веродостојност чланка. Папалекакис је рекао: „Ко је поделио чланак? Које су хасхтагове користили? Ко је то написао? Из које је новинске организације? Како изгледа веб страница? Покушавамо да схватимо који фактори су [битни] и колики утицај имају."
На пример, хештег #ЛоцкХерУп не мора нужно да потврди да је чланак сам по себи лажна вест. Међутим, ако особа дода овај суфикс када дели чланак на Твитеру, то би могло да сугерише одређени нагиб у причи. Додајте довољно ових трагова заједно, а идеја је да се одвојени делови сабирају у једну откривајућу целину. Другим речима, ако хода као патка и квоца као патка, велике су шансе да је то патка. Или, у овом случају, гегајући се, квоцајући, алт-ригхт руски бот за патке.
„Наш интерес је да разумемо шта се дешава рано и како можемо да означимо нешто у раним фазама пре него што почне да ’инфицира‘ мрежу“, наставио је Папалексакис. „То је наш интерес за сада: да утврдимо шта можемо да извучемо из садржаја и контекста одређеног чланка.
Алгоритам који је развила Папалексакисова група користи нешто што се зове тензорска декомпозиција за анализу различитих токова информација о чланку вести. Тензори су вишедимензионалне коцке, корисне за моделирање и анализу података који имају много различитих компоненти. Тензорска декомпозиција омогућава откривање образаца у подацима разбијањем тензора на елементарне делове информација, који представљају одређени образац или тему.
„Чак и смешно мали број чланака са коментарима може нас довести до заиста, заиста високог нивоа тачности“
Алгоритам прво користи тензорску декомпозицију да представи податке на такав начин да групише могуће лажне вести заједно. Други ниво алгоритма затим повезује чланке за које се сматра да су блиски. Мапирање везе између ових чланова ослања се на принцип који се зове „кривица по удружењу“, што сугерише да везе између два чланка значи да је већа вероватноћа да ће бити сличне једном други.
Након тога, машинско учење се примењује на графиконе. Овај „полу-надгледани“ приступ користи мали број чланака које су корисници категорисали, а затим примењује ово знање на много већи скуп података. Иако ово још увек укључује људе на неком нивоу, укључује мање људских коментара него већина алтернативних метода класификације потенцијалних лажних вести. Ниво тачности од 75 процената који тврде истраживачи заснива се на исправном филтрирању два јавна скупа података и додатној колекцији од 63.000 новинских чланака.
„Чак и смешно мали број чланака са коментарима може нас довести до заиста, заиста високог нивоа тачности“, рекао је Папалексакис. „Много више од система у којем смо покушали да ухватимо појединачне карактеристике, као што је лингвистика, или друге ствари које људи могу да виде као дезинформативне.
Игра мачке и миша за векове
Из перспективе компјутерске науке, лако је схватити зашто би се овај рад допао Вагелису Папалексакису и другим истраживачима на УЦ Риверсиде - као и људима у Снапцхату. Бити у стању да не само да сортира лажне вести од стварних, већ и да разликује пристрасне текстове од озбиљног новинарства или сатиричне чланке од Црни лук је врста загонетке великих података о којој сањају инжењери.
Веће питање је, међутим, како ће се овај алгоритам користити - и да ли он на крају може помоћи у сузбијању феномена лажних вести.
Допринос Снапа пројекту (који износи 7.000 долара „поклона“ и додатне нефинансијске подршке) не гарантује да ће компанија усвојити технологију у комерцијалном производу. Али Папалексакис је рекао да се нада да ће истраживање на крају „довести до неког трансфера технологије на платформу“.
Коначни циљ, објаснио је он, је да се развије систем који је у стању да сваком чланку пружи оно што представља оцену поузданости. У теорији, такав резултат би се могао користити за филтрирање лажних вести пре него што корисник уопште има прилику да их примети.
Ово је идеја која се не разликује од филтера нежељене е-поште за машинско учење, који такође примењују систем бодовања заснован на факторима као што је однос слике и текста у телу поруке. Међутим, Папалексакис је сугерисао да би пожељнији приступ могао бити једноставно упозорење корисника на њих приче које имају високе оцене у категорији могућих лажних — „и онда пустите корисника да одлучи шта да ради са то."
Један добар разлог за ово је чињеница да се вести не деле увек тако уредно на нежељену пошту у односу на. категорије шунке, као што то ради е-пошта. Наравно, неки чланци могу бити потпуна измишљотина, али други могу бити упитнији: не садрже директне лажи, али без обзира на то имају за циљ да воде читаоца у једном одређеном правцу. Уклањање ових чланака, чак и када бисмо могли да нађемо да се мишљења сукобљавају са нашим, улази у лепшу територију.
„Ово спада у сиву зону“, наставио је Папалексакис. „У реду је ако ово можемо категоризовати као веома пристрасан чланак. Постоје различите категорије за оно што бисмо могли назвати дезинформацијама. [Јако пристрасан чланак] можда није тако лош као прави лажни чланак, али читаоцу и даље продаје одређено гледиште. То је нијансираније од лажног вс. Не лажни."
На крају крајева, упркос Папалексакисовој жељи да смисли систем који користи тако мало надзора као могуће, он признаје да је ово изазов који ће морати да обухвати и људе и машине.
„Видим то као игру мачке и миша са технолошке тачке гледишта“, рекао је он. „Не мислим да је изговор 'решавање' прави начин да се на то гледа. Омогућавање људима алатке које им може помоћи да разумеју одређене ствари о чланку је део решења. Ово решење би били алати који вам могу помоћи да сами процените ствари, да останете образовани као активни грађанин, да разумете ствари и читате између редова. Не мислим да се само технолошко решење може применити на овај проблем, јер много тога зависи од људи и како они виде ствари.”
Препоруке уредника
- Алгоритам надмашује људе у откривању лажних вести