Когато Snapchat беше представен за първи път като част от клас по машинно инженерство в Станфорд, ужасеният асистент на курса открито се чудеше дали създателите на приложението са създали приложение за секс съобщения. По-малко от десетилетие по-късно Snapchat може да помогне за решаването на един от най-големите проблеми, пред които са изправени технологиите: спирането на разпространение на „фалшиви новини“ онлайн.
Съдържание
- Сигналът за фалшиви новини?
- Игра на котка и мишка за вековете
Имайки предвид тази цел, Snap Research — изследователският отдел на Snap, Inc. — наскоро дари финансиране на проект на Калифорнийския университет, Ривърсайд, целящ да намери нов начин за откриване на фалшиви новини онлайн. The алгоритъмът, разработен от UC Riverside Съобщава се, че е в състояние да открива фалшиви новини с впечатляващо ниво на точност до 75 процента. С подкрепата на Snap те се надяват да подобрят допълнително това.
Препоръчани видеоклипове
„Доколкото разбирам, те са много заинтересовани да разберат добре как човек може да разбере този проблем – и в крайна сметка да го реши.“
„Snap не е една от първите компании, за които ще се сетите предвид [този проблем],“ Вагелис Папалексакис, асистент в катедрата по компютърни науки и инженерство в UC Riverside, каза пред Digital Trends. „Въпреки това Snap е компания, която обработва съдържание. Доколкото разбирам, те са много заинтересовани да разберат добре как човек може да разбере този проблем - и да го реши в крайна сметка.
Това, което прави изследванията на UC Riverside различни от десетките, може би дори стотици други изследователски проекти, които се опитват да прекъснат цикъла на фалшивите новини, е амбицията на проекта. Това не е просто средство за блокиране на ключови думи, нито има за цел да постави пълна забрана на определени URL адреси. Нито, може би най-интересното, не се интересува особено от фактите, съдържащи се в историите. Това го отличава от уебсайтове за проверка на факти като Snopes, които разчитат на човешки принос и оценка вместо на истинска автоматизация.
„Наистина не вярвам на човешки пояснения“, каза Папалексакис. „Не защото не се доверявам на хората, но стана това по своята същност труден проблем, за да се получи окончателен отговор. Нашата мотивация за това идва от въпроса колко можем да направим, като гледаме само данните и дали можем да използваме възможно най-малко човешки коментари - ако изобщо има такива.
Сигналът за фалшиви новини?
Новият алгоритъм разглежда възможно най-много „сигнали“ от новина и използва това, за да се опита да класифицира надеждността на статията. Папалексакис каза: „Кой сподели статията? Какви хаштагове са използвали? Кой го е написал? От коя новинарска организация е? Как изглежда уеб страницата? Опитваме се да разберем кои фактори [имащи значение] и колко влияние имат.“
Например хаштагът #LockHerUp може да не потвърждава непременно, че дадена статия е фалшива новина сама по себе си. Въпреки това, ако човек добави този суфикс, когато споделя статия в Twitter, това може да предложи определен наклон към историята. Добавете достатъчно от тези улики заедно и идеята е, че отделните части се добавят към разкриващо цяло. Казано по друг начин, ако ходи като патица и кряка като патица, шансовете са, че е патица. Или, в този случай, клатушкащ се, крякащ, alt-right руски патешки бот.
„Нашият интерес е да разберем какво се случва на ранен етап и как можем да маркираме нещо на ранните етапи, преди да започне да „заразява“ мрежата“, продължи Папалексакис. „Това е нашият интерес засега: да разберем какво можем да изтръгнем от съдържанието и контекста на конкретна статия.“
Алгоритъмът, разработен от групата на Папалексакис, използва нещо, наречено тензорно разлагане, за да анализира различните потоци от информация за новинарска статия. Тензорите са многоизмерни кубове, полезни за моделиране и анализ на данни, които имат много различни компоненти. Тензорното разлагане прави възможно откриването на модели в данните чрез разделяне на тензор на елементарни части от информация, представляващи определен модел или тема.
„Дори абсурдно малък брой анотирани статии може да ни доведе до наистина, наистина високи нива на точност“
Алгоритъмът първо използва тензорно разлагане, за да представи данните по такъв начин, че да групира заедно възможни фалшиви новини. След това второ ниво на алгоритъма свързва статии, които се считат за близки една до друга. Картографирането на връзката между тези статии се основава на принцип, наречен „вина по асоциация“, предполагайки, че връзките между две статии означават, че е по-вероятно те да бъдат подобни на една друг.
След това към графиките се прилага машинно обучение. Този „полуконтролиран“ подход използва малък брой статии, които са категоризирани от потребителите, и след това прилага това знание към много по-голям набор от данни. Въпреки че това все още включва хора на някакво ниво, то включва по-малко човешка анотация, отколкото повечето алтернативни методи за класифициране на потенциални фалшиви новини. Нивото на точност от 75 процента, рекламирано от изследователите, се основава на правилно филтриране на два публични набора от данни и допълнителна колекция от 63 000 новинарски статии.
„Дори абсурдно малък брой анотирани статии може да ни доведе до наистина, наистина високи нива на точност“, каза Папалексакис. „Много по-високо от наличието на система, в която се опитваме да уловим отделни характеристики, като лингвистика или други неща, които хората могат да възприемат като дезинформативни.“
Игра на котка и мишка за вековете
От гледна точка на компютърните науки е лесно да се разбере защо тази работа ще се хареса на Вагелис Папалексакис и другите изследователи от UC Riverside – както и на хората от Snapchat. Да можеш не само да сортираш фалшиви новини от истински новини, но и да разграничаваш пристрастните статии от сериозната журналистика или сатиричните статии от Лукът е главоблъсканицата с големи данни, за която мечтаят инженерите.
По-големият въпрос обаче е как ще се използва този алгоритъм - и дали в крайна сметка може да помогне за справяне с феномена на фалшивите новини.
Приносът на Snap към проекта (който възлиза на „подарък“ от $7000 и допълнителна нефинансова подкрепа) не гарантира, че компанията ще приеме технологията в търговски продукт. Но Папалексакис каза, че се надява, че изследването в крайна сметка ще „доведе до известен трансфер на технологии към платформата“.
Крайната цел, обясни той, е да се разработи система, която е в състояние да предостави на всяка статия това, което се равнява на оценка за надеждност. На теория такъв резултат може да се използва за филтриране на фалшиви новини, преди дори да има шанса да бъде видян от потребителя.
Това не е различна идея от филтрите за нежелана поща с машинно обучение, които също прилагат система за оценяване, базирана на фактори като съотношението на изображение към текст в тялото на съобщението. Папалексакис обаче предположи, че предпочитаният подход може да бъде просто да предупреди потребителите за тях истории, които имат висок резултат във възможната фалшива категория - „и след това оставете потребителя да реши какво да прави с то."
Една добра причина за това е фактът, че новините не винаги се разделят толкова добре на спам и спам. категории шунка, както прави имейлът. Разбира се, някои статии може да са измислици, но други може да са по-съмнителни: не съдържат директни лъжи, но въпреки това целят да водят читателя в една определена посока. Премахването на тези статии, дори когато може да намерим мнения, които се противопоставят на нашите собствени, навлиза в по-сложна територия.
„Това попада в сива зона“, продължи Папалексакис. „Добре е, ако можем да категоризираме това като силно пристрастна статия. Има различни категории за това, което бихме могли да наречем дезинформация. [Силно предубедена статия] може да не е толкова лоша, колкото направо невярна статия, но все пак продава определена гледна точка на читателя. Това е по-нюансирано от фалшиво срещу не е фалшив."
В крайна сметка, въпреки желанието на Папалексакис да излезе със система, която използва толкова малко надзор, колкото възможно, той признава, че това е предизвикателство, което ще трябва да включва както хората, така и машини.
„Виждам го като игра на котка и мишка от технологична гледна точка“, каза той. „Не мисля, че казването „разрешаване“ е правилният начин да се погледне на това. Предоставянето на хората на инструмент, който може да им помогне да разберат определени неща за дадена статия, е част от решението. Това решение биха били инструменти, които могат да ви помогнат да прецените нещата сами, да останете образовани като активен гражданин, да разбирате нещата и да четете между редовете. Не мисля, че единствено технологично решение може да се приложи към този проблем, защото много зависи от хората и от това как те виждат нещата.
Препоръки на редакторите
- Алгоритъмът превъзхожда хората при разпознаване на фалшиви новини