Когда Snapchat впервые был представлен в рамках курса машиностроения в Стэнфорде, испуганный ассистент курса открыто задался вопросом, создали ли создатели приложения приложение для секстинга. Менее чем через десять лет Snapchat может помочь решить одну из самых больших проблем, с которыми в настоящее время сталкиваются технологии: остановить распространение «фейковых новостей» в Интернете.
Содержание
- Сигнал для фейковых новостей?
- Игра в кошки-мышки на века
Помня об этой цели, Snap Research — исследовательское подразделение Snap, Inc. — недавно пожертвовал финансирование проекту Калифорнийского университета в Риверсайде, целью которого является найти новый способ обнаружения фейковых новостей в Интернете. алгоритм, разработанный Калифорнийским университетом в Риверсайде как сообщается, способен обнаруживать фейковые новости с впечатляющим уровнем точности до 75 процентов. При поддержке Snap они надеются улучшить ситуацию.
Рекомендуемые видео
«Насколько я понимаю, они очень заинтересованы в том, чтобы хорошо понять, как можно понять эту проблему — и в конечном итоге решить ее».
«Snap — не одна из первых компаний, которая приходит на ум, учитывая [эту проблему]», Вагелис Папалексакис, доцент кафедры компьютерных наук и инженерии Калифорнийского университета в Риверсайде, рассказал Digital Trends. «Тем не менее, Snap — это компания, которая занимается контентом. Насколько я понимаю, они очень заинтересованы в том, чтобы хорошо понять, как можно понять эту проблему — и в конечном итоге решить ее».
Что отличает исследования Калифорнийского университета в Риверсайде от десятков, а может быть, даже сотен других исследовательских проектов, пытающихся разорвать порочный круг фейковых новостей, так это амбиции проекта. Это не простой блокировщик ключевых слов, и он не направлен на полный запрет определенных URL-адресов. И, что, пожалуй, самое интересное, его не особенно интересуют факты, содержащиеся в рассказах. Это отличает его от сайтов проверки фактов, таких как Snopes, которые полагаются на человеческий вклад и оценку, а не на настоящую автоматизацию.
«Я не очень доверяю человеческим аннотациям», — сказал Папалексакис. «Не потому, что я не доверяю людям, но потому, что получить однозначный ответ на эту проблему по своей сути сложно. Наша мотивация для этого исходит из вопроса, как много мы можем сделать, глядя только на данные, и можем ли мы использовать как можно меньше человеческих аннотаций — если таковые вообще имеются».
Сигнал для фейковых новостей?
Новый алгоритм рассматривает как можно больше «сигналов» из новостной статьи и использует их, чтобы попытаться классифицировать достоверность статьи. Папалексакис сказал: «Кто поделился статьей? Какие хештеги они использовали? Кто это написал? Из какой новостной организации оно? Как выглядит веб-страница? Мы пытаемся выяснить, какие факторы [имеют значение] и какое влияние они оказывают».
Например, хэштег #LockHerUp сам по себе не обязательно подтверждает, что статья является фейковой новостью. Однако если человек добавляет этот суффикс, когда делится статьей в Твиттере, это может указывать на определенный уклон истории. Сложите достаточное количество этих подсказок вместе, и идея состоит в том, что отдельные части складываются в единое целое. Другими словами, если оно ходит как утка и крякает как утка, скорее всего, это утка. Или, в данном случае, ковыляющий, крякающий, альтернативно-правый бот-утка.
«Наш интерес состоит в том, чтобы понять, что происходит на ранних стадиях, и как мы можем пометить что-то на ранних стадиях, прежде чем оно начнет «заражать» сеть», — продолжил Папалексакис. «На данный момент это наш интерес: выяснить, что мы можем выжать из содержания и контекста конкретной статьи».
Алгоритм, разработанный группой Папалексакиса, использует так называемую тензорную декомпозицию для анализа различных потоков информации о новостной статье. Тензоры — это многомерные кубы, полезные для моделирования и анализа данных, состоящих из множества различных компонентов. Тензорная декомпозиция позволяет обнаруживать закономерности в данных, разбивая тензор на элементарные фрагменты информации, представляющие конкретную закономерность или тему.
«Даже смехотворно небольшое количество аннотированных статей может привести нас к очень, очень высокому уровню точности»
Алгоритм сначала использует тензорное разложение для представления данных таким образом, чтобы группировать возможные фейковые новости. Затем второй уровень алгоритма соединяет статьи, которые считаются близкими друг к другу. Установление связи между этими статьями основано на принципе, называемом «вина по ассоциации». предполагая, что связи между двумя статьями означают, что они с большей вероятностью будут похожи на одну другой.
После этого к графикам применяется машинное обучение. Этот «полуконтролируемый» подход использует небольшое количество статей, которые пользователи классифицируют, а затем применяет эти знания к гораздо большему набору данных. Хотя на каком-то уровне в этом по-прежнему участвуют люди, в нем задействовано меньше человеческих комментариев, чем в большинстве альтернативных методов классификации потенциальных фейковых новостей. Уровень точности в 75 процентов, о котором говорят исследователи, основан на правильной фильтрации двух общедоступных наборов данных и дополнительной коллекции из 63 000 новостных статей.
«Даже смехотворно небольшое количество аннотированных статей может привести нас к очень, очень высокому уровню точности», — сказал Папалексакис. «Намного выше, чем иметь систему, в которой мы пытались уловить отдельные особенности, такие как лингвистика, или другие вещи, которые люди могут посчитать дезинформативными».
Игра в кошки-мышки на века
С точки зрения информатики легко понять, почему эта работа может понравиться Вагелису Папалексакису и другим исследователям из Калифорнийского университета в Риверсайде, а также ребятам из Snapchat. Умение не только отличать фейковые новости от реальных, но и отличать предвзятые статьи от серьезной журналистики или сатирические статьи от Лук — это та головоломка, о которой мечтают инженеры по работе с большими данными.
Однако более серьезный вопрос заключается в том, как этот алгоритм будет использоваться — и сможет ли он в конечном итоге помочь в борьбе с феноменом фейковых новостей.
Вклад Snap в проект (который представляет собой «подарок» в размере 7000 долларов США и дополнительную нефинансовую поддержку) не гарантирует, что компания примет эту технологию в коммерческом продукте. Но Папалексакис выразил надежду, что исследование в конечном итоге «приведет к переносу некоторых технологий на платформу».
Конечная цель, пояснил он, состоит в том, чтобы разработать систему, способную обеспечить любой статье оценку надежности. Теоретически такая оценка может использоваться для фильтрации фейковых новостей еще до того, как пользователь сможет их увидеть.
Эта идея мало чем отличается от спам-фильтров электронной почты, основанных на машинном обучении, которые также применяют систему оценки, основанную на таких факторах, как соотношение изображения и текста в теле сообщения. Однако Папалексакис предположил, что предпочтительным подходом было бы просто предупреждать пользователей о таких истории, которые получили высокие баллы в категории «возможные фейки» — «а затем пусть пользователь сам решит, что делать с это."
Одной из веских причин для этого является тот факт, что новости не всегда четко делятся на спам и спам. категории радиолюбителей, как это делает электронная почта. Конечно, некоторые статьи могут быть откровенной выдумкой, но другие могут быть более сомнительными: не содержащими прямой лжи, но, тем не менее, призванными направить читателя в каком-то определенном направлении. Удаление этих статей, даже если мы можем обнаружить мнения, противоречащие нашим собственным, попадает в более неприятную ситуацию.
«Это попадает в серую зону», — продолжил Папалексакис. «Хорошо, если мы сможем отнести эту статью к категории сильно предвзятой. Существуют разные категории того, что мы могли бы назвать дезинформацией. [Сильно предвзятая статья] может быть не так плоха, как откровенно ложная статья, но она все равно продает читателю определенную точку зрения. Это более нюансировано, чем подделка против. не подделка."
В конечном счете, несмотря на желание Папалексакиса создать систему, которая бы использовала как можно меньше надзора, возможно, он признает, что это проблема, которая должна будет включать в себя как людей, так и машины.
«Я рассматриваю это как игру в кошки-мышки с технологической точки зрения», — сказал он. «Я не думаю, что сказать «решить эту проблему» — это правильный взгляд на эту проблему. Частью решения является предоставление людям инструмента, который поможет им понять конкретные моменты статьи. Этим решением могли бы стать инструменты, которые помогут вам судить о вещах самостоятельно, оставаться образованными как активный гражданин, понимать вещи и читать между строк. Я не думаю, что к этой проблеме можно применить исключительно технологическое решение, потому что многое зависит от людей и от того, как они видят вещи».
Рекомендации редакции
- Алгоритм превосходит людей в обнаружении фейковых новостей