В Интернете существует проблема с разжиганием ненависти.
Содержание
- Это работа для автоматизации. Вроде
- Усугубление проблемы, а не улучшение
- Война на два фронта
- Постоянная задача
- Будущее дискурса в Интернете
Зайдите в любой раздел комментариев YouTube или просмотрите социальные сети хотя бы на короткое время, и вы не обнаружите недостатка в оскорбительных, часто предвзятых комментариях. Но как решить эту проблему? И как при этом избежать случайного ухудшения ситуации?
В этом месяце два ИИ, ищущих разжигание ненависти, были объявлены алгоритмы: один создан в Великобритании, другой в США. Оба однажды могут быть использованы. просматривать социальные сети или другие области онлайн-мира и выделять разжигание ненависти или оскорбительные высказывания, чтобы на них можно было пожаловаться, удалить или заблокировать.
Рекомендуемые видео
Первый из них, разработанный исследователями из британского Эксетерского университета, представляет собой инструмент по имени Лола который использует «последние достижения в области обработки естественного языка и поведенческой теории» для сканирования тысяч сообщений в минуту, чтобы выявить ненавистнический контент. «Уровень точности является выдающимся по сравнению с существующими решениями на рынке»,
Доктор Дэвид Лопес, один из создателей Лолы, рассказал Digital Trends.Во-вторых, работа исследователи из Университета Южной Калифорнии, утверждает, что способен на нечто подобное. «Разработанный нами алгоритм представляет собой классификатор текста, который берет сообщения в социальных сетях (или, возможно, другой текст) и предсказывает, содержит ли текст разжигание ненависти или нет», Брендан Кеннеди, доктор компьютерных наук. студент, работавший над проектом, рассказал Digital Trends.
Это работа для автоматизации. Вроде
Чтобы понять, почему необходимо обращаться к автоматизированным решениям для решения этой самой человеческой проблемы, важно понимать масштабы социальных сетей. Каждую секунду в день отправляется в среднем 6000 твитов. Это соответствует 350 000 твитов в минуту, 500 миллионам твитов в день или 200 миллиардам твитов в год. На Фейсбук, около 35 миллионов человек обновляют свои статусы ежедневно.
Даже для хорошо укомплектованных технических гигантов эти цифры не позволяют модераторам-людям самостоятельно осуществлять необходимую модерацию. Такие решения необходимо принимать очень быстро, не только для того, чтобы быть в курсе нового контента, генерируемого каждую минуту, но и для того, чтобы определенные сообщения не видели большое количество пользователей. Хорошо разработанные алгоритмы — единственный практический способ решения этой проблемы.
«Каждую секунду в день отправляется в среднем 6000 твитов. Это соответствует 350 000 твитов в минуту, 500 миллионам твитов в день или 200 миллиардам твитов в год».
Используя машинное обучение, можно — по крайней мере теоретически — разработать инструменты, которые можно обучить выявлять разжигание ненависти или оскорбительные высказывания, чтобы их можно было удалить или сообщить о них. Но это непросто. Язык ненависти – это широкий и спорный термин. Попытки определить его юридически или даже неформально среди людей оказываются трудными. Некоторые примеры языка ненависти могут быть настолько очевидными, что никто не сможет их оспорить. Но другие случаи могут быть более тонкими; тип действий, скорее всего, будет классифицирован как «микроагрессия». Как известно, судья Верховного суда США Поттер Стюарт сказал о непристойности: «Я узнаю это, когда увижу».
«Существует много типов языка ненависти и оскорбительных выражений», — сказал Кеннеди Digital Trends. «Некоторые высказывания, разжигающие ненависть, легко заметить — например, оскорбления. Но большая часть разжигания ненависти риторически сложна, демонизирует и дегуманизирует посредством метафор, культурно-специфичных стереотипов и «собачьих свистков».
Усугубление проблемы, а не улучшение
Предыдущая охота за разжиганием ненависти A.I. инструменты оказались неэффективными, поскольку они являются слишком грубыми инструментами для выявления более сложных примеров предубеждений в Интернете. Плохо разработанные алгоритмы обнаружения разжигания ненависти не только не останавливают разжигание ненависти в Интернете, но и на самом деле было показано, что они усиливают такие вещи, как расовая предвзятость, блокируя неоскорбительные твиты, отправленные меньшинством. группы. Это может быть что-то простое, например, тот факт, что классификаторы разжигания ненависти слишком чувствительны к таким терминам, как «Черный», «гей» или «трансгендер», которые в некоторых случаях могут с большей вероятностью ассоциироваться с контентом, разжигающим ненависть. настройки.
Точно так же, как печально известный чат-бот Tay от Microsoft, который научился расистское поведение после взаимодействия с пользователямиКлассификаторы, обученные на исходных текстовых данных социальных сетей, могут в конечном итоге сильно полагаться на определенные слова, игнорируя или не осознавая их окружающий контекст.
с
Способность лучше анализировать онлайн-сообщения в контексте — вот что предлагают два новых ИИ. системы обнаружения обещают. Британская система Lola утверждает, что способна анализировать 25 000 сообщений в минуту для выявления вредоносного поведения, включая киберзапугивание, ненависть и исламофобию, с точностью до 98%. Частично это касается не только ключевых слов, но и использования «механизма обнаружения эмоций», чтобы определить, какие эмоции вызываются в тексте — будь то любовь, гнев, страх, доверие или другие.
Тем временем Университет Южной Калифорнии А.И. Система обнаружения обещает учитывать не только содержание, но и контекст.
«Нашей отправной точкой в этом исследовании является стандартный метод, который кодирует последовательности текстовых токенов в числовые векторы, которые [затем] используются для вероятностного вывода метки класса «ненависть» или «нет ненависти», — Брэндон сказал. «Используя алгоритм «апостериорного объяснения», разработанный членами нашей команды, мы запрограммировали разжигание ненависти. классификаторы, чтобы придать меньшее значение идентификаторам групп и большее значение контексту, окружающему группу. идентификаторы».
Система была протестирована путем анализа статей с веб-сайта Stormfront, выступающего за превосходство белой расы, и более нейтрального репортажа New York Times. Его создатели утверждают, что он способен отделять контент, содержащий ненависть, от контента, не содержащего ненависти, с точностью 90%.
Война на два фронта
Однако не только независимые исследователи разрабатывают инструменты для выявления разжигания ненависти. Социальные сети также работают над решением этой проблемы.
«Сейчас мы удаляем 10 миллионов штук разжигание ненависти в квартал», — рассказал Digital Trends Амит Бхаттачарья, директор по управлению продуктами в группе по обеспечению целостности сообщества Facebook. «Из них около 90% было обнаружено до того, как пользователи сообщили нам об этом. Мы вложили больше средств — и стали лучше — в активное обнаружение потенциально нарушающего контента, включая разжигание ненависти».
Методы обнаружения Facebook, объяснил Бхаттачарья, сосредоточены на таких вещах, как сопоставление текста и изображений, при котором ищет изображения и идентичные строки текста, которые уже были удалены как разжигание ненависти в другом месте на сайте. Платформа. Он также использует классификаторы машинного обучения, которые анализируют язык и другие типы контента. У Facebook также есть дополнительные данные, поскольку он может посмотреть на реакции и комментарии к публикации, чтобы увидеть, как они точно соответствуют общим фразам, шаблонам и атакам, встречавшимся ранее в контенте, нарушающем разжигание ненависти. политики.
«Борьба с оскорбительным поведением в Интернете не обязательно должна быть реактивной. Это также может быть проактивным».
Twitter также использует инструменты машинного обучения для борьбы с разжигающим ненависть контентом. Частично это основано на ключевых словах, но Twitter дополнительно анализирует поведение пользователей, чтобы попытаться определить, насколько им комфортно при взаимодействии. Например, пользователь, который пишет твит другому пользователю и получает ответ, а затем отслеживается, будет рассматриваться иначе, чем тот, кто неоднократно пишет твиты непосредственно другому пользователю, но его игнорируют или блокируют. Эта поведенческая динамика может помочь выявить модели преследования или нежелательного целевого поведения, которые Twitter затем может использовать, чтобы лучше понять содержание того, что происходит на его платформе.
Однако представитель Twitter сообщил Digital Trends, что сообщения, помеченные как оскорбительные, проверяются вручную. людьми (в машинном порядке), чтобы определить, что они были правильно идентифицированы как такой.
Постоянная задача
Бхаттачария из Facebook заявил, что за эти годы социальная сеть добилась «большого прогресса» в борьбе с разжиганием ненависти на своих платформах, и что ее команда гордится своими достижениями. В то же время Бхаттачарья сказал: «Наша работа никогда не будет завершена, и мы знаем, что, возможно, никогда не сможем предотвратить появление каждого фрагмента разжигающего ненависть контента на наших платформах».
Печальная реальность заключается в том, что разжигание ненависти в Интернете, вероятно, никогда не будет решено как проблема. По крайней мере, не без того, чтобы люди внесли изменения. Интернет может, в ущерб себе, усилить определенные человеческие голоса, а также внедрить и систематизировать определенные человеческие предрассудки, но это потому, что это всего лишь человечество в целом. Какие бы проблемы ни существовали в реальном мире, они в определенной степени проникнут и в онлайн-мир.
Тем не менее, борьба с оскорбительным поведением в Интернете не обязательно должна быть реактивной. Это также может быть проактивным. Например, представитель Twitter, беседовавший с Digital Trends, отметил, что из пользователей, учетные записи которых были заблокированы на 12 часов из-за нарушений правил, большинство снова совершают правонарушения. Это говорит о том, что могут возникнуть обучающие моменты. Независимо от того, действительно ли они побуждают пользователей пересмотреть свое поведение или просто запрещают им нарушать правила, это, тем не менее, снижает количество неприятных нарушений правил на платформе.
Представитель также сообщил, что Twitter сейчас изучает систему, основанную на «подталкивании». Это будет предлагать подсказки перед тем, как пользователи начнут писать твиты, предупреждая их о том, что то, что они собираются опубликовать, может противоречить правилам Твиттера. Это может быть из-за определенного ключевого слова. Когда вы делитесь статьей, которую вы не открывали, через Twitter, также может появиться предупреждение. Эта система подталкивания недавно была протестирована на небольшом количестве пользователей. Хотя пробная версия уже завершена, существует вероятность, что в будущем ее можно будет распространить как функцию для всех пользователей.
Будущее дискурса в Интернете
Вопрос о разжигании ненависти и других оскорбительных высказываниях в социальных сетях станет еще более актуальным. Во Франции, например, закон был принят в мае это требует удаления определенного криминального контента из социальных сетей в течение часа. В противном случае компаниям социальных сетей, о которых идет речь, грозит штраф в размере до 4% от их глобального дохода. Другой «явно противозаконный» контент должен быть удален в течение 24 часов. Министр юстиции Николь Беллубе заявила французскому парламенту, что закон поможет сократить разжигание ненависти в Интернете.
Насколько нам известно, ни один такой закон серьезно не предлагался в Соединенных Штатах. Но поскольку социальные сети становятся все более крупной и влиятельной частью нашего общения, борьба с токсичным поведением будет становиться все более важной. Это не проблема, которую могут решить исключительно модераторы. Но это также то, что, когда оно осуществляется с использованием ИИ, должно быть сделано осторожно — не только для того, чтобы гарантировать, что это улучшит проблему, но и для того, чтобы гарантировать, что это не усугубит ее.
От этого зависит будущее дискурса в Интернете.
Рекомендации редакции
- Как А.И. создал потрясающий ролик о спортивных событиях, от просмотра которого невозможно оторваться