Люди не можуть поодинці зупинити ворожі висловлювання в Інтернеті. Нам потрібні боти, щоб допомогти

Джон Тайсон

В Інтернеті є проблема мови ненависті.

Зміст

  • Це робота для автоматизації. Типу
  • Погіршує проблему, а не покращує
  • Війна на два фронти
  • Постійний виклик
  • Майбутнє дискурсу в Інтернеті

Перейдіть до будь-якого розділу коментарів на YouTube або пошукайте соціальні мережі навіть на короткий проміжок часу, і ви не знайдете недоліку в образливих, часто упереджених коментарях. Але як вирішити цю проблему? І, роблячи це, як уникнути випадкового погіршення ситуації?

Цього місяця двоє шукачів мови ворожнечі А.І. були оголошені алгоритми: один створений у Сполученому Королівстві, інший у США. Обидва одного дня можна буде використовувати переглядати соціальні медіа чи інші області онлайн-світу та висвітлювати ворожнечу чи образливу мову, щоб про це можна було повідомити, видалити або заблокувати.

Рекомендовані відео

Перший, розроблений дослідниками з Ексетерського університету Великобританії, — це a інструмент на ім'я Лола який використовує «останні досягнення в обробці природної мови та теорії поведінки», щоб сканувати тисячі повідомлень за хвилину, щоб виявити ненависний вміст. «Рівень точності надзвичайний порівняно з існуючими на ринку рішеннями»,

Доктор Девід Лопес, один із творців Лоли, розповів Digital Trends.

Друге, робота в дослідники Університету Південної Каліфорнії, стверджує, що здатний на щось подібне. «Алгоритм, який ми розробили, — це класифікатор тексту, який бере дописи в соціальних мережах — або потенційно інший текст — і передбачає, чи містить текст мову ненависті чи ні», Брендан Кеннеді, кандидат інформатики. Студент, який працював над проектом, розповів Digital Trends.

Це робота для автоматизації. Типу

Щоб зрозуміти, чому необхідно вдатися до автоматизованих рішень для вирішення цієї найлюдськішої проблеми, дуже важливо розуміти величезний масштаб соціальних мереж. Кожну секунду дня надсилається в середньому 6000 твітів. Це дорівнює 350 000 твітів на хвилину, 500 мільйонів твітів на день або 200 мільярдів твітів на рік. Увімкнено Facebook, приблизно 35 мільйонів людей щодня оновлюють свої статуси.

Навіть для добре укомплектованих технічних гігантів ці цифри роблять модераторами-людьми неможливими виконувати необхідну модерацію самостійно. Такі рішення потрібно приймати дуже швидко, щоб не лише бути в курсі нового контенту, який генерується щомиті, але й для того, щоб певні повідомлення не бачили велика кількість користувачів. Добре розроблені алгоритми є єдиним практичним способом вирішення цієї проблеми.

«Кожну секунду дня надсилається в середньому 6000 твітів. Це дорівнює 350 000 твітів на хвилину, 500 мільйонів твітів на день або 200 мільярдів твітів на рік».

Використовуючи машинне навчання, можна — принаймні теоретично — розробити інструменти, які можна навчити виявляти ненависті чи образливі висловлювання, щоб їх можна було видалити або повідомити про них. Але це нелегко. Мова ворожнечі – це широкий і спірний термін. Спроби визначити це юридично чи навіть неофіційно серед людей виявляються складними. Деякі приклади мови ненависті можуть бути настільки явними, що ніхто не може їх оскаржити. Але інші випадки можуть бути більш тонкими; тип дій, швидше за все, буде класифікуватися як «мікроагресія». Як сказав суддя Верховного суду Сполучених Штатів Поттер Стюарт про непристойність: «Я знаю це, коли бачу це».

«Є багато типів мови ненависті [і] образливої ​​лексики», — сказав Кеннеді Digital Trends. «Деякі мови ворожнечі легко позначити — наприклад, образи. Але більшість ненависті є риторично складною, демонізуючою та дегуманізуючою через метафори, культурно-специфічні стереотипи та «собачі свистки».

Погіршує проблему, а не покращує

Попереднє полювання на мову ворожнечі А.І. інструменти виявилися неефективними, оскільки вони є надто грубим інструментом для виявлення складніших прикладів упередженого ставлення в Інтернеті. Погано розроблені алгоритми виявлення ворожих висловлювань, далекі від того, щоб зупинити ворожі висловлювання в Інтернеті фактично було показано, що посилює такі речі, як расові упередження, блокуючи необразливі твіти, надіслані меншинами групи. Це може бути щось таке просте, як той факт, що класифікатори мови ворожнечі надто чутливі до таких термінів «Чорношкірий», «гей» або «трансгендер», який, швидше за все, асоціюється з вмістом, що пропагує ненависть, у деяких налаштування.

Так само, як сумнозвісний чат-бот Microsoft Tay, який навчився расистська поведінка після спілкування з користувачами, класифікатори, які навчаються на оригінальних текстових даних соціальних медіа, можуть сильно покладатися на конкретні слова, ігноруючи або не знаючи навколишнього контексту.

с

Два нових A.I. системи виявлення обіцяють. Британська система Lola стверджує, що здатна аналізувати 25 000 повідомлень за хвилину, щоб виявити шкідливу поведінку, включаючи кіберзалякування, ненависть та ісламофобію, з точністю до 98%. Частина цього полягає не лише в аналізі ключових слів, а й у використанні «механізму виявлення емоцій», щоб визначити, які емоції викликані в тексті — будь то любов, гнів, страх, довіра чи інші.

Тим часом Університет Південної Каліфорнії А.І. система виявлення обіцяє розглядати контекст, а також вміст.

«Нашою відправною точкою в цьому дослідженні є стандартний метод, який кодує послідовності текстових токенів у числові вектори, які [потім] використовуються для імовірнісного виведення мітки класу «ненависть» або «без ненависті», Брендон сказав. «Використовуючи алгоритм «позапланового пояснення», розроблений членами нашої команди, ми запрограмували мову ворожнечі класифікатори, щоб надавати менше значення ідентифікаторам груп і більше значення контексту, що оточує групу ідентифікатори».

Систему перевірили шляхом аналізу статей із веб-сайту Stormfront, який прихильник переваги білої раси, і більш нейтральних репортажів New York Times. Його творці стверджують, що він здатний відрізнити ненависть від ненависті з рівнем точності 90%.

Війна на два фронти

Однак не лише незалежні дослідники розробляють інструменти для виявлення мови ненависті. Над вирішенням цієї проблеми працюють і соціальні мережі.

«Зараз ми знімаємо 10 мільйонів штук мова ненависті чверть», — сказав Digital Trends Аміт Бхаттачарія, директор із управління продуктами групи доброчесності спільноти Facebook. «З них близько 90% було виявлено до того, як користувачі повідомили нам про це. Ми інвестували більше в — і стали кращими — в проактивне виявлення потенційно порушливого вмісту, включно з ворожими висловлюваннями».

Методи виявлення Facebook, пояснив Бхаттачарія, зосереджені на таких речах, як збіг тексту та зображення, у якому шукає зображення та ідентичні рядки тексту, які вже були видалені як ворожі висловлювання в інших місцях платформа. Він також використовує класифікатори машинного навчання, які аналізують мову та інші типи вмісту. Facebook також має додаткові точки даних, оскільки він може дивитися на реакцію та коментарі до публікації, щоб зрозуміти, як це зробити вони точно відповідають загальним фразам, шаблонам і атакам, які раніше спостерігалися у вмісті, який порушує його мову ненависті політики.

«Припинення образливої ​​поведінки в Інтернеті не повинно бути реакцією. Це також може бути проактивним».

Twitter також використовує інструменти машинного навчання для боротьби з ненависницьким контентом. Деякі з них засновані на ключових словах, але Twitter додатково аналізує поведінку користувачів, щоб спробувати визначити, наскільки комфортно користувачам взаємодіяти. Наприклад, користувач, який твітить іншому користувачеві, йому відповідають, а потім слідкують за ним, сприйматиметься інакше, ніж той, хто постійно твітить іншу особу, але його ігнорують або блокують. Ця динаміка поведінки може допомогти виявити моделі домагань або небажаної цілеспрямованої поведінки, які Twitter може використовувати для кращого розуміння змісту того, що відбувається на його платформі.

Однак представник Twitter повідомив Digital Trends, що повідомлення, позначені як образливі, перевіряються вручну людьми (у машинному порядку), щоб визначити, чи їх правильно визначено як такий.

Постійний виклик

Бхаттачарія з Facebook сказав, що за ці роки соціальна мережа досягла «великого прогресу» у стримуванні ненависті на своїх платформах і що її команда пишається тим, чого вона досягла. У той же час Бхаттачарія сказав: «Наша робота ніколи не завершується, і ми знаємо, що, можливо, ніколи не зможемо запобігти появі кожного фрагмента ненависті на наших платформах».

Сумна реальність полягає в тому, що мова ненависті в Інтернеті, ймовірно, ніколи не буде вирішена як проблема. Принаймні, не без людей, які внесли зміни. Інтернет може, на шкоду собі, посилювати певні людські голоси, впроваджувати й кодифікувати певні людські упередження, але це тому, що це просто людство загалом. Будь-які проблеми, які існують у реальному світі, певною мірою проникнуть у світ онлайн.

Трамп із стилізованим зображенням логотипів Facebook і Twitter
Getty Images/Digital Trends Graphic

Тим не менш, боротьба з образливою поведінкою в Інтернеті не обов’язково має бути реактивною. Це також може бути проактивним. Наприклад, представник Twitter, який спілкувався з Digital Trends, зазначив, що серед користувачів, облікові записи яких заблоковано на 12 годин через порушення правил, більшість знову ображають. Це свідчить про те, що можуть виникнути навчальні моменти. Незалежно від того, чи дійсно вони спонукають користувачів переглянути свою поведінку, чи просто перешкоджають їм поводитися таким чином, що порушує правила, це все одно зменшує негативну поведінку, яка порушує правила на платформі.

Прес-секретар також сказав, що Twitter зараз вивчає систему на основі «підштовхування». Це пропонуватиме підказки перед тим, як користувачі напишуть твіт, попереджаючи їх про те, що те, що вони збираються опублікувати, може суперечити правилам Twitter. Це може бути через певне ключове слово. Коли ви ділитеся статтею, яку ви не відкривали через Twitter, вона також може запропонувати попередження. Цю систему підштовхування нещодавно перевірили невеликою кількістю користувачів. Хоча випробування завершилося, існує ймовірність, що в майбутньому його можна буде розгорнути як функцію для всіх користувачів.

Майбутнє дискурсу в Інтернеті

Питання мови ненависті та інших образливих висловлювань у соціальних мережах стає лише гострішим. У Франції, наприклад, а Закон був прийнятий у травні який вимагає видалення певного кримінального контенту з соціальних мереж протягом години. Якщо це не так, відповідні соціальні медіа-компанії зіткнуться зі штрафом у розмірі до 4% їхнього світового доходу. Інший «явно незаконний» вміст має бути видалено протягом 24 годин. Міністр юстиції Ніколь Беллубе заявила французькому парламенту, що закон допоможе зменшити висловлювання ненависті в Інтернеті.

Наскільки нам відомо, у Сполучених Штатах серйозно не пропонувалося такого закону. Але оскільки соціальні мережі стають дедалі більшою та впливовою частиною нашого спілкування, боротьба з токсичною поведінкою ставатиме все більш важливою. Це не проблема, яку можуть вирішити лише люди-модератори. Але це також те, що, коли це здійснюється за допомогою штучного інтелекту, потрібно робити обережно — не лише для того, щоб переконатися, що це покращить проблему, але й щоб гарантувати, що це не погіршить її.

Від цього залежить майбутнє дискурсу в Інтернеті.

Рекомендації редакції

  • Як А.І. створив дивовижну спортивну відеоролик, який неможливо перестати дивитися

Категорії

Останні