Коли Snapchat вперше представили як частину машинобудівного класу Стенфордського університету, нажаханий асистент викладача відкрито задавався питанням, чи творці програми створили додаток для розсилки секс-файлів. Менш ніж через десятиліття Snapchat може допомогти вирішити одну з найбільших проблем, з якими зараз стикаються технології: зупинити поширення «фейкових новин» в Інтернеті.
Зміст
- Сигнал для фейкових новин?
- Гра в кішки-мишки на віки
З цією метою Snap Research — дослідницький підрозділ Snap, Inc. — нещодавно пожертвував кошти на проект Каліфорнійського університету в Ріверсайді, спрямований на пошук нового способу виявлення фейкових новин в Інтернеті. The алгоритм, розроблений UC Riverside повідомляється, що він здатний виявляти фейкові новини з вражаючим рівнем точності до 75 відсотків. Завдяки підтримці Snap вони сподіваються покращити це.
Рекомендовані відео
«Наскільки я розумію, вони дуже зацікавлені в тому, щоб добре зрозуміти, як можна зрозуміти цю проблему — і зрештою її вирішити».
«Snap — не одна з перших компаній, яка прийшла б на думку з огляду на [цю проблему]», Вагеліс Папалексакіс, доцент кафедри комп’ютерних наук та інженерії UC Riverside, розповів Digital Trends. «Тим не менш, Snap — це компанія, яка обробляє контент. Наскільки я розумію, вони дуже зацікавлені в тому, щоб добре зрозуміти, як можна зрозуміти цю проблему — і остаточно її вирішити».
Те, що відрізняє дослідження Каліфорнійського університету в Ріверсайді від десятків, можливо, навіть сотень інших дослідницьких проектів, які намагаються розірвати цикл фейкових новин, полягає в амбіціях проекту. Це не простий блокувальник ключових слів і не спрямований на загальну заборону певних URL-адрес. І, мабуть, найцікавіше, його особливо не цікавлять факти, які містяться в історіях. Це відрізняє його від веб-сайтів із перевіркою фактів, таких як Snopes, які покладаються на людський внесок і оцінку замість справжньої автоматизації.
«Я не дуже довіряю людським анотаціям», — сказав Папалексакіс. «Не тому, що я не довіряю людям, але ця проблема за своєю суттю складна, щоб отримати остаточну відповідь. Наша мотивація для цього полягає в тому, що ми запитуємо, скільки ми можемо зробити, дивлячись лише на дані, і чи можемо ми використовувати якомога менше людських анотацій — якщо вони взагалі є».
Сигнал для фейкових новин?
Новий алгоритм розглядає якомога більше «сигналів» із новин і використовує це, щоб спробувати класифікувати достовірність статті. Папалексакіс сказав: «Хто поділився статтею? Які хештеги вони використовували? Хто це написав? З якої новинної організації це? Як виглядає веб-сторінка? Ми намагаємося з’ясувати, які фактори [важливі] і наскільки вони впливають».
Наприклад, хештег #LockHerUp сам по собі не обов’язково підтверджує, що стаття є фейковою новиною. Однак, якщо людина додає цей суфікс, коли ділиться статтею в Twitter, це може свідчити про певний нахил до історії. Додайте достатню кількість цих підказок разом, і ідея полягає в тому, що окремі шматки складуть одне ціле, що розкриває. Іншими словами, якщо він ходить як качка і крякає як качка, швидше за все, це качка. Або, в даному випадку, російський бот-качка, що перевалюється, крякає, альт-право.
«Ми зацікавлені в тому, щоб зрозуміти, що відбувається на ранній стадії, і як ми можемо позначити щось на ранніх етапах, перш ніж воно почне «заражати» мережу», — продовжив Папалексакіс. «Наразі це наш інтерес: розібратися, що ми можемо витягнути зі змісту та контексту конкретної статті».
Алгоритм, розроблений групою Папалексакіса, використовує так звану тензорну декомпозицію для аналізу різних потоків інформації про новинну статтю. Тензори — це багатовимірні куби, корисні для моделювання та аналізу даних, які містять багато різних компонентів. Тензорна декомпозиція дає змогу виявити закономірності в даних, розбиваючи тензор на елементарні фрагменти інформації, що представляють певний шаблон або тему.
«Навіть смішно мала кількість анотованих статей може привести нас до дійсно дуже високого рівня точності»
Алгоритм спочатку використовує тензорну декомпозицію для представлення даних таким чином, щоб групувати разом можливі фейкові новини. Потім другий рівень алгоритму з’єднує статті, які вважаються близькими одна до одної. Відображення зв’язку між цими статтями базується на принципі, який називається «вина за асоціацією», припускаючи, що зв’язки між двома статтями означають, що вони, швидше за все, будуть схожі на одну інший.
Після цього до графіків застосовується машинне навчання. Цей «напівконтрольований» підхід використовує невелику кількість статей, які були класифіковані користувачами, а потім застосовує ці знання до значно більшого набору даних. Незважаючи на те, що на певному рівні це все ще залучає людей, воно потребує менше людських анотацій, ніж більшість альтернативних методів класифікації потенційних фейкових новин. 75-відсотковий рівень точності, рекламований дослідниками, базується на правильному фільтруванні двох загальнодоступних наборів даних і додатковій колекції з 63 000 новинних статей.
«Навіть смішно мала кількість анотованих статей може привести нас до дійсно дуже високого рівня точності», — сказав Папалексакіс. «Набагато вище, ніж мати систему, де ми намагаємося охопити окремі особливості, наприклад лінгвістику чи інші речі, які люди можуть вважати дезінформацією».
Гра в кішки-мишки на віки
З точки зору інформатики легко зрозуміти, чому ця робота сподобалася Вагелісу Папалексакісу та іншим дослідникам з UC Riverside, а також людям із Snapchat. Можливість не лише відрізнити фейкові новини від справжніх, але й відрізнити упереджені статті від серйозної журналістики чи сатиричні статті з Цибуля це головоломка великих даних, про яку мріють інженери.
Однак більшим питанням є те, як використовуватиметься цей алгоритм і чи зможе він зрештою допомогти подолати феномен фейкових новин.
Внесок Snap у проект (а це «подарунок» у розмірі 7000 доларів США та додаткова нефінансова підтримка) не гарантує, що компанія запровадить цю технологію в комерційному продукті. Але Папалексакіс сказав, що сподівається, що дослідження врешті-решт «приведе до певного перенесення технологій на платформу».
Кінцевою метою, пояснив він, є розробка системи, здатної надати будь-якій статті оцінку надійності. Теоретично такий бал можна використовувати для фільтрації фейкових новин ще до того, як користувач матиме шанс побачити їх.
Це дуже схожа ідея на спам-фільтри електронної пошти з машинним навчанням, які також застосовують систему оцінки на основі таких факторів, як співвідношення зображення та тексту в тілі повідомлення. Однак Папалексакіс припустив, що кращим підходом може бути просто попередження користувачів про це історії, які мають високі оцінки в категорії можливих фейків — «а потім дозвольте користувачеві вирішити, що з ним робити це».
Однією з вагомих причин цього є той факт, що новини не завжди так чітко поділяються на спам і спам. категорії шинки, як це робить електронна пошта. Звичайно, деякі статті можуть бути відвертою вигадкою, але інші можуть бути більш сумнівними: вони не містять прямої брехні, але, тим не менш, спрямовані на те, щоб вести читача в одному певному напрямку. Видалення цих статей, навіть якщо ми можемо виявити, що думки суперечать нашим власним, потрапляє на складнішу територію.
«Це потрапляє в сіру зону», — продовжив Папалексакіс. «Це добре, якщо ми можемо класифікувати це як дуже упереджену статтю. Існують різні категорії того, що ми можемо назвати дезінформацією. [Сильно упереджена стаття] може бути не такою поганою, як відверта неправдива стаття, але вона все одно продає певну точку зору читачеві. Це більше нюансів, ніж підробка проти. не підробка».
Зрештою, незважаючи на бажання Папалексакіса розробити систему, яка вимагає мінімального контролю, можливо, він визнає, що це виклик, який повинен включати як людей, так і машини.
«Я сприймаю це як гру в кішки-мишки з технологічної точки зору», — сказав він. «Я не думаю, що говорити «вирішити це» — це правильний погляд на це. Частиною рішення є надання людям інструменту, який може допомогти їм зрозуміти певні речі про статтю. Це рішення стане інструментом, який допоможе вам судити про речі самостійно, залишатися освіченим як активний громадянин, розуміти речі та читати між рядків. Я не думаю, що до цієї проблеми можна застосувати виключно технологічне рішення, тому що багато чого залежить від людей і від того, як вони бачать речі».
Рекомендації редакції
- Алгоритм перевершує людей у виявленні фейкових новин