Lidé nemohou zastavit online nenávistné projevy sami. Potřebujeme roboty, aby nám pomohli

Jon Tyson

Internet má problém s nenávistnými projevy.

Obsah

  • To je práce pro automatizaci. Druh
  • Zhoršení problému, ne zlepšení
  • Válka na dvou frontách
  • Pokračující výzva
  • Budoucnost diskurzu na internetu

Přejděte do kterékoli sekce komentářů na YouTube nebo sledujte sociální média i na krátkou dobu a nenajdete tu nouzi o urážlivé, často předpojaté komentáře. Jak ale tento problém vyřešit? A jak se přitom vyhnout náhodnému zhoršení situace?

Tento měsíc dva A.I. byly oznámeny algoritmy: Jeden vytvořený ve Spojeném království, druhý v USA. Oba by mohly být jednoho dne použity prohledávat sociální média nebo jiné oblasti online světa a zdůrazňovat nenávistné nebo urážlivé projevy, aby je bylo možné nahlásit, smazat nebo zablokovat.

Doporučená videa

První, vyvinutá výzkumníky z University of Exeter ve Spojeném království, je a nástroj s názvem Lola který využívá „nejnovější pokroky ve zpracování přirozeného jazyka a teorii chování“ k prohledávání tisíců zpráv za minutu, aby odhalil nenávistný obsah. „Úroveň přesnosti je vynikající ve srovnání se stávajícími řešeními na trhu,“

Dr. David Lopez, jeden z tvůrců Loly, řekl Digital Trends.

Druhá, práce vědci z University of Southern California, tvrdí, že je něčeho podobného schopen. „Algoritmus, který jsme vyvinuli, je textový klasifikátor, který přijímá příspěvky na sociálních sítích – nebo potenciálně jiný text – a předpovídá, zda text obsahuje nenávistné projevy či nikoli,“ Brendan Kennedy, Ph.D. student, který na projektu pracoval, řekl Digital Trends.

To je práce pro automatizaci. Druh

Abychom pochopili, proč je nutné obrátit se k automatizovaným řešením k vyřešení tohoto nejlidštějšího problému, je důležité porozumět naprostému rozsahu sociálních médií. Každou sekundu dne je odesláno v průměru 6 000 tweetů. To odpovídá 350 000 tweetům za minutu, 500 milionům tweetů denně nebo 200 miliardám tweetů ročně. Na Facebook, přibližně 35 milionů lidí denně aktualizuje svůj status.

Dokonce i pro dobře vybavené technologické giganty tato čísla znemožňují lidským moderátorům, aby provedli potřebné moderování sami. Taková rozhodnutí musí být učiněna velmi rychle, a to nejen proto, abychom měli přehled o novém obsahu generovaném každou chvíli, ale také proto, aby určité zprávy nevidělo velké množství uživatelů. Jediným praktickým způsobem řešení tohoto problému jsou dobře navržené algoritmy.

„Každou sekundu dne je odesláno v průměru 6 000 tweetů. To se rovná 350 000 tweetům za minutu, 500 milionům tweetů denně nebo 200 miliardám tweetů ročně.

Pomocí strojového učení je možné – alespoň teoreticky – vyvinout nástroje, které lze vycvičit k vyhledávání nenávistných nebo urážlivých projevů, aby je bylo možné smazat nebo nahlásit. Ale to není snadné. Nenávistné projevy jsou široký a sporný pojem. Pokusy o jeho legální nebo dokonce neformální vymezení mezi lidmi jsou obtížné. Některé příklady nenávistných projevů mohou být tak jasné, že je nikdo nemůže zpochybnit. Ale jiné případy mohou být jemnější; typ akcí, které budou pravděpodobně klasifikovány jako „mikroagrese“. Jak soudce Nejvyššího soudu Spojených států Potter Stewart o obscénnosti skvěle řekl: „Poznám to, když to vidím.

„Existuje mnoho typů nenávistných projevů [a] urážlivého jazyka,“ řekl Kennedy Digital Trends. „Některé projevy nenávisti lze snadno označit – například nadávky. Ale většina nenávistných projevů je rétoricky složitá, démonizuje a dehumanizuje prostřednictvím metafor, kulturně specifických stereotypů a ‚psích píšťal‘.“

Zhoršení problému, ne zlepšení

Předchozí nenávistné projevy A.I. nástroje se ukázaly jako neúčinné, protože jsou příliš tupým nástrojem na odhalování složitějších příkladů předsudků online. Špatně navržené algoritmy detekce nenávistných projevů mají daleko k tomu, aby zastavily nenávistné projevy online ve skutečnosti se ukázalo, že zesiluje věci, jako je rasová zaujatost, blokováním neurážlivých tweetů zasílaných menšinami skupiny. To by mohlo být něco tak jednoduchého jako skutečnost, že klasifikátory nenávistných projevů jsou přecitlivělé na výrazy jako „Černoši“, „gay“ nebo „transgender“, které mohou být pravděpodobněji spojovány s nenávistným obsahem v některých nastavení.

Stejně jako nechvalně známý chatbot společnosti Microsoft Tay, který se to naučil rasistické chování po interakci s uživateli, klasifikátoři, kteří jsou vyškoleni na původních textových datech sociálních médií, se mohou silně opírat o konkrétní slova a ignorovat okolní kontext nebo si ho neuvědomovat.

s

Schopnost lépe analyzovat online zprávy v kontextu je to, co dva nové A.I. detekční systémy slibují. Britský systém Lola tvrdí, že je schopen analyzovat 25 000 zpráv za minutu a detekovat škodlivé chování – včetně kyberšikany, nenávisti a islamofobie – s přesností až 98 %. Součástí toho je nehledání pouze na klíčová slova, ale pomocí „motoru detekce emocí“ ke zjištění, jaké emoce jsou v textu vyvolány – ať už je to láska, hněv, strach, důvěra nebo jiné.

Mezitím University of Southern California A.I. detekční systém slibuje podívat se na kontext i obsah.

„Naším výchozím bodem v tomto výzkumu je standardní metoda, která kóduje sekvence textových tokenů do číselné podoby vektory, které se [pak] používají k pravděpodobnostnímu výstupu označení třídy ‚nenávist‘ nebo ‚žádná nenávist‘,“ Brandon řekl. „Pomocí algoritmu ‚post-hoc vysvětlení‘, který vyvinuli členové našeho týmu, jsme naprogramovali nenávistné projevy Klasifikátory přikládají menší význam skupinovým identifikátorům a větší význam kontextu obklopujícímu skupinu identifikátory."

Systém byl testován analýzou článků z webové stránky Stormfront a neutrálnější reportáže New York Times. Jeho tvůrci tvrdí, že byl schopen třídit nenávist od obsahu, který není nenávistný, s přesností 90 %.

Válka na dvou frontách

Nejsou to však pouze nezávislí výzkumníci, kteří vyvíjejí nástroje pro detekci nenávistných projevů. Na řešení tohoto problému pracují i ​​sociální sítě.

„Nyní odstraňujeme 10 milionů kusů Projevy nenávisti čtvrtletí,“ řekl pro Digital Trends Amit Bhattacharyya, ředitel produktového managementu ve skupině pro integritu komunity Facebooku. „Z toho asi 90 % bylo detekováno dříve, než nám to uživatelé nahlásili. Investovali jsme více do – a zlepšili jsme se – proaktivní odhalování potenciálně porušujícího obsahu, včetně nenávistných projevů.“

Detekční techniky Facebooku, vysvětlil Bhattacharyya, se zaměřují na věci, jako je shoda textu a obrázků, ve kterých je hledá obrázky a identické řetězce textu, které již byly odstraněny jako nenávistné projevy jinde na stránce plošina. Používá také klasifikátory strojového učení, které analyzují jazyk a další typy obsahu. Facebook má také další datové body, protože se může podívat na reakce a komentáře k příspěvku, aby zjistil, jak na to úzce se shodují s běžnými frázemi, vzorci a útoky, které jsme viděli dříve v obsahu, který porušuje její nenávistné projevy opatření.

„Odstranění zneužívajícího chování online nemusí být reaktivní. Může být také proaktivní."

Twitter také používá nástroje strojového učení k potlačení nenávistného obsahu. Některé z nich jsou založeny na klíčových slovech, ale Twitter navíc analyzuje chování uživatelů, aby se pokusil zjistit, jak jsou uživatelé při interakcích pohodlní. Například uživatel, který tweetuje jiného uživatele a je mu odpovězeno a následně sledován, bude vnímán jinak než ten, který opakovaně tweetuje přímo jiné osobě, ale je ignorován nebo blokován. Tato dynamika chování může pomoci odhalit vzorce obtěžování nebo nežádoucího cíleného chování, které pak Twitter může využít k lepšímu pochopení obsahu toho, co se děje na jeho platformě.

Mluvčí Twitteru však pro Digital Trends řekl, že zprávy označené jako urážlivé jsou ručně kontrolovány lidmi (ve strojově upřednostňovaném pořadí), aby bylo možné určit, že byli správně identifikováni jako takový.

Pokračující výzva

Bhattacharyya z Facebooku řekl, že sociální síť v průběhu let udělala „velký pokrok“ v omezování nenávistných projevů na svých platformách a že její tým je hrdý na to, čeho dosáhl. Bhattacharyya zároveň řekl: „Naše práce není nikdy dokončena a víme, že možná nikdy nebudeme schopni zabránit tomu, aby se na našich platformách objevil každý kus nenávistného obsahu.“

Deprimující skutečností je, že online nenávistné projevy se pravděpodobně nikdy nevyřeší jako problém. Alespoň ne bez lidí, kteří to změní. Internet by ke své škodě mohl zesílit určité lidské hlasy a zakotvit a kodifikovat konkrétní lidské předsudky, ale je to proto, že je to jen velký spis lidstva. Jakékoli problémy, které existují v reálném světě, se do určité míry proniknou do světa online.

Trump se stylizovaným obrázkem loga Facebooku a Twitteru
Getty Images/Digital Trends Graphic

To znamená, že potírání zneužívajícího chování online nemusí být reaktivní. Může být i proaktivní. Například mluvčí Twitteru, který hovořil s Digital Trends, poukázal na to, že z uživatelů, kteří mají účty zablokovány na 12 hodin kvůli porušení pravidel, se většina opět urazí. To naznačuje, že mohou nastat poučné momenty. Ať už uživatele skutečně vyzývají, aby přezkoumali své chování, nebo je prostě zastavili v chování, které porušuje pravidla, přesto to snižuje znepokojivé chování porušující pravidla na platformě.

Mluvčí také řekl, že Twitter nyní zkoumá systém založený na „nudge“. To nabídne uživatelům před tweetem výzvy, které je upozorní, že to, co se chystají zveřejnit, by mohlo být v rozporu s pravidly Twitteru. Může to být způsobeno konkrétním klíčovým slovem. Při sdílení článku, který jste neotevřeli přes Twitter, může také nabídnout varování. Tento systém šťouchnutí byl nedávno testován na malém počtu uživatelů. Zatímco zkušební verze je nyní ukončena, existuje možnost, že by mohla být v budoucnu zavedena jako funkce pro všechny uživatele.

Budoucnost diskurzu na internetu

Otázka nenávistných projevů a jiných urážlivých projevů na sociálních sítích se jen stává naléhavější. Ve Francii například a zákon byl schválen v květnu který vyžaduje, aby byl určitý kriminální obsah odstraněn ze sociálních médií do hodiny. Pokud tomu tak není, budou dotyčné společnosti sociálních médií čelit pokutě až do výše 4 % jejich globálních příjmů. Ostatní „zjevně nezákonný“ obsah musí být odstraněn do 24 hodin. Ministryně spravedlnosti Nicole Belloubetová řekla francouzskému parlamentu, že zákon pomůže omezit online nenávistné projevy.

Žádný takový zákon, pokud je nám známo, nebyl ve Spojených státech seriózně navržen. Ale jak se sociální média stávají stále větší a vlivnější součástí toho, jak komunikujeme, bude zátah proti toxickému chování stále důležitější. To není problém, který by mohli řešit čistě lidští moderátoři. Ale je to také ten, který, když se provádí pomocí AI, musí být dělán opatrně – nejen proto, aby se zajistilo, že problém zlepší, ale aby bylo zaručeno, že jej nezhorší.

Závisí na tom budoucnost diskurzu na internetu.

Doporučení redakce

  • Jak A.I. vytvořil úžasný sportovní film, který nemůžete přestat sledovat