Ľudia nedokážu zastaviť online nenávistné prejavy sami. Na pomoc potrebujeme robotov

Jon Tyson

Internet má problém s nenávistnými prejavmi.

Obsah

  • Toto je práca pre automatizáciu. Druh
  • Zhoršovanie problému, nie zlepšenie
  • Vojna na dvoch frontoch
  • Prebiehajúca výzva
  • Budúcnosť diskurzu na internete

Prejdite do ktorejkoľvek sekcie komentárov na YouTube alebo sledujte sociálne médiá aj na krátky čas a nenájdete nedostatok urážlivých, často predsudkových komentárov. Ako však tento problém vyriešiť? A pri tom, ako sa vyhnete tomu, aby ste to náhodou nezhoršili?

Tento mesiac dvaja A.I. boli oznámené algoritmy: Jeden vytvorený v Spojenom kráľovstve, druhý v USA. Obidva by sa jedného dňa mohli použiť na prehľadávanie sociálnych médií alebo iných oblastí online sveta a zdôrazňovanie nenávistných alebo urážlivých prejavov, aby ich bolo možné nahlásiť, vymazať alebo zablokovať.

Odporúčané videá

Prvý, vyvinutý výskumníkmi z Exeterskej univerzity v Spojenom kráľovstve, je a nástroj s názvom Lola ktorá využíva „najnovšie pokroky v spracovaní prirodzeného jazyka a behaviorálnej teórii“ na skenovanie tisícok správ za minútu, aby odhalila nenávistný obsah. „Úroveň presnosti je vynikajúca v porovnaní s existujúcimi riešeniami na trhu,“

Dr David Lopez, jeden z Loliných tvorcov, povedal pre Digital Trends.

Druhá, práca o výskumníci z University of Southern California, tvrdí, že je schopný niečoho podobného. „Algoritmus, ktorý sme vyvinuli, je textový klasifikátor, ktorý preberá príspevky zo sociálnych médií – alebo potenciálne iný text – a predpovedá, či text obsahuje nenávistné prejavy alebo nie,“ Brendan Kennedy, doktor počítačovej vedy. študent, ktorý na projekte pracoval, povedal pre Digital Trends.

Toto je práca pre automatizáciu. Druh

Aby sme pochopili, prečo je potrebné obrátiť sa na automatizované riešenia na vyriešenie tohto najľudskejšieho problému, je dôležité pochopiť celý rozsah sociálnych médií. Každú sekundu dňa sa odošle v priemere 6 000 tweetov. To sa rovná 350 000 tweetom za minútu, 500 miliónom tweetov denne alebo 200 miliardám tweetov ročne. Zapnuté Facebook, približne 35 miliónov ľudí denne aktualizuje svoj status.

Dokonca aj pre dobre vybavených technologických gigantov tieto čísla znemožňujú ľudským moderátorom robiť potrebné moderovanie sami. Takéto rozhodnutia sa musia robiť veľmi rýchlo, nielen preto, aby sme mali prehľad o novom obsahu, ktorý sa vytvára každú chvíľu, ale aj preto, aby určité správy nevidel veľký počet používateľov. Dobre navrhnuté algoritmy sú jediným praktickým spôsobom riešenia tohto problému.

„Každú sekundu dňa sa odošle v priemere 6 000 tweetov. To sa rovná 350 000 tweetom za minútu, 500 miliónom tweetov denne alebo 200 miliardám tweetov ročne.

Pomocou strojového učenia je možné – aspoň teoreticky – vyvinúť nástroje, ktoré možno trénovať na vyhľadávanie nenávistných alebo urážlivých prejavov, aby ich bolo možné vymazať alebo nahlásiť. Ale to nie je ľahké. Nenávistné prejavy sú široký a sporný pojem. Pokusy definovať to legálne alebo dokonca neformálne medzi ľuďmi sú ťažké. Niektoré príklady nenávistných prejavov môžu byť také jasné, že ich nikto nemôže spochybniť. Ale iné prípady môžu byť jemnejšie; typ akcií, ktoré budú pravdepodobnejšie klasifikované ako „mikroagresie“. Ako sudca Najvyššieho súdu Spojených štátov amerických Potter Stewart slávne povedal o obscénnosti: „Poznám to, keď to vidím.

„Existuje mnoho typov nenávistných prejavov [a] urážlivých jazykov,“ povedal Kennedy pre Digital Trends. „Niektoré nenávistné prejavy sa dajú ľahko označiť – napríklad nadávky. Ale väčšina nenávistných prejavov je rétoricky zložitá, démonizujúca a dehumanizujúca prostredníctvom metafory, kultúrne špecifických stereotypov a „psích píšťaliek“.

Zhoršovanie problému, nie zlepšenie

Predchádzajúci lovec nenávistných prejavov A.I. nástroje sa ukázali ako neúčinné, pretože sú príliš tupým nástrojom na odhaľovanie zložitejších príkladov predsudkov online. Zle navrhnuté algoritmy na detekciu nenávistných prejavov majú ďaleko od zastavenia nenávistných prejavov online v skutočnosti sa ukázalo, že zosilňuje veci ako rasová zaujatosť blokovaním neurážlivých tweetov odosielaných menšinami skupiny. Môže to byť niečo také jednoduché ako skutočnosť, že klasifikátory nenávistných prejavov sú precitlivené na výrazy ako „Čierny“, „homosexuál“ alebo „transgender“, ktoré môžu byť s väčšou pravdepodobnosťou spájané s nenávistným obsahom v niektorých nastavenie.

Rovnako ako neslávne známy chatbot spoločnosti Microsoft Tay, ktorý sa naučil rasistické správanie po interakcii s používateľmi, klasifikátory, ktoré sú trénované na pôvodných textových údajoch sociálnych médií, sa môžu vo veľkej miere oprieť o konkrétne slová, pričom ignorujú okolitý kontext alebo si ho neuvedomujú.

s

Schopnosť lepšie analyzovať online správy v kontexte je to, čo dve nové A.I. detekčné systémy sľubujú. Britský systém Lola tvrdí, že je schopný analyzovať 25 000 správ za minútu na odhalenie škodlivého správania – vrátane kyberšikany, nenávisti a islamofóbie – s presnosťou až 98 %. Časť toho sa nezameriava len na kľúčové slová, ale aj pomocou „motora na detekciu emócií“ na zistenie, aké emócie sa v texte vyvolávajú – či už je to láska, hnev, strach, dôvera alebo iné.

Medzitým University of Southern California A.I. detekčný systém sľubuje pozrieť sa na kontext aj obsah.

„Naším východiskovým bodom v tomto výskume je štandardná metóda, ktorá kóduje sekvencie textových tokenov do číselnej podoby vektory, ktoré sa [potom] používajú na pravdepodobnostný výstup označenia triedy „nenávisť“ alebo „žiadna nenávisť“, Brandon povedal. „Pomocou „post-hoc vysvetľovacieho“ algoritmu, ktorý vyvinuli členovia nášho tímu, sme naprogramovali nenávistné prejavy Klasifikátory, ktoré pripisujú menšiu dôležitosť skupinovým identifikátorom a väčšiu dôležitosť kontextu obklopujúceho skupinu identifikátory."

Systém bol testovaný na základe analýzy článkov z webovej stránky Stormfront, ktorá sa zaoberá nadradenosťou bielej rasy, a neutrálnejšej reportáže z New York Times. Jeho tvorcovia tvrdia, že bol schopný triediť nenávisť od obsahu, ktorý nie je nenávistný, s presnosťou 90 %.

Vojna na dvoch frontoch

Nie sú to však len nezávislí výskumníci, ktorí vyvíjajú nástroje na zisťovanie nenávistných prejavov. Na vyriešení tohto problému pracujú aj sociálne siete.

„Teraz odstraňujeme 10 miliónov kusov Prejavy nenávisti štvrťrok,“ povedal pre Digital Trends Amit Bhattacharyya, riaditeľ produktového manažmentu v skupine pre integritu komunity Facebooku. „Z toho asi 90 % bolo zistených skôr, ako nám to používatelia nahlásili. Investovali sme viac do – a zlepšili sme sa – proaktívne odhaľovanie potenciálne porušujúceho obsahu vrátane nenávistných prejavov.“

Detekčné techniky Facebooku, vysvetlil Bhattacharyya, sa zameriavajú na veci, ako je porovnávanie textu a obrázkov, v ktorých je hľadá obrázky a identické reťazce textu, ktoré už boli na inom mieste odstránené ako nenávistné prejavy plošina. Používa tiež klasifikátory strojového učenia, ktoré analyzujú jazyk a iné typy obsahu. Facebook má aj ďalšie dátové body, pretože si môže pozrieť reakcie a komentáre k príspevku, aby zistil ako tieto sa veľmi zhodujú s bežnými frázami, vzormi a útokmi, ktoré ste predtým videli v obsahu, ktorý porušuje jej nenávistné prejavy postupy.

„Odstránenie zneužívajúceho správania online nemusí byť reaktívne. Môže to byť aj proaktívne."

Twitter tiež používa nástroje strojového učenia na potlačenie nenávistného obsahu. Niektoré z nich sú založené na kľúčových slovách, ale Twitter dodatočne analyzuje správanie používateľov, aby sa pokúsil určiť, ako pohodlne sú používatelia pri interakciách. Napríklad používateľ, ktorý tweetuje inému používateľovi a je mu zodpovedaná a následne sledovaná, bude vnímaný inak ako používateľ, ktorý opakovane tweetuje priamo inej osobe, ale je ignorovaný alebo zablokovaný. Táto dynamika správania môže pomôcť odhaliť vzorce obťažovania alebo nechceného cieleného správania, ktoré môže Twitter použiť na lepšie pochopenie obsahu toho, čo sa deje na jeho platforme.

Hovorca Twitteru však pre Digital Trends povedal, že správy označené ako urážlivé sa kontrolujú manuálne ľuďmi (v strojovo uprednostňovanom poradí), aby sa zistilo, že boli správne identifikovaní ako taký.

Prebiehajúca výzva

Bhattacharyya z Facebooku povedal, že sociálna sieť urobila v priebehu rokov „veľký pokrok“ v potláčaní nenávistných prejavov na svojich platformách a že jej tím je hrdý na to, čo dokázala. Bhattacharyya zároveň povedal: "Naša práca nie je nikdy dokončená a vieme, že možno nikdy nebudeme schopní zabrániť tomu, aby sa na našich platformách objavil každý nenávistný obsah."

Depresívnou realitou je, že online nenávistné prejavy sa pravdepodobne nikdy nevyriešia ako problém. Aspoň nie bez toho, aby to ľudia zmenili. Internet môže na svoju škodu zosilniť určité ľudské hlasy a zakotviť a kodifikovať konkrétne ľudské predsudky, ale je to preto, že je to len veľký spis ľudstva. Akékoľvek problémy, ktoré existujú v reálnom svete, sa do určitej miery dostanú do online sveta.

Trump so štylizovaným obrázkom loga Facebooku a Twitteru
Getty Images/Digital Trends Graphic

Zásah proti zneužívajúcemu správaniu online však nemusí byť reaktívny. Môže byť aj proaktívny. Napríklad hovorca Twitteru, ktorý hovoril s Digital Trends, poukázal na to, že z používateľov, ktorí majú účty zablokované na 12 hodín z dôvodu porušenia pravidiel, sa väčšina opäť urazí. To naznačuje, že môžu nastať poučiteľné momenty. Či už používateľov skutočne vyzývajú, aby prehodnotili svoje správanie, alebo ich jednoducho zastavili v správaní, ktoré porušuje pravidlá, napriek tomu to znižuje znepokojujúce správanie porušujúce pravidlá na platforme.

Hovorca tiež uviedol, že Twitter teraz skúma systém založený na „postrčení“. Používateľom to ponúkne výzvy pred tweetovaním, ktoré ich upozornia, že to, čo sa chystajú uverejniť, môže byť v rozpore s pravidlami Twitteru. Môže to byť spôsobené konkrétnym kľúčovým slovom. Pri zdieľaní článku, ktorý ste neotvorili cez Twitter, môže tiež ponúknuť varovanie. Tento nudge systém bol nedávno testovaný s malým počtom používateľov. Zatiaľ čo skúšobná verzia je teraz ukončená, existuje možnosť, že by mohla byť v budúcnosti sprístupnená ako funkcia pre všetkých používateľov.

Budúcnosť diskurzu na internete

Otázka nenávistných prejavov a iných urážlivých prejavov na sociálnych sieťach bude len naliehavejšia. Vo Francúzsku napríklad a zákon bol schválený v máji ktorý vyžaduje, aby bol určitý kriminálny obsah odstránený zo sociálnych médií do hodiny. Ak to tak nie je, príslušné spoločnosti sociálnych médií budú čeliť pokute až do výšky 4 % ich globálnych príjmov. Iný „zjavne nezákonný“ obsah musí byť odstránený do 24 hodín. Ministerka spravodlivosti Nicole Belloubetová povedala francúzskemu parlamentu, že zákon pomôže obmedziť online nenávistné prejavy.

Pokiaľ vieme, žiadny takýto zákon nebol v Spojených štátoch seriózne navrhnutý. Keďže sa však sociálne médiá stávajú čoraz väčšou a vplyvnejšou súčasťou toho, ako komunikujeme, bude čoraz dôležitejšie bojovať proti toxickému správaniu. Toto nie je problém, ktorý by mohli riešiť čisto ľudskí moderátori. Ale je to tiež ten, ktorý, keď sa vykonáva pomocou AI, musí byť vykonaný opatrne - nielen preto, aby sa zabezpečilo, že problém zlepší, ale aby sa zaručilo, že ho nezhorší.

Závisí od toho budúcnosť diskurzu na internete.

Odporúčania redaktorov

  • Ako A.I. vytvoril úžasný športový film, ktorý nemôžete prestať sledovať