Ljudi ne mogu sami zaustaviti internetski govor mržnje. Trebaju nam botovi za pomoć

click fraud protection
Jon Tyson

Internet ima problema s govorom mržnje.

Sadržaj

  • Ovo je posao za automatizaciju. Vrsta
  • Pogoršava problem, a ne poboljšava ga
  • Rat na dva fronta
  • Trajni izazov
  • Budućnost diskursa na internetu

Idite na bilo koji odjeljak s komentarima na YouTubeu ili pretražujte društvene medije čak i nakratko i nećete manjkati uvredljivih komentara s predrasudama. Ali kako riješiti ovaj problem? I, radeći to, kako izbjeći slučajno pogoršanje?

Ovog mjeseca dva A.I.-a koja traže govor mržnje. najavljeni su algoritmi: jedan stvoren u Ujedinjenom Kraljevstvu, drugi u SAD-u. Oba bi se jednog dana mogla koristiti pretraživati ​​društvene medije ili druga područja online svijeta i isticati govor mržnje ili uvredljiv govor kako bi se mogao prijaviti, izbrisati ili blokirati.

Preporučeni videozapisi

Prvi, koji su razvili istraživači s britanskog Sveučilišta Exeter, je a alat po imenu Lola koji koristi "najnovije napretke u obradi prirodnog jezika i teoriji ponašanja" za skeniranje tisuća poruka u minuti kako bi otkrio sadržaj pun mržnje. "Razina točnosti je izvanredna u usporedbi s postojećim rješenjima na tržištu,"

dr. David Lopez, jedan od Lolinih kreatora, rekao je za Digital Trends.

Drugo, djelo istraživači sa Sveučilišta Južne Kalifornije, tvrdi da je sposoban za nešto slično. "Algoritam koji smo razvili je klasifikator teksta, koji uzima objave na društvenim mrežama - ili potencijalno drugi tekst - i predviđa sadrži li tekst govor mržnje ili ne," Brendan Kennedy, doktorica informatike. student koji je radio na projektu, rekao je za Digital Trends.

Ovo je posao za automatizaciju. Vrsta

Da bismo razumjeli zašto je potrebno okrenuti se automatiziranim rješenjima za rješavanje ovog najljudskijeg problema, ključno je razumjeti samu veličinu društvenih medija. Svake sekunde u danu u prosjeku se pošalje 6000 tweetova. To je jednako 350.000 tweetova u minuti, 500 milijuna tweetova dnevno ili 200 milijardi tweetova godišnje. Na Facebook, otprilike 35 milijuna ljudi ažurira svoje statuse na dnevnoj bazi.

Čak i za tehnološke divove s dobrim osobljem, te brojke onemogućuju ljudskim moderatorima da sami izvrše potrebnu moderaciju. Takve se odluke moraju donositi vrlo brzo, ne samo kako bismo ostali u tijeku s novim sadržajem koji se stvara svakog trenutka, već i kako određene poruke ne bi vidio veliki broj korisnika. Dobro osmišljeni algoritmi jedini su praktični način rješavanja ovog problema.

“Svake sekunde u danu, u prosjeku se pošalje 6000 tweetova. To je jednako 350.000 tweetova u minuti, 500 milijuna tweetova dnevno ili 200 milijardi tweetova godišnje.”

Koristeći strojno učenje, moguće je - barem u teoriji - razviti alate koji se mogu osposobiti za traženje govora mržnje ili uvredljivog govora kako bi se mogli izbrisati ili prijaviti. Ali ovo nije lako. Govor mržnje je širok i sporan pojam. Pokušaji da se to definira legalno ili čak neformalno među ljudima pokazali su se teškima. Neki primjeri govora mržnje mogu biti toliko jasni da ih nitko ne može osporiti. Ali drugi slučajevi mogu biti suptilniji; vrsta akcija koje će se vjerojatnije klasificirati kao "mikroagresije". Kao što je sudac Vrhovnog suda Sjedinjenih Država Potter Stewart slavno rekao o opscenosti: "Prepoznam to kad to vidim."

"Postoje mnoge vrste govora mržnje [i] uvredljivog jezika", rekao je Kennedy za Digital Trends. “Neki govor mržnje je lako označiti - na primjer, uvrede. Ali većina govora mržnje je retorički složena, demonizirajuća i dehumanizirajuća kroz metaforu, kulturno specifične stereotipe i ‘zvižduke za pse’.”

Pogoršava problem, a ne poboljšava ga

Prethodni lov na govor mržnje A.I. alati su se pokazali neučinkovitima jer su previše grub instrument za otkrivanje složenijih primjera predrasuda na internetu. Loše dizajnirani algoritmi za otkrivanje govora mržnje, daleko od toga da zaustave govor mržnje na internetu, imaju zapravo se pokazalo da pojačava stvari poput rasne pristranosti blokiranjem neuvredljivih tweetova koje šalje manjina skupine. To bi moglo biti nešto tako jednostavno poput činjenice da su klasifikatori govora mržnje preosjetljivi na pojmove poput "Crnac", "homoseksualac" ili "transrodan" za koje postoji veća vjerojatnost da će biti povezani sa sadržajem koji promiče mržnju u nekim postavke.

Baš kao Microsoftov zloglasni chatbot Tay, koji je naučio rasističko ponašanje nakon interakcije s korisnicima, klasifikatori koji su uvježbani na izvornim tekstualnim podacima društvenih medija mogu se uvelike oslanjati na određene riječi ignorirajući ili nesvjesni konteksta koji ih okružuje.

s

Sposobnost bolje analize online poruka u kontekstu je ono što dva nova A.I. sustavi za otkrivanje obećavaju. Britanski sustav Lola tvrdi da može analizirati 25 000 poruka u minuti kako bi otkrio štetna ponašanja - uključujući internetsko zlostavljanje, mržnju i islamofobiju - s točnošću do 98%. Dio toga nije promatranje samo ključnih riječi, već korištenje "mehanizma za otkrivanje emocija" kako bi se utvrdilo koje su emocije izazvane u tekstu - bilo da se radi o ljubavi, ljutnji, strahu, povjerenju ili drugima.

U međuvremenu, Sveučilište Južne Kalifornije A.I. sustav otkrivanja obećava da će promatrati kontekst kao i sadržaj.

“Naše polazište u ovom istraživanju je standardna metoda, koja kodira nizove tekstualnih tokena u numeričke vektore, koji se [tada] koriste za vjerojatnosni izlaz oznake klase 'mržnje' ili 'bez mržnje',” Brandon rekao je. “Koristeći algoritam ‘post-hoc objašnjenja’ koji su razvili članovi našeg tima, programirali smo govor mržnje klasifikatora kako bi se dala manja važnost identifikatorima grupe, a više važnosti kontekstu koji okružuje grupu identifikatori.”

Sustav je testiran analizom članaka s bjelačke supremacističke web stranice Stormfront i neutralnije reportaže New York Timesa. Njegovi kreatori tvrde da je bio sposoban razvrstati mržnju od sadržaja bez mržnje s razinom točnosti od 90%.

Rat na dva fronta

Međutim, ne razvijaju samo neovisni istraživači alate za otkrivanje govora mržnje. Na rješavanju ovog problema rade i društvene mreže.

“Sada uklanjamo 10 milijuna komada Govor mržnje četvrtinu,” rekao je Amit Bhattacharyya, direktor upravljanja proizvodima u Facebookovoj grupi za integritet zajednice, za Digital Trends. “Od toga je oko 90% otkriveno prije nego što su nam korisnici to prijavili. Uložili smo više u — i postali bolji u — proaktivnom otkrivanju potencijalno kršećih sadržaja, uključujući govor mržnje.”

Facebookove tehnike detekcije, objasnio je Bhattacharyya, usredotočuju se na stvari poput podudaranja teksta i slika, u kojima traži slike i identične nizove teksta koji su već uklonjeni kao govor mržnje negdje drugdje na platforma. Također koristi klasifikatore strojnog učenja koji analiziraju jezik i druge vrste sadržaja. Facebook ima i dodatne podatkovne točke, budući da može pogledati reakcije i komentare na objavu da vidi kako ovi se blisko podudaraju s uobičajenim frazama, obrascima i napadima koji su ranije viđeni u sadržaju koji krši njegov govor mržnje politike.

“Suzbijanje zlostavljačkog ponašanja na internetu ne mora biti reaktivno. Može biti i proaktivno.”

Twitter također koristi alate za strojno učenje za suzbijanje sadržaja koji izaziva mržnju. Nešto od toga temelji se na ključnim riječima, ali Twitter dodatno analizira ponašanje korisnika kako bi pokušao utvrditi koliko su korisnici ugodni u interakciji. Na primjer, korisnik koji tweeta drugom korisniku i na njega se odgovori i zatim ga prati bit će drugačije viđen od onoga koji tweeta izravno drugoj osobi više puta, ali je zanemaren ili blokiran. Ova dinamika ponašanja može pomoći u otkrivanju obrazaca uznemiravanja ili neželjenog ciljanog ponašanja koje Twitter zatim može koristiti za bolje razumijevanje sadržaja onoga što se događa na njegovoj platformi.

Međutim, glasnogovornik Twittera rekao je za Digital Trends da se poruke označene kao uvredljive ručno pregledavaju od strane ljudi (prema strojnom redoslijedu) kako bi se utvrdilo da su ispravno identificirani kao takav.

Trajni izazov

Bhattacharyya iz Facebooka rekao je da je društvena mreža postigla "veliki napredak" tijekom godina u suzbijanju govora mržnje na svojim platformama i da je njen tim ponosan na ono što je postigla. U isto vrijeme, Bhattacharyya je rekao: "Naš posao nikada nije dovršen i znamo da možda nikada nećemo moći spriječiti da se svaki sadržaj pun mržnje pojavi na našim platformama."

Deprimirajuća je stvarnost da internetski govor mržnje vjerojatno nikada neće biti riješen kao problem. Barem ne bez ljudi koji su napravili promjenu. Internet bi mogao, na svoju štetu, pojačati određene ljudske glasove, te ugraditi i kodificirati određene ljudske predrasude, ali to je zato što se radi samo o čovječanstvu. Bez obzira na probleme koji postoje u stvarnom svijetu, donekle će doći do internetskog svijeta.

Trump sa stiliziranom slikom logotipa Facebooka i Twittera
Grafika Getty Images/Digital Trends

Ipak, suzbijanje zlostavljačkog ponašanja na internetu ne mora biti reaktivno. Može biti i proaktivan. Na primjer, glasnogovornik Twittera koji je razgovarao s Digital Trends istaknuo je da od korisnika kojima su računi zabranjeni na 12 sati zbog kršenja pravila, većina ponovno vrijeđa. Ovo sugerira da se mogu pojaviti trenuci koji se mogu poučiti. Bez obzira na to potiču li korisnike da preispitaju svoje ponašanje ili ih jednostavno sprječavaju da se ponašaju na način koji krši pravila, svejedno smanjuje uznemirujuće ponašanje koje krši pravila na platformi.

Glasnogovornik je također rekao da Twitter sada istražuje sustav koji se temelji na "guranju". Ovo će ponuditi upute prije nego što korisnici tvitaju, upozoravajući ih da bi ono što će objaviti moglo biti u suprotnosti s pravilima Twittera. To može biti zbog određene ključne riječi. Kada dijelite članak koji niste otvorili putem Twittera, također može ponuditi upozorenje. Ovaj sustav guranja nedavno je testiran s malim brojem korisnika. Iako je probno razdoblje sada završeno, postoji mogućnost da bi se u budućnosti mogao uvesti kao značajka za sve korisnike.

Budućnost diskursa na internetu

Pitanje govora mržnje i drugog uvredljivog govora na društvenim mrežama samo će postati goruće. U Francuskoj, na primjer, a zakon je donesen u svibnju koji zahtijeva uklanjanje određenih kriminalnih sadržaja s društvenih mreža u roku od sat vremena. Ako nije, dotične tvrtke društvenih medija suočit će se s kaznom do 4% svojih globalnih prihoda. Ostali "očigledno nedopušteni" sadržaji moraju se ukloniti unutar 24 sata. Ministrica pravosuđa Nicole Belloubet rekla je francuskom parlamentu da će zakon pomoći u smanjenju govora mržnje na internetu.

Nijedan takav zakon, koliko je nama poznato, nije ozbiljno predložen u Sjedinjenim Državama. No kako društveni mediji postaju sve veći i utjecajniji dio naše komunikacije, suzbijanje toksičnog ponašanja postat će sve važnije. Ovo nije problem kojim se mogu pozabaviti isključivo ljudski moderatori. Ali to je također nešto što se, kada se provodi pomoću umjetne inteligencije, mora pažljivo obaviti - ne samo kako bi se osiguralo da će poboljšati problem, već kako bi se zajamčilo da ga neće pogoršati.

O tome ovisi budućnost diskursa na internetu.

Preporuke urednika

  • Kako je A.I. stvorio nevjerojatnu rolu sportskih vrhunaca koju ne možete prestati gledati