Ljudje ne moremo sami ustaviti spletnega sovražnega govora. Za pomoč potrebujemo robote

Jon Tyson

Internet ima težave s sovražnim govorom.

Vsebina

  • To je delo za avtomatizacijo. Recimo
  • Težavo poslabša, ne izboljša
  • Vojna na dveh frontah
  • Stalen izziv
  • Prihodnost diskurza na internetu

Pojdite na kateri koli razdelek s komentarji v YouTubu ali brskajte po družabnih omrežjih, četudi za kratek čas, in ne boste našli pomanjkanja žaljivih komentarjev, ki so pogosto polni predsodkov. Toda kako rešiti to težavo? In kako se pri tem izognete nenamernemu poslabšanju?

Ta mesec sta dva A.I., ki iščeta sovražni govor. objavljeni so bili algoritmi: eden je bil ustvarjen v Združenem kraljestvu, drugi v ZDA. Oba bi lahko nekoč uporabili za brskanje po družbenih medijih ali drugih območjih spletnega sveta ter poudarjanje sovražnega ali žaljivega govora, da ga je mogoče prijaviti, izbrisati ali blokirati.

Priporočeni videoposnetki

Prvi, ki so ga razvili raziskovalci z britanske univerze v Exeterju, je a orodje z imenom Lola ki izkorišča "najnovejši napredek pri obdelavi naravnega jezika in vedenjski teoriji" za skeniranje na tisoče sporočil na minuto, da odkrije sovražno vsebino. "Stopnja natančnosti je izjemna v primerjavi z obstoječimi rešitvami na trgu,"

Dr. David Lopez, eden od Lolinih ustvarjalcev, je povedal za Digital Trends.

Drugo, delo raziskovalci z Univerze Južne Kalifornije, trdi, da je sposoben česa podobnega. "Algoritem, ki smo ga razvili, je klasifikator besedila, ki vzame objave na družbenih omrežjih - ali potencialno drugo besedilo - in napove, ali besedilo vsebuje sovražni govor ali ne," Brendan Kennedy, doktorica računalništva študent, ki je delal na projektu, je povedal za Digital Trends.

To je delo za avtomatizacijo. Recimo

Da bi razumeli, zakaj se je treba obrniti na avtomatizirane rešitve za reševanje tega najbolj človeškega problema, je ključnega pomena razumeti sam obseg družbenih medijev. Vsako sekundo dneva je v povprečju poslanih 6000 tvitov. To pomeni 350.000 tvitov na minuto, 500 milijonov tvitov na dan ali 200 milijard tvitov na leto. Vklopljeno Facebook, približno 35 milijonov ljudi dnevno posodobi svoje statuse.

Tudi za tehnološke velikane z dobrim osebjem te številke onemogočajo, da bi človeški moderatorji sami opravili potrebno moderiranje. Takšne odločitve je treba sprejeti zelo hitro, ne le zato, da ostanemo na tekočem z novo vsebino, ki se ustvari vsak trenutek, ampak tudi zato, da določenih sporočil ne vidi veliko število uporabnikov. Dobro zasnovani algoritmi so edini praktični način za rešitev tega problema.

»Vsako sekundo dneva je poslanih povprečno 6000 tvitov. To pomeni 350.000 tvitov na minuto, 500 milijonov tvitov na dan ali 200 milijard tvitov na leto.

Z uporabo strojnega učenja je mogoče – vsaj teoretično – razviti orodja, ki jih je mogoče usposobiti za iskanje sovražnega ali žaljivega govora, tako da ga je mogoče izbrisati ali prijaviti. Vendar to ni lahko. Sovražni govor je širok in sporen izraz. Poskusi, da bi ga pravno ali celo neformalno opredelili med ljudmi, so težki. Nekateri primeri sovražnega govora so lahko tako jasni, da jim nihče ne more oporekati. Toda drugi primeri so lahko bolj subtilni; vrsta dejanj, ki jih je bolj verjetno opredeliti kot "mikroagresije". Kot je o nespodobnosti slavno rekel sodnik vrhovnega sodišča Združenih držav Amerike Potter Stewart: "Poznam, ko to vidim."

"Obstaja veliko vrst sovražnega govora [in] žaljivega jezika," je Kennedy povedal za Digital Trends. »Nekateri sovražni govor je enostavno označiti – na primer žalitve. Toda večina sovražnega govora je retorično zapletena, demonizira in dehumanizira skozi metaforo, kulturno specifične stereotipe in 'pasje piščalke'.«

Težavo poslabša, ne izboljša

Prejšnji A.I. za lov na sovražni govor orodja so se izkazala za neučinkovita, ker so preveč grobo orodje za odkrivanje bolj zapletenih primerov predsodkov na spletu. Slabo zasnovani algoritmi za zaznavanje sovražnega govora še zdaleč niso zaustavili sovražnega govora na spletu dokazano je, da krepi stvari, kot je rasna pristranskost, z blokiranjem nežaljivih tvitov, ki jih pošilja manjšina skupine. To bi lahko bilo nekaj tako preprostega kot dejstvo, da so klasifikatorji sovražnega govora preobčutljivi na izraze, kot je »Črnec«, »gej« ali »transspolna oseba«, za katere je verjetnost, da bodo povezani s sovražno vsebino v nekaterih nastavitve.

Tako kot zloglasni Microsoftov klepetalni robot Tay, ki se je naučil rasistično vedenje po interakciji z uporabniki, se lahko klasifikatorji, ki so usposobljeni na izvirnih besedilnih podatkih družbenih medijev, močno zanašajo na določene besede, medtem ko ignorirajo ali se ne zavedajo svojega okoliškega konteksta.

s

Sposobnost boljše analize spletnih sporočil v kontekstu je tisto, kar dva nova A.I. sistemi za odkrivanje obljubljajo. Britanski sistem Lola trdi, da lahko analizira 25.000 sporočil na minuto, da zazna škodljivo vedenje – vključno s spletnim ustrahovanjem, sovraštvom in islamofobijo – z do 98-odstotno natančnostjo. Del tega ni samo preučevanje ključnih besed, ampak tudi uporaba »mehanizma za zaznavanje čustev«, da se ugotovi, katera čustva so izzvana v besedilu - naj bo to ljubezen, jeza, strah, zaupanje ali druga.

Medtem je Univerza južne Kalifornije A.I. sistem zaznavanja obljublja, da bo preučil kontekst in vsebino.

»Naše izhodišče v tej raziskavi je standardna metoda, ki kodira zaporedja besedilnih žetonov v številske vektorjev, ki se [nato] uporabijo za verjetnostni izhod oznake razreda 'sovraštva' ali 'brez sovraštva',« Brandon rekel. »S pomočjo algoritma 'post-hoc razlage', ki so ga razvili člani naše ekipe, smo programirali sovražni govor klasifikatorji, da dajo manj pomena identifikatorjem skupin in več pomena kontekstu, ki obdaja skupino identifikatorji."

Sistem je bil preizkušen z analizo člankov s spletne strani Stormfront, ki je usmerjena v nadvlado belcev, in bolj nevtralne reportaže New York Timesa. Njegovi ustvarjalci trdijo, da je bil sposoben razvrstiti sovražno vsebino od nesovražne vsebine s stopnjo natančnosti 90 %.

Vojna na dveh frontah

Vendar pa orodij za odkrivanje sovražnega govora ne razvijajo samo neodvisni raziskovalci. Tudi družbena omrežja si prizadevajo rešiti to težavo.

»Zdaj odstranimo 10 milijonov kosov Sovražni govor četrtino,« je za Digital Trends povedal Amit Bhattacharyya, direktor produktnega upravljanja v Facebookovi skupini za integriteto skupnosti. »Od tega je bilo približno 90 % odkritih, preden so nam uporabniki to prijavili. Več smo vložili v – in postali boljši – proaktivno odkrivanje potencialno kršitvene vsebine, vključno s sovražnim govorom.«

Facebookove tehnike zaznavanja, je pojasnil Bhattacharyya, se osredotočajo na stvari, kot je ujemanje besedila in slike, v katerih išče slike in enake nize besedila, ki so bili že odstranjeni kot sovražni govor drugje na platforma. Uporablja tudi klasifikatorje strojnega učenja, ki analizirajo jezik in druge vrste vsebine. Facebook ima tudi dodatne podatkovne točke, saj si lahko ogleda odzive in komentarje na objavo, da ugotovi, kako ti se natančno ujemajo s pogostimi besednimi zvezami, vzorci in napadi, ki so bili prej opaženi v vsebini, ki krši sovražni govor pravila.

»Zatiranje zlorabe na spletu ne sme biti reaktivno. Lahko je tudi proaktivno.«

Twitter uporablja tudi orodja za strojno učenje za zatiranje sovražne vsebine. Nekaj ​​tega temelji na ključnih besedah, vendar Twitter dodatno analizira vedenje uporabnikov, da bi ugotovil, kako udobno so uporabniki v interakciji. Na primer, uporabnik, ki tvita drugemu uporabniku in mu odgovori in mu nato sledi, bo obravnavan drugače kot tisti, ki večkrat tvita neposredno drugi osebi, vendar je prezrt ali blokiran. Ta vedenjska dinamika lahko pomaga razkriti vzorce nadlegovanja ali neželenega ciljnega vedenja, ki jih lahko Twitter nato uporabi za boljše razumevanje vsebine dogajanja na njegovi platformi.

Vendar pa je predstavnik Twitterja za Digital Trends povedal, da se sporočila, označena kot žaljiva, ročno pregledajo ljudje (v strojnem vrstnem redu), da se ugotovi, ali so bili pravilno identificirani kot takega.

Stalen izziv

Bhattacharyya iz Facebooka je dejal, da je socialno omrežje v preteklih letih doseglo "velik napredek" pri zajezitvi sovražnega govora na svojih platformah in da je njegova ekipa ponosna na to, kar je dosegla. Obenem je Bhattacharyya dejal: "Naše delo ni nikoli končano in vemo, da morda nikoli ne bomo mogli preprečiti, da bi se vsak del sovražne vsebine pojavil na naših platformah."

Depresivna resničnost je, da spletni sovražni govor verjetno nikoli ne bo rešen kot problem. Vsaj ne brez ljudi, ki bi naredili spremembo. Internet bi lahko na svojo škodo ojačal določene človeške glasove ter vnesel in kodificiral določene človeške predsodke, vendar je to zato, ker gre samo za človeštvo. Ne glede na težave, ki obstajajo v resničnem svetu, se bodo do neke mere prebile v spletni svet.

Trump s stilizirano podobo logotipov Facebook in Twitter
Getty Images/Digital Trends Graphic

Kljub temu ni nujno, da je zatiranje zlorabe na spletu reaktivno. Lahko je tudi proaktivno. Na primer, tiskovni predstavnik Twitterja, ki se je pogovarjal z Digital Trends, je poudaril, da od uporabnikov, ki imajo račune prepovedane za 12 ur zaradi kršitve pravil, večina ponovno užali. To nakazuje, da lahko pride do učljivih trenutkov. Ne glede na to, ali resnično spodbudijo uporabnike, da ponovno preučijo svoje vedenje, ali jih preprosto ustavijo, da se vedejo na način, ki krši pravila, kljub temu zmanjša moteče vedenje, ki krši pravila na platformi.

Tiskovni predstavnik je tudi dejal, da Twitter zdaj raziskuje sistem, ki temelji na "nudge". To bo ponudilo pozive, preden bodo uporabniki tvitnili, in jih opozorilo, da je to, kar bodo objavili, lahko v nasprotju s pravili Twitterja. To je lahko zaradi določene ključne besede. Ko delite članek, ki ga niste odprli prek Twitterja, lahko ponudi tudi opozorilo. Ta sistem potiskanja je bil nedavno preizkušen z majhnim številom uporabnikov. Medtem ko je preizkus že končan, obstaja možnost, da bi ga lahko v prihodnosti uvedli kot funkcijo za vse uporabnike.

Prihodnost diskurza na internetu

Vprašanje sovražnega govora in drugega žaljivega govora na družbenih medijih bo samo še bolj pereče. V Franciji je na primer a zakon je bil sprejet maja ki zahteva odstranitev določene kriminalne vsebine iz družbenih medijev v eni uri. V nasprotnem primeru se bodo zadevna družbena podjetja soočila z globo v višini do 4 % svojih svetovnih prihodkov. Druge "očitno nedovoljene" vsebine je treba odstraniti v 24 urah. Ministrica za pravosodje Nicole Belloubet je v francoskem parlamentu dejala, da bo zakon pomagal zmanjšati sovražni govor na spletu.

Kolikor vemo, takšen zakon ni bil resno predlagan v Združenih državah. Ker pa družbeni mediji postajajo vse večji in vplivnejši del našega komuniciranja, bo zatiranje strupenega vedenja postalo vse pomembnejše. To ni problem, ki bi ga lahko rešili zgolj človeški moderatorji. Toda to je tudi tisto, ki ga je treba, ko se izvaja z uporabo AI, opraviti previdno - ne le zato, da zagotovimo, da izboljša težavo, ampak da zagotovimo, da je ne poslabša.

Od tega je odvisna prihodnost diskurza na internetu.

Priporočila urednikov

  • Kako je A.I. ustvaril neverjeten kolut športnih vrhuncev, ki ga ne morete nehati gledati