Människor kan inte sluta hattal på nätet ensamma. Vi behöver bots för att hjälpa

Jon Tyson

Internet har ett problem med hatretorik.

Innehåll

  • Detta är ett jobb för automatisering. Ungefär
  • Att göra problemet värre, inte bättre
  • Ett krig på två fronter
  • En pågående utmaning
  • Framtiden för diskurs på internet

Gå till valfri YouTube-kommentarsektion eller genomsök sociala medier även under en kort tid och du kommer inte att hitta någon brist på stötande, ofta fördomsfulla kommentarer. Men hur löser du detta problem? Och genom att göra det, hur undviker du att av misstag göra det värre?

Den här månaden har två hattalssökande A.I. Algoritmer tillkännagavs: en skapad i Storbritannien, den andra i USA. Båda skulle en dag kunna användas att leta igenom sociala medier eller andra delar av onlinevärlden och lyfta fram hatretorik eller stötande uttalanden så att det kan rapporteras, raderas eller blockeras.

Rekommenderade videor

Den första, utvecklad av forskare från U.K.s University of Exeter, är en verktyg som heter Lola som utnyttjar de "senaste framstegen inom naturlig språkbehandling och beteendeteori" för att skanna igenom tusentals meddelanden i minuten för att avslöja hatiskt innehåll. "Nivån av noggrannhet är enastående jämfört med befintliga lösningar på marknaden,"

Dr David Lopez, en av Lolas skapare, berättade för Digital Trends.

Den andra, arbetet med forskare vid University of Southern California, säger sig vara kapabel till något liknande. "Algorithmen vi utvecklade är en textklassificerare, som tar inlägg på sociala medier - eller potentiellt annan text - och förutsäger om texten innehåller hatretorik eller inte." Brendan Kennedy, en doktorsexamen i datavetenskap. student som arbetade med projektet, berättade för Digital Trends.

Detta är ett jobb för automatisering. Ungefär

För att förstå varför det är nödvändigt att vända sig till automatiserade lösningar för att lösa detta mest mänskliga problem, är det avgörande att förstå omfattningen av sociala medier. Varje sekund av dagen skickas i genomsnitt 6 000 tweets. Det motsvarar 350 000 tweets per minut, 500 miljoner tweets om dagen eller 200 miljarder tweets per år. På Facebook, cirka 35 miljoner människor uppdaterar sina statusar dagligen.

Även för välbemannade teknikjättar gör dessa siffror det omöjligt för mänskliga moderatorer att göra den nödvändiga modereringen på egen hand. Sådana beslut måste fattas mycket snabbt, inte bara för att hålla koll på det nya innehållet som genereras varje ögonblick, utan också för att vissa meddelanden inte ska ses av ett stort antal användare. Väl utformade algoritmer är det enda praktiska sättet att lösa detta problem.

"Varje sekund på dagen skickas i genomsnitt 6 000 tweets. Detta motsvarar 350 000 tweets per minut, 500 miljoner tweets om dagen eller 200 miljarder tweets per år."

Med hjälp av maskininlärning är det möjligt – åtminstone i teorin – att utveckla verktyg som kan tränas för att söka upp hatretorik eller kränkande tal så att det kan raderas eller rapporteras. Men det här är inte lätt. Hatretorik är ett brett och omtvistat begrepp. Försök att definiera det lagligt eller till och med informellt bland människor visar sig vara svårt. Vissa exempel på hatretorik kan vara så tydliga att ingen kan bestrida dem. Men andra fall kan vara mer subtila; den typ av handlingar som är mer benägna att klassas som "mikro-aggressioner". Som USA: s högsta domstolsdomare Potter Stewart berömt sa om obscenitet: "Jag vet det när jag ser det."

"Det finns många typer av hatretorik [och] stötande språk", sa Kennedy till Digital Trends. "Vissa hatretorik är lätt att flagga - till exempel förtal. Men de flesta hatretorik är retoriskt komplexa, demoniserande och avhumaniserande genom metaforer, kulturellt specifika stereotyper och "hundvisslingar."

Att göra problemet värre, inte bättre

Tidigare hatpropaganda-jakt A.I. verktyg har visat sig vara ineffektiva eftersom de är ett alltför trubbigt instrument för att avslöja mer komplexa exempel på fördomar online. Dåligt utformade algoritmer för upptäckt av hattal, långt ifrån att stoppa hattal online, har faktiskt visat sig förstärka saker som rasfördomar genom att blockera icke-kränkande tweets som skickas av minoritet grupper. Det kan vara något så enkelt som att klassificerare av hatretorik är överkänsliga för termer som "Svart", "gay" eller "transpersoner" som kan vara mer benägna att förknippas med hatiskt innehåll i vissa inställningar.

Precis som Microsofts ökända Tay chatbot, som lärde sig rasistiskt beteende efter interaktion med användare, klassificerare som är tränade på original textdata för sociala medier kan sluta luta sig tungt på specifika ord samtidigt som de ignorerar eller är omedvetna om deras omgivande sammanhang.

s

Möjligheten att bättre analysera onlinemeddelanden i sitt sammanhang är vad de två nya A.I. detektionssystem lovar. Storbritanniens Lola-system hävdar att de kan analysera 25 000 meddelanden per minut för att upptäcka skadliga beteenden – inklusive nätmobbning, hat och islamofobi – med upp till 98 % noggrannhet. En del av detta är att inte bara titta på nyckelord, utan genom att använda en "känsloupptäckningsmotor" för att ta reda på vilka känslor som framkallas i texten - oavsett om det är kärlek, ilska, rädsla, tillit eller andra.

Samtidigt har University of Southern California A.I. detektionssystem lovar att titta på sammanhanget såväl som innehållet.

"Vår utgångspunkt i denna forskning är en standardmetod, som kodar sekvenser av texttokens till numeriska vektorer, som [sedan] används för att probabilistiskt mata ut klassetiketten "hat" eller "inget hat", "Brandon sa. "Med hjälp av en "post-hoc förklaring"-algoritm som medlemmar i vårt team utvecklade, programmerade vi hatpropaganda klassificerare för att ge mindre vikt åt gruppidentifierare och större betydelse för sammanhanget kring gruppen identifierare.”

Systemet testades genom att analysera artiklar från den vita supremacist-webbplatsen Stormfront och det mer neutrala reportaget från New York Times. Dess skapare hävdar att det var kapabelt att sortera hat från icke-hatinnehåll med en noggrannhetsnivå på 90 %.

Ett krig på två fronter

Det är dock inte bara oberoende forskare som utvecklar verktyg för att upptäcka hatretorik. Sociala nätverk arbetar också för att lösa detta problem.

"Vi tar nu bort 10 miljoner bitar av hatretorik en fjärdedel, säger Amit Bhattacharyya, chef för produkthantering i Facebooks communitys integritetsgrupp, till Digital Trends. "Av det upptäcktes cirka 90 % innan användarna rapporterade det till oss. Vi har investerat mer i – och blivit bättre på – att proaktivt upptäcka potentiellt kränkande innehåll, inklusive hatpropaganda.”

Facebooks detektionstekniker, förklarade Bhattacharyya, fokuserar på saker som text- och bildmatchning, där det letar efter bilder och identiska textsträngar som redan har tagits bort som hatretorik någon annanstans på plattform. Den använder också maskininlärningsklassificerare som analyserar språk och andra innehållstyper. Facebook har också ytterligare datapunkter, eftersom det kan titta på reaktionerna och kommentarerna till ett inlägg för att se hur dessa matchar nära vanliga fraser, mönster och attacker som tidigare setts i innehåll som bryter mot dess hatretorik politik.

"Att slå ner på kränkande beteende online behöver inte vara reaktivt. Det kan också vara proaktivt.”

Twitter använder också verktyg för maskininlärning för att slå ner på hatiskt innehåll. En del av detta är nyckelordsbaserat, men Twitter analyserar dessutom användarbeteende för att försöka avgöra hur bekväma användare är i interaktioner. Till exempel kommer en användare som twittrar till en annan användare och besvaras och sedan följs att ses annorlunda än en som twittrar direkt till en annan person upprepade gånger men ignoreras eller blockeras. Denna beteendedynamik kan hjälpa till att avslöja mönster av trakasserier eller oönskat riktat beteende som Twitter sedan kan använda för att bättre förstå innehållet i vad som händer på dess plattform.

En talesperson för Twitter sa dock till Digital Trends att meddelanden som flaggats som stötande granskas manuellt av människor (i maskinprioriterad ordning) för att fastställa att de har identifierats korrekt som sådan.

En pågående utmaning

Facebooks Bhattacharyya sa att det sociala nätverket har gjort "stora framsteg" under åren när det gäller att stävja hatretorik på sina plattformar och att dess team är stolta över vad det har åstadkommit. Samtidigt sa Bhattacharyya, "Vårt arbete är aldrig färdigt och vi vet att vi kanske aldrig kommer att kunna förhindra varje bit av hatiskt innehåll från att dyka upp på våra plattformar."

Den deprimerande verkligheten är att hatretorik på nätet förmodligen aldrig kommer att lösas som ett problem. Åtminstone inte utan att folk gör en förändring. Internet kan, till dess nackdel, förstärka vissa mänskliga röster och bädda in och kodifiera särskilda mänskliga fördomar, men det beror på att det bara är mänskligheten som är skriven stor. Vilka problem som än finns i den verkliga världen kommer i viss mån att ta sig in i onlinevärlden.

Trump med Facebook och Twitter logotyper stiliserad bild
Getty Images/Digital Trends Graphic

Som sagt, att slå ner på kränkande beteende online behöver inte vara reaktivt. Det kan också vara proaktivt. Till exempel påpekade Twitter-talespersonen som pratade med Digital Trends att av de användare som har konton avstängda i 12 timmar på grund av regelöverträdelser, så kränker majoriteten igen. Detta tyder på att lärbara stunder kan uppstå. Oavsett om de verkligen uppmanar användare att ompröva sitt beteende eller helt enkelt stoppa dem att bete sig på ett sätt som bryter mot reglerna, minskar det ändå störande regelöverträdande beteende på plattformen.

Talesmannen sa också att Twitter nu utforskar ett "nudge"-baserat system. Detta kommer att erbjuda uppmaningar innan användare twittrar, vilket varnar dem om att det de är på väg att posta kan strida mot Twitters regler. Detta kan bero på ett visst sökord. När du delar en artikel som du inte har öppnat via Twitter kan den också ge en varning. Detta nudge-system testades nyligen med ett litet antal användare. Även om rättegången nu har avslutats, finns det en möjlighet att den kan rullas ut som en funktion för alla användare i framtiden.

Framtiden för diskurs på internet

Frågan om hatretorik och annat kränkande tal i sociala medier kommer bara att bli mer angelägen. I Frankrike, till exempel, en lag antogs i maj som kräver att visst kriminellt innehåll tas bort från sociala medier inom en timme. Om det inte är det kommer sociala medieföretagen i fråga att få böter på upp till 4 % av sina globala intäkter. Annat "uppenbart olagligt" innehåll måste tas bort inom 24 timmar. Justitieminister Nicole Belloubet sa till det franska parlamentet att lagen skulle bidra till att minska hatretorik på nätet.

Ingen sådan lag har, såvitt vi känner till, på allvar föreslagits i USA. Men i takt med att sociala medier blir en allt större och mer inflytelserik del av hur vi kommunicerar, kommer det att bli allt viktigare att slå ner på giftigt beteende. Detta är inte ett problem som kan åtgärdas rent av mänskliga moderatorer. Men det är också något som, när det utförs med hjälp av A.I., måste göras försiktigt - inte bara för att säkerställa att det gör problemet bättre, utan för att garantera att det inte gör det värre.

Framtiden för diskurs på internet beror på det.

Redaktörens rekommendationer

  • Hur A.I. skapade den där fantastiska sporthöjdpunktsrullen som du inte kan sluta titta på