Mennesker kan ikke stoppe hatprat på nettet alene. Vi trenger bots for å hjelpe

Jon Tyson

Internett har et problem med hatytringer.

Innhold

  • Dette er en jobb for automatisering. På en måte
  • Gjør problemet verre, ikke bedre
  • En krig på to fronter
  • En pågående utfordring
  • Fremtiden til diskurs på internett

Gå til en hvilken som helst YouTube-kommentarseksjon eller trål sosiale medier selv for en kort periode, og du vil ikke finne mangel på støtende, ofte fordomsfulle kommentarer. Men hvordan løser du dette problemet? Og ved å gjøre det, hvordan unngår du ved et uhell å gjøre det verre?

Denne måneden har to hatytringer-søkende A.I. Algoritmer ble annonsert: Den ene laget i Storbritannia, den andre i USA. Begge kunne en dag brukes for å gjennomsøke sosiale medier eller andre områder av nettverdenen, og fremheve hatytringer eller støtende ytringer slik at de kan rapporteres, slettes eller blokkeres.

Anbefalte videoer

Den første, utviklet av forskere fra U.K.s University of Exeter, er en verktøy kalt Lola som utnytter de "siste fremskrittene innen naturlig språkbehandling og atferdsteori" for å skanne gjennom tusenvis av meldinger i minuttet for å avdekke hatefullt innhold. "Nøyaktighetsnivået er enestående sammenlignet med eksisterende løsninger i markedet,"

Dr. David Lopez, en av Lolas skapere, fortalte Digital Trends.

Den andre, arbeidet med forskere ved University of Southern California, hevder å være i stand til noe lignende. "Algorithmen vi utviklet er en tekstklassifiserer, som tar innlegg i sosiale medier - eller potensielt annen tekst - og forutsier om teksten inneholder hatytringer eller ikke," Brendan Kennedy, en informatikk Ph.D. student som jobbet med prosjektet, fortalte Digital Trends.

Dette er en jobb for automatisering. På en måte

For å forstå hvorfor det er nødvendig å vende seg til automatiserte løsninger for å løse disse mest menneskelige problemene, er det avgjørende å forstå omfanget av sosiale medier. Hvert sekund av dagen sendes det i gjennomsnitt 6000 tweets. Dette tilsvarer 350 000 tweets i minuttet, 500 millioner tweets om dagen eller 200 milliarder tweets i året. På Facebook, omtrent 35 millioner mennesker oppdaterer statusene sine på daglig basis.

Selv for godt bemannede teknologigiganter gjør disse tallene det umulig for menneskelige moderatorer å gjøre den nødvendige modereringen på egenhånd. Slike beslutninger må tas svært raskt, ikke bare for å holde seg oppdatert på det nye innholdet som genereres hvert øyeblikk, men også for at visse meldinger ikke skal ses av et stort antall brukere. Godt utformede algoritmer er den eneste praktiske måten å løse dette problemet på.

«Hvert sekund av dagen sendes det i gjennomsnitt 6000 tweets. Dette tilsvarer 350 000 tweets i minuttet, 500 millioner tweets om dagen eller 200 milliarder tweets i året."

Ved å bruke maskinlæring er det mulig – i hvert fall i teorien – å utvikle verktøy som kan trenes til å oppsøke hatefulle ytringer eller støtende ytringer slik at de kan slettes eller rapporteres. Men dette er ikke lett. Hatytringer er et bredt og omstridt begrep. Forsøk på å definere det lovlig eller til og med uformelt blant mennesker viser seg å være vanskelig. Noen eksempler på hatytringer kan være så klare at ingen kan bestride dem. Men andre tilfeller kan være mer subtile; den typen handlinger som er mer sannsynlig å bli klassifisert som "mikro-aggresjoner." Som USAs høyesterettsdommer Potter Stewart berømt sa om uanstendighet: "Jeg vet det når jeg ser det."

"Det er mange typer hatytringer [og] støtende språk," sa Kennedy til Digital Trends. "Noen hatytringer er lett å flagge - for eksempel sladder. Men de fleste hatytringer er retorisk komplekse, demoniserende og dehumaniserende gjennom metaforer, kulturspesifikke stereotyper og «hundeplyster».»

Gjør problemet verre, ikke bedre

Tidligere hatpratjakt A.I. verktøy har vist seg ineffektive fordi de er et for sløvt instrument til å avdekke mer komplekse eksempler på fordommer på nettet. Dårlig utformede algoritmer for oppdagelse av hatytringer, langt fra å stoppe hatefulle ytringer på nettet, har faktisk vist seg å forsterke ting som rasistisk skjevhet ved å blokkere ikke-støtende tweets sendt av minoritet grupper. Det kan være noe så enkelt som det faktum at hatefulle ytringer er overfølsomme for uttrykk som «Svart», «homofil» eller «transseksuell» som kan være mer sannsynlig forbundet med hatefullt innhold i enkelte innstillinger.

Akkurat som Microsofts beryktede Tay chatbot, som lærte rasistisk oppførsel etter interaksjon med brukere, klassifiserere som er trent på originale sosiale medier tekstdata kan ende opp med å lene seg tungt på spesifikke ord mens de ignorerer eller er uvitende om konteksten rundt dem.

s

Evnen til å bedre analysere nettmeldinger i kontekst er hva de to nye A.I. deteksjonssystemer lover. Det britiske Lola-systemet hevder å kunne analysere 25 000 meldinger per minutt for å oppdage skadelig atferd – inkludert nettmobbing, hat og islamofobi – med opptil 98 % nøyaktighet. En del av dette er å se ikke bare på nøkkelord, men ved å bruke en "emosjonsdeteksjonsmotor" for å finne ut hvilke følelser som fremkalles i teksten - enten dette er kjærlighet, sinne, frykt, tillit eller andre.

I mellomtiden har University of Southern California A.I. deteksjonssystem lover å se på konteksten så vel som innholdet.

«Vårt utgangspunkt i denne forskningen er en standardmetode, som koder sekvenser av teksttokens til numeriske vektorer, som [da] brukes til å probabilistisk gi ut klasseetiketten «hat» eller «ikke hat»», Brandon sa. «Ved å bruke en «post-hoc forklaring»-algoritme som medlemmer av teamet vårt utviklet, programmerte vi hatytringer klassifiserere for å gi mindre betydning til gruppeidentifikatorer, og større betydning for konteksten rundt gruppen identifikatorer."

Systemet ble testet ved å analysere artikler fra det hvite overherredømmenettstedet Stormfront og den mer nøytrale reportasjen til New York Times. Skaperne hevder at den var i stand til å sortere hat fra ikke-hatinnhold med et nøyaktighetsnivå på 90 %.

En krig på to fronter

Det er imidlertid ikke bare uavhengige forskere som utvikler verktøy for å oppdage hatefulle ytringer. Sosiale nettverk jobber også med å løse dette problemet.

"Vi fjerner nå 10 millioner stykker hatytringer et kvartal, sier Amit Bhattacharyya, direktør for produktledelse i Facebooks integritetsgruppe for fellesskap, til Digital Trends. "Av det ble omtrent 90 % oppdaget før brukere rapporterte det til oss. Vi har investert mer i – og blitt bedre på – proaktivt å oppdage potensielt krenkende innhold, inkludert hatytringer.»

Facebooks deteksjonsteknikker, forklarte Bhattacharyya, fokuserer på ting som tekst- og bildematching, der det ser etter bilder og identiske tekststrenger som allerede er fjernet som hatytringer andre steder på plattform. Den bruker også maskinlæringsklassifiserere som analyserer språk og andre innholdstyper. Facebook har også flere datapunkter, siden det kan se på reaksjonene og kommentarene til et innlegg for å se hvordan disse samsvarer nøye med vanlige setninger, mønstre og angrep som er sett tidligere i innhold som bryter med hatefulle ytringer retningslinjer.

«Å slå ned på krenkende oppførsel på nettet trenger ikke å være reaktivt. Det kan også være proaktivt."

Twitter bruker også maskinlæringsverktøy for å slå ned på hatefullt innhold. Noe av dette er nøkkelordbasert, men Twitter analyserer i tillegg brukeratferd for å prøve å finne ut hvor komfortable brukere er i interaksjoner. For eksempel vil en bruker som tweeter til en annen bruker og blir besvart og deretter fulgt, se annerledes på enn en som tweeter direkte til en annen person gjentatte ganger, men blir ignorert eller blokkert. Denne atferdsdynamikken kan bidra til å avsløre mønstre av trakassering eller uønsket målrettet atferd som Twitter deretter kan bruke for å bedre forstå innholdet i det som skjer på plattformen.

En talsperson for Twitter fortalte imidlertid til Digital Trends at meldinger som er flagget som støtende, gjennomgås manuelt av mennesker (i en maskinprioritert rekkefølge) for å fastslå at de har blitt korrekt identifisert som slik.

En pågående utfordring

Facebooks Bhattacharyya sa at det sosiale nettverket har gjort "store fremskritt" i løpet av årene med å dempe hatefulle ytringer på sine plattformer, og at teamet er stolte av det det har oppnådd. Samtidig sa Bhattacharyya: "Vårt arbeid er aldri fullført, og vi vet at vi kanskje aldri kan forhindre at hvert eneste hatefullt innhold vises på plattformene våre."

Den deprimerende realiteten er at hatprat på nettet sannsynligvis aldri vil bli løst som et problem. I hvert fall ikke uten at folk gjør en endring. Internett kan, til skade for det, forsterke visse menneskelige stemmer, og bygge inn og kodifisere bestemte menneskelige fordommer, men det er fordi det bare er menneskeheten som er skrevet stort. Uansett hvilke problemer som eksisterer i den virkelige verden vil til en viss grad komme inn i den elektroniske verden.

Trump med Facebook- og Twitter-logoer stilisert bilde
Getty Images/Digital Trends Graphic

Når det er sagt, trenger ikke å slå ned på krenkende atferd på nettet være reaktivt. Det kan også være proaktivt. For eksempel påpekte Twitter-talspersonen som snakket med Digital Trends at av brukerne som har kontoer utestengt i 12 timer på grunn av regelbrudd, fornærmer flertallet igjen. Dette antyder at lærebare øyeblikk kan oppstå. Enten de oppriktig ber brukere om å revurdere atferden sin eller bare stoppe dem fra å oppføre seg på en måte som bryter reglene, reduserer det likevel forstyrrende regelbrytende atferd på plattformen.

Talspersonen sa også at Twitter nå utforsker et "nudge"-basert system. Dette vil gi meldinger før brukere tvitrer, og varsle dem om at det de er i ferd med å legge ut kan stride mot Twitters regler. Dette kan være på grunn av et bestemt søkeord. Når du deler en artikkel du ikke har åpnet via Twitter, kan den også gi en advarsel. Dette nudge-systemet ble nylig testet med et lite antall brukere. Mens prøveperioden nå er avsluttet, er det en mulighet for at den kan rulles ut som en funksjon for alle brukere i fremtiden.

Fremtiden til diskurs på internett

Spørsmålet om hatefulle ytringer og andre støtende ytringer i sosiale medier skal bare bli mer presserende. I Frankrike, for eksempel, en loven ble vedtatt i mai som krever at visst kriminelt innhold fjernes fra sosiale medier innen en time. Hvis det ikke er det, vil de aktuelle sosiale medieselskapene få en bot på opptil 4 % av sine globale inntekter. Annet «åpenbart ulovlig» innhold må fjernes innen 24 timer. Justisminister Nicole Belloubet sa til det franske parlamentet at loven vil bidra til å redusere hatefulle ytringer på nettet.

Ingen slik lov har, så vidt vi er klar over, blitt foreslått seriøst i USA. Men etter hvert som sosiale medier blir en stadig større og mer innflytelsesrik del av hvordan vi kommuniserer, vil det å slå ned på giftig atferd bli stadig viktigere. Dette er ikke et problem som kan løses rent av menneskelige moderatorer. Men det er også en som, når det utføres ved hjelp av A.I., må gjøres forsiktig - ikke bare for å sikre at det gjør problemet bedre, men for å garantere at det ikke gjør det verre.

Fremtiden til diskurs på internett avhenger av det.

Redaktørenes anbefalinger

  • Hvordan A.I. skapte den fantastiske sports-høydepunktet du ikke kan slutte å se