Mennesker kan ikke stoppe online hadefuld tale alene. Vi har brug for bots til at hjælpe

Jon Tyson

Internettet har et problem med hadefulde ytringer.

Indhold

  • Dette er et job til automatisering. En slags
  • Gør problemet værre, ikke bedre
  • En krig på to fronter
  • En løbende udfordring
  • Fremtiden for diskurs på internettet

Gå til en hvilken som helst YouTube-kommentarsektion eller trawl på sociale medier i selv en kort periode, og du vil ikke finde mangel på stødende, ofte fordomsfulde kommentarer. Men hvordan løser du dette problem? Og ved at gøre det, hvordan undgår du ved et uheld at gøre det værre?

I denne måned søger to hadefulde ytringer A.I. Algoritmer blev annonceret: Den ene blev oprettet i Storbritannien, den anden i USA. Begge kunne en dag bruges at gennemsøge sociale medier eller andre områder af onlineverdenen og fremhæve hadefulde ytringer eller stødende ytringer, så det kan rapporteres, slettes eller blokeres.

Anbefalede videoer

Den første, udviklet af forskere fra U.K.'s University of Exeter, er en værktøj ved navn Lola der udnytter de "seneste fremskridt inden for naturlig sprogbehandling og adfærdsteori" til at scanne tusindvis af beskeder i minuttet for at afdække hadefuldt indhold. "Nøjagtighedsniveauet er enestående sammenlignet med eksisterende løsninger på markedet,"

Dr. David Lopez, en af ​​Lolas skabere, fortalte Digital Trends.

Den anden, arbejdet med forskere ved University of Southern California, hævder at være i stand til noget lignende. "Den algoritme, vi udviklede, er en tekstklassificering, som tager opslag på sociale medier - eller potentielt anden tekst - og forudsiger, om teksten indeholder hadefulde ytringer eller ej." Brendan Kennedy, en datalogi Ph.D. studerende, der arbejdede på projektet, fortalte Digital Trends.

Dette er et job til automatisering. En slags

For at forstå, hvorfor det er nødvendigt at vende sig til automatiserede løsninger for at løse disse mest menneskelige problemer, er det afgørende at forstå omfanget af sociale medier. Hvert sekund af dagen sendes der i gennemsnit 6.000 tweets. Det svarer til 350.000 tweets i minuttet, 500 millioner tweets om dagen eller 200 milliarder tweets om året. På Facebook35 millioner mennesker opdaterer deres status på daglig basis.

Selv for velbemandede teknologigiganter gør disse tal det umuligt for menneskelige moderatorer at udføre den nødvendige moderering på egen hånd. Sådanne beslutninger skal træffes meget hurtigt, ikke bare for at være på toppen af ​​det nye indhold, der genereres hvert øjeblik, men også for at visse beskeder ikke ses af et stort antal brugere. Veldesignede algoritmer er den eneste praktiske måde at løse dette problem på.

"Hvert sekund af dagen sendes der i gennemsnit 6.000 tweets. Det svarer til 350.000 tweets i minuttet, 500 millioner tweets om dagen eller 200 milliarder tweets om året."

Ved hjælp af maskinlæring er det muligt - i hvert fald i teorien - at udvikle værktøjer, der kan trænes til at opsøge hadefulde ytringer eller stødende ytringer, så det kan slettes eller rapporteres. Men det her er ikke nemt. Hadefulde ytringer er et bredt og omstridt begreb. Forsøg på at definere det juridisk eller endda uformelt blandt mennesker viser sig at være vanskelige. Nogle eksempler på hadefulde ytringer kan være så klare, at ingen kan bestride dem. Men andre tilfælde kan være mere subtile; den type handlinger, der er mere tilbøjelige til at blive klassificeret som "mikro-aggressioner". Som USA's højesteretsdommer Potter Stewart berømt sagde om uanstændighed: "Jeg ved det, når jeg ser det."

"Der er mange typer af hadefulde ytringer [og] stødende sprog," sagde Kennedy til Digital Trends. "Nogle hadefulde ytringer er lette at markere - for eksempel bagtalelser. Men de fleste hadefulde ytringer er retorisk komplekse, dæmoniserende og dehumaniserende gennem metaforer, kulturelt specifikke stereotyper og 'hundefløjter'."

Gør problemet værre, ikke bedre

Tidligere hadefulde ytringer-jagt A.I. værktøjer har vist sig at være ineffektive, fordi de er et for sløvt instrument til at afdække mere komplekse eksempler på fordomme online. Dårligt udformede algoritmer til registrering af hadefulde ytringer, langt fra at stoppe hadefuld tale online, har faktisk vist sig at forstærke ting som racemæssig bias ved at blokere ikke-stødende tweets sendt af minoritet grupper. Det kunne være noget så simpelt som det faktum, at hadetale klassificerere er overfølsomme over for udtryk som "Sort", "homo" eller "transkønnet", som kan være mere tilbøjelige til at være forbundet med hadefuldt indhold i nogle indstillinger.

Ligesom Microsofts berygtede Tay-chatbot, der lærte racistisk adfærd efter interaktion med brugere, klassifikatorer, der er trænet på originale sociale medier tekstdata, kan ende med at læne sig tungt på specifikke ord, mens de ignorerer eller er uvidende om deres omgivende kontekst.

s

Evnen til bedre at analysere onlinebeskeder i kontekst er, hvad de to nye A.I. detektionssystemer lover. Det Forenede Kongeriges Lola-system hævder at være i stand til at analysere 25.000 beskeder i minuttet for at opdage skadelig adfærd - herunder cybermobning, had og islamofobi - med op til 98% nøjagtighed. En del af dette er at se ikke kun på nøgleord, men ved at bruge en "følelsesdetektionsmotor" til at finde ud af, hvilke følelser der fremkaldes i teksten - uanset om det er kærlighed, vrede, frygt, tillid eller andre.

I mellemtiden har University of Southern California A.I. detektionssystem lover at se på konteksten såvel som indholdet.

"Vores udgangspunkt i denne forskning er en standardmetode, som koder sekvenser af teksttokens til numeriske vektorer, som [derefter] bruges til sandsynligt at udlæse klasseetiketten 'hade' eller 'intet had'," Brandon sagde. "Ved at bruge en 'post-hoc forklaring'-algoritme, som medlemmer af vores team udviklede, programmerede vi hadefulde ytringer klassifikatorer for at give mindre betydning til gruppeidentifikatorer og større betydning for konteksten omkring gruppen identifikatorer."

Systemet blev testet ved at analysere artikler fra den hvide overherredømmes hjemmeside Stormfront og den mere neutrale reportage fra New York Times. Dets skabere hævder, at det var i stand til at sortere had fra ikke-had indhold med et nøjagtighedsniveau på 90 %.

En krig på to fronter

Det er dog ikke kun uafhængige forskere, der udvikler værktøjer til at opdage hadefulde ytringer. Sociale netværk arbejder også på at løse dette problem.

»Vi fjerner nu 10 millioner stykker hadefulde ytringer en fjerdedel,” fortalte Amit Bhattacharyya, direktør for produktledelse i Facebooks community-integritetsgruppe, til Digital Trends. "Af det blev omkring 90% opdaget, før brugerne rapporterede det til os. Vi har investeret mere i - og blevet bedre til - proaktivt at opdage potentielt krænkende indhold, herunder hadefulde ytringer."

Facebooks detektionsteknikker, forklarede Bhattacharyya, fokuserer på ting som tekst- og billedmatching, hvor det leder efter billeder og identiske tekststrenge, der allerede er blevet fjernet som hadefulde ytringer andre steder på platform. Den bruger også maskinindlæringsklassificeringer, der analyserer sprog og andre indholdstyper. Facebook har også yderligere datapunkter, da det kan se på reaktionerne og kommentarerne til et opslag for at se hvordan disse stemmer nøje overens med almindelige sætninger, mønstre og angreb, der tidligere er set i indhold, der krænker dets hadefulde ytringer politikker.

“At slå ned på krænkende adfærd online behøver ikke at være reaktivt. Det kan også være proaktivt.”

Twitter bruger også maskinlæringsværktøjer til at slå ned på hadefuldt indhold. Noget af dette er søgeordsbaseret, men Twitter analyserer desuden brugeradfærd for at prøve at bestemme, hvor behagelige brugere er i interaktioner. For eksempel vil en bruger, der tweeter til en anden bruger og bliver besvaret og derefter fulgt, ses anderledes end en, der tweeter direkte til en anden person gentagne gange, men bliver ignoreret eller blokeret. Disse adfærdsmæssige dynamik kan hjælpe med at afsløre mønstre af chikane eller uønsket målrettet adfærd, som Twitter derefter kan bruge til bedre at forstå indholdet af, hvad der foregår på dens platform.

En talsmand for Twitter fortalte imidlertid til Digital Trends, at meddelelser, der er markeret som stødende, gennemgås manuelt af mennesker (i en maskinprioriteret rækkefølge) for at fastslå, at de er blevet korrekt identificeret som sådan.

En løbende udfordring

Facebooks Bhattacharyya sagde, at det sociale netværk har gjort "store fremskridt" gennem årene med at dæmme op for hadefulde ytringer på sine platforme, og at dets team er stolte af, hvad det har opnået. Samtidig sagde Bhattacharyya: "Vores arbejde er aldrig færdigt, og vi ved, at vi måske aldrig vil være i stand til at forhindre ethvert stykke hadefuldt indhold i at blive vist på vores platforme."

Den deprimerende virkelighed er, at hadefulde ytringer på nettet sandsynligvis aldrig vil blive løst som et problem. I hvert fald ikke uden, at folk laver en forandring. Internettet kan til skade forstærke visse menneskelige stemmer og indlejre og kodificere bestemte menneskelige fordomme, men det er fordi det bare er menneskeheden, der er skrevet stort. Uanset hvilke problemer der eksisterer i den virkelige verden, vil det til en vis grad finde vej ind i onlineverdenen.

Trump med Facebook og Twitter logoer stiliseret billede
Getty Images/Digital Trends Graphic

Når det er sagt, behøver det ikke at være reaktivt at slå ned på krænkende adfærd online. Det kan også være proaktivt. For eksempel påpegede Twitter-talsmanden, der talte med Digital Trends, at af de brugere, der har konti forbudt i 12 timer på grund af regelovertrædelser, støder flertallet igen. Dette tyder på, at der kan opstå læreværdige øjeblikke. Uanset om de virkelig tilskynder brugerne til at revurdere deres adfærd eller blot stopper dem med at opføre sig på en måde, der bryder reglerne, reducerer det ikke desto mindre forstyrrende regelbrudsadfærd på platformen.

Talsmanden sagde også, at Twitter nu udforsker et "nudge"-baseret system. Dette vil give beskeder, før brugere tweeter, og advare dem om, at det, de er ved at poste, kan stride mod Twitters regler. Dette kan skyldes et bestemt søgeord. Når du deler en artikel, du ikke har åbnet via Twitter, kan den også give en advarsel. Dette nudge-system blev for nylig testet med et lille antal brugere. Selvom forsøget nu er afsluttet, er der mulighed for, at det kan blive rullet ud som en funktion til alle brugere i fremtiden.

Fremtiden for diskurs på internettet

Spørgsmålet om hadefulde ytringer og andre stødende ytringer på sociale medier skal kun blive mere presserende. I Frankrig, f.eks loven blev vedtaget i maj der kræver, at bestemt kriminelt indhold fjernes fra sociale medier inden for en time. Hvis det ikke er tilfældet, vil de pågældende sociale medievirksomheder få en bøde på op til 4 % af deres globale omsætning. Andet "åbenbart ulovligt" indhold skal fjernes inden for 24 timer. Justitsminister Nicole Belloubet sagde til det franske parlament, at loven ville bidrage til at reducere hadefulde ytringer på nettet.

Ingen sådan lov er, så vidt vi ved, for alvor blevet foreslået i USA. Men efterhånden som sociale medier bliver en stadig større og mere indflydelsesrig del af den måde, vi kommunikerer på, bliver det stadig vigtigere at slå ned på giftig adfærd. Dette er ikke et problem, der udelukkende kan løses af menneskelige moderatorer. Men det er også noget, der, når det udføres ved hjælp af A.I., skal gøres omhyggeligt - ikke kun for at sikre, at det gør problemet bedre, men for at garantere, at det ikke gør det værre.

Fremtiden for diskurs på internettet afhænger af det.

Redaktørens anbefalinger

  • Hvordan A.I. skabt det fantastiske sportsfremhævningshjul, du ikke kan stoppe med at se