Os humanos não conseguem impedir sozinhos o discurso de ódio online. Precisamos de bots para ajudar

Jon Tyson

A internet tem um problema de discurso de ódio.

Conteúdo

  • Este é um trabalho para automação. Tipo de
  • Tornando o problema pior, não melhor
  • Uma guerra em duas frentes
  • Um desafio contínuo
  • O futuro do discurso na internet

Vá a qualquer seção de comentários do YouTube ou pesquise nas redes sociais, mesmo por um curto período de tempo, e você encontrará não faltam comentários ofensivos e frequentemente preconceituosos. Mas como você resolve esse problema? E, ao fazer isso, como você evita acidentalmente piorar a situação?

Este mês, dois A.I. em busca de discurso de ódio. algoritmos foram anunciados: um criado no Reino Unido, o outro nos EUA. Ambos poderiam um dia ser usados vasculhar as redes sociais ou outras áreas do mundo online e destacar o discurso de ódio ou o discurso ofensivo para que possam ser denunciados, eliminados ou bloqueados.

Vídeos recomendados

O primeiro, desenvolvido por pesquisadores da Universidade de Exeter, no Reino Unido, é um ferramenta chamada Lola que aproveita os “últimos avanços no processamento de linguagem natural e na teoria comportamental” para examinar milhares de mensagens por minuto e descobrir conteúdo de ódio. “O nível de precisão é excelente em comparação com as soluções existentes no mercado,”

Dr. David Lopez, um dos criadores de Lola, disse ao Digital Trends.

A segunda, o trabalho de pesquisadores da Universidade do Sul da Califórnia, afirma ser capaz de algo semelhante. “O algoritmo que desenvolvemos é um classificador de texto, que pega postagens em mídias sociais – ou potencialmente outro texto – e prevê se o texto contém discurso de ódio ou não”, Brendan Kennedy, Ph.D. em ciência da computação. estudante que trabalhou no projeto, disse ao Digital Trends.

Este é um trabalho para automação. Tipo de

Para compreender por que é necessário recorrer a soluções automatizadas para resolver este problema tão humano, é crucial compreender a enorme escala das redes sociais. A cada segundo do dia, são enviados em média 6.000 tweets. Isso equivale a 350 mil tweets por minuto, 500 milhões de tweets por dia ou 200 bilhões de tweets por ano. Sobre Facebook, aproximadamente 35 milhões de pessoas atualizam seus status diariamente.

Mesmo para gigantes da tecnologia bem equipados, esses números tornam inviável que moderadores humanos façam a moderação necessária por conta própria. Tais decisões devem ser tomadas muito rapidamente, não apenas para ficar por dentro dos novos conteúdos gerados a cada momento, mas também para que determinadas mensagens não sejam vistas por um grande número de usuários. Algoritmos bem projetados são a única maneira prática de resolver esse problema.

“A cada segundo do dia, são enviados em média 6.000 tweets. Isso equivale a 350 mil tweets por minuto, 500 milhões de tweets por dia ou 200 bilhões de tweets por ano”.

Utilizando a aprendizagem automática, é possível – pelo menos em teoria – desenvolver ferramentas que podem ser treinadas para procurar discursos de ódio ou discursos ofensivos, para que possam ser eliminados ou denunciados. Mas isso não é fácil. Discurso de ódio é um termo amplo e contestado. As tentativas de defini-lo legalmente ou mesmo informalmente entre os humanos revelam-se difíceis. Alguns exemplos de discurso de ódio podem ser tão claros que ninguém os pode contestar. Mas outros casos podem ser mais sutis; o tipo de ações com maior probabilidade de serem classificadas como “microagressões”. Como disse o juiz da Suprema Corte dos Estados Unidos, Potter Stewart, sobre a obscenidade: “Eu sei quando vejo”.

“Existem muitos tipos de discurso de ódio [e] linguagem ofensiva”, disse Kennedy ao Digital Trends. “Alguns discursos de ódio são fáceis de sinalizar – por exemplo, calúnias. Mas a maior parte do discurso de ódio é retoricamente complexo, demonizando e desumanizando através de metáforas, estereótipos culturalmente específicos e ‘assobios de cães’”.

Tornando o problema pior, não melhor

Anterior IA de caça ao discurso de ódio. as ferramentas revelaram-se ineficazes porque são um instrumento demasiado contundente para descobrir exemplos mais complexos de preconceito online. Algoritmos de detecção de discurso de ódio mal concebidos, longe de impedirem o discurso de ódio online, na verdade, foi demonstrado que amplifica coisas como o preconceito racial, bloqueando tweets não ofensivos enviados por minorias grupos. Isso poderia ser algo tão simples como o facto de os classificadores de discurso de ódio serem demasiado sensíveis a termos como “Negro”, “gay” ou “transgênero”, que podem ter maior probabilidade de estar associados a conteúdo de ódio em alguns configurações.

Assim como o infame chatbot Tay da Microsoft, que aprendeu comportamento racista após interagir com usuários, classificadores treinados em dados de texto originais de mídia social podem acabar se apoiando fortemente em palavras específicas, ignorando ou desconhecendo o contexto circundante.

é

A capacidade de analisar melhor as mensagens online no contexto é o que os dois novos A.I. os sistemas de detecção prometem. O sistema Lola do Reino Unido afirma ser capaz de analisar 25.000 mensagens por minuto para detectar comportamentos prejudiciais – incluindo cyberbullying, ódio e islamofobia – com até 98% de precisão. Parte disso envolve não apenas olhar para palavras-chave, mas usar um “mecanismo de detecção de emoções” para descobrir quais emoções são provocadas no texto – sejam amor, raiva, medo, confiança ou outras.

Enquanto isso, a Universidade do Sul da Califórnia A.I. O sistema de detecção promete observar tanto o contexto quanto o conteúdo.

“Nosso ponto de partida nesta pesquisa é um método padrão, que codifica sequências de tokens de texto em números vetores, que são [então] usados ​​para produzir probabilisticamente o rótulo de classe de ‘ódio’ ou ‘não ódio’”, Brandon disse. “Usando um algoritmo de ‘explicação post-hoc’ desenvolvido por membros da nossa equipe, programamos o discurso de ódio classificadores para dar menos importância aos identificadores de grupo e mais importância ao contexto que envolve o grupo identificadores.”

O sistema foi testado através da análise de artigos do site de supremacia branca Stormfront e da reportagem mais neutra do New York Times. Seus criadores afirmam que ele foi capaz de separar conteúdo de ódio de conteúdo não-ódio com um nível de precisão de 90%.

Uma guerra em duas frentes

No entanto, não são apenas investigadores independentes que estão a desenvolver ferramentas para detetar o discurso de ódio. As redes sociais também estão trabalhando para solucionar esse problema.

“Agora removemos 10 milhões de pedaços de discurso de ódio um quarto”, disse Amit Bhattacharyya, diretor de gerenciamento de produtos do grupo de integridade comunitária do Facebook, à Digital Trends. “Desse total, cerca de 90% foram detectados antes que os usuários nos reportassem. Investimos mais – e melhoramos – na detecção proativa de conteúdo potencialmente violador, incluindo discurso de ódio.”

As técnicas de detecção do Facebook, explicou Bhattacharyya, concentram-se em coisas como correspondência de texto e imagem, nas quais procura imagens e sequências de texto idênticas que já foram removidas como discurso de ódio em outras partes do site. plataforma. Ele também usa classificadores de aprendizado de máquina que analisam linguagem e outros tipos de conteúdo. O Facebook também possui pontos de dados adicionais, pois pode analisar as reações e comentários de uma postagem para ver como correspondem estreitamente a frases, padrões e ataques comuns vistos anteriormente em conteúdo que viola seu discurso de ódio políticas.

“A repressão ao comportamento abusivo online não precisa ser reativa. Também pode ser proativo.”

O Twitter também usa ferramentas de aprendizado de máquina para reprimir conteúdo de ódio. Parte disso é baseado em palavras-chave, mas o Twitter analisa adicionalmente o comportamento do usuário para tentar determinar o quão confortáveis ​​os usuários se sentem nas interações. Por exemplo, um usuário que tweeta para outro usuário e é respondido e seguido será visto de forma diferente de alguém que tweeta diretamente para outra pessoa repetidamente, mas é ignorado ou bloqueado. Essas dinâmicas comportamentais podem ajudar a revelar padrões de assédio ou comportamento direcionado indesejado que o Twitter pode usar para entender melhor o conteúdo do que está acontecendo em sua plataforma.

No entanto, um porta-voz do Twitter disse ao Digital Trends que as mensagens sinalizadas como ofensivas são revisadas manualmente por humanos (em uma ordem priorizada por máquina) para determinar se eles foram corretamente identificados como tal.

Um desafio contínuo

Bhattacharyya, do Facebook, disse que a rede social fez “grandes progressos” ao longo dos anos na redução do discurso de ódio nas suas plataformas e que a sua equipa está orgulhosa do que conseguiu. Ao mesmo tempo, Bhattacharyya disse: “Nosso trabalho nunca está completo e sabemos que talvez nunca seremos capazes de impedir que todo conteúdo de ódio apareça em nossas plataformas”.

A triste realidade é que o discurso de ódio online provavelmente nunca será resolvido como um problema. Pelo menos, não sem que as pessoas façam uma mudança. A Internet pode, em seu detrimento, amplificar certas vozes humanas e incorporar e codificar preconceitos humanos específicos, mas isso é porque é apenas a humanidade em grande escala. Quaisquer problemas que existam no mundo real irão, até certo ponto, chegar ao mundo online.

Trump com imagem estilizada dos logotipos do Facebook e do Twitter
Gráfico Getty Images/Tendências Digitais

Dito isto, a repressão ao comportamento abusivo online não precisa ser reativa. Também pode ser proativo. Por exemplo, o porta-voz do Twitter que conversou com a Digital Trends destacou que, dos usuários que têm contas banidas por 12 horas por infrações às regras, a maioria volta a ofender. Isto sugere que podem ocorrer momentos de ensino. Quer eles genuinamente estimulem os usuários a reexaminarem seu comportamento ou simplesmente os impeçam de se comportar de uma forma que viole as regras, isso ainda reduz o comportamento perturbador de violação de regras na plataforma.

O porta-voz também disse que o Twitter agora está explorando um sistema baseado em “nudge”. Isso oferecerá avisos antes que os usuários tweetem, alertando-os de que o que estão prestes a postar pode violar as regras do Twitter. Isso pode ser devido a uma palavra-chave específica. Ao compartilhar um artigo que você não abriu via Twitter, ele também pode oferecer um aviso. Este sistema de nudge foi testado recentemente com um pequeno número de usuários. Embora o teste já tenha sido concluído, existe a possibilidade de ele ser implementado como um recurso para todos os usuários no futuro.

O futuro do discurso na internet

A questão do discurso de ódio e de outros discursos ofensivos nas redes sociais só se tornará mais premente. Na França, por exemplo, um lei foi aprovada em maio que exige que determinados conteúdos criminosos sejam removidos das redes sociais dentro de uma hora. Caso contrário, as empresas de redes sociais em questão enfrentarão uma multa de até 4% da sua receita global. Outros conteúdos “manifestamente ilícitos” devem ser removidos dentro de 24 horas. A Ministra da Justiça, Nicole Belloubet, disse ao Parlamento francês que a lei ajudaria a reduzir o discurso de ódio online.

Até onde sabemos, nenhuma lei desse tipo foi seriamente proposta nos Estados Unidos. Mas à medida que as redes sociais se tornam uma parte cada vez maior e mais influente da forma como comunicamos, a repressão ao comportamento tóxico tornar-se-á cada vez mais importante. Este não é um problema que possa ser resolvido apenas por moderadores humanos. Mas também é algo que, quando realizado com recurso à IA, deve ser feito com cuidado – não apenas para garantir que melhora o problema, mas para garantir que não o agrava.

O futuro do discurso na internet depende disso.

Recomendações dos Editores

  • Como a IA criou aquele incrível rolo de destaques esportivos que você não consegue parar de assistir