O Snap poderia salvar a Internet de notícias falsas? Aqui está a arma secreta da empresa

Vagelis PapalexakisUC Riverside

Quando o Snapchat foi apresentado pela primeira vez como parte de uma aula de engenharia mecânica em Stanford, o horrorizado assistente de ensino do curso se perguntou abertamente se os criadores do aplicativo haviam criado um aplicativo de sexting. Menos de uma década depois, o Snapchat poderia ajudar a resolver um dos maiores problemas que a tecnologia enfrenta atualmente: parar o propagação de “notícias falsas” online.

Conteúdo

  • O sinal para notícias falsas?
  • Um jogo de gato e rato para sempre

Com esse objetivo em mente, a Snap Research — a divisão de pesquisa da Snap, Inc. – recentemente doou financiamento para um projeto da Universidade da Califórnia, em Riverside, com o objetivo de encontrar uma nova maneira de detectar notícias falsas online. O algoritmo que UC Riverside desenvolveu é supostamente capaz de detectar notícias falsas com um nível de precisão impressionante de até 75%. Com o apoio do Snap, eles esperam melhorar ainda mais isso.

Vídeos recomendados

“Pelo que entendi, eles estão muito interessados ​​em ter uma boa compreensão de como alguém poderia entender esse problema – e, em última análise, resolvê-lo.”

“A Snap não é uma das primeiras empresas que viriam à mente dado [este problema],” Vagelis Papalexakis, professor assistente do Departamento de Ciência da Computação e Engenharia da UC Riverside, disse à Digital Trends. “Mesmo assim, a Snap é uma empresa que lida com conteúdo. Pelo que entendi, eles estão muito interessados ​​em ter uma boa compreensão de como alguém poderia entender esse problema – e, em última análise, resolvê-lo.”

O que torna a investigação da UC Riverside diferente das dezenas, talvez até centenas, de outros projectos de investigação que tentam quebrar o ciclo das notícias falsas é a ambição do projecto. Não é um simples bloqueador de palavras-chave, nem tem como objetivo proibir determinados URLS. Nem, talvez o mais interessante, está particularmente interessado nos factos contidos nas histórias. Isso o diferencia de sites de verificação de fatos como o Snopes, que dependem de informações e avaliações humanas em vez de uma verdadeira automação.

“Eu realmente não confio em anotações humanas”, disse Papalexakis. “Não porque eu não confie nos humanos, mas porque este é um problema inerentemente difícil de obter uma resposta definitiva. Nossa motivação para isso vem de perguntar o quanto podemos fazer olhando apenas os dados e se podemos usar o mínimo possível de anotações humanas – se é que podemos usar alguma.”

O sinal para notícias falsas?

O novo algoritmo analisa o maior número possível de “sinais” de uma notícia e usa isso para tentar classificar a confiabilidade do artigo. Papalexakis disse: “Quem compartilhou o artigo? Quais hashtags eles usaram? Quem escreveu isso? De qual organização de notícias é? Qual é a aparência da página da web? Estamos tentando descobrir quais fatores [importam] e quanta influência eles têm.”

Por exemplo, a hashtag #LockHerUp pode não confirmar necessariamente que um artigo é uma notícia falsa por si só. No entanto, se uma pessoa adicionar esse sufixo ao compartilhar um artigo no Twitter, isso pode sugerir uma certa inclinação para a história. Adicione um número suficiente dessas pistas e a ideia é que as peças separadas formem um todo revelador. Dito de outra forma, se ele anda como um pato e grasna como um pato, é provável que seja um pato. Ou, neste caso, um pato russo bamboleante e grasnado.

protesto contra notícias falsas
algoritmo de suporte do snapchat combate notícias falsas protesto getty2

“Nosso interesse é entender o que acontece desde o início e como podemos sinalizar algo nos estágios iniciais, antes que comece a ‘infectar’ a rede”, continuou Papalexakis. “Esse é o nosso interesse por enquanto: descobrir o que podemos extrair do conteúdo e do contexto de um determinado artigo.”

O algoritmo desenvolvido pelo grupo de Papalexakis usa algo chamado decomposição tensorial para analisar os vários fluxos de informação sobre uma notícia. Tensores são cubos multidimensionais, úteis para modelar e analisar dados que possuem muitos componentes diferentes. A decomposição de tensores torna possível descobrir padrões em dados quebrando um tensor em informações elementares, representando um padrão ou tópico específico.

“Mesmo um número ridiculamente pequeno de artigos anotados pode nos levar a níveis de precisão muito, muito altos”

O algoritmo primeiro usa decomposição tensorial para representar os dados de forma a agrupar possíveis notícias falsas. Uma segunda camada do algoritmo conecta artigos que são considerados próximos uns dos outros. Mapear a ligação entre estes artigos baseia-se num princípio denominado “culpa por associação”, sugerir que as conexões entre dois artigos significam que é mais provável que sejam semelhantes a um outro.

Depois disso, o aprendizado de máquina é aplicado aos gráficos. Esta abordagem “semi-supervisionada” utiliza um pequeno número de artigos que foram categorizados pelos utilizadores e depois aplica este conhecimento a um conjunto de dados muito maior. Embora isso ainda envolva humanos em algum nível, envolve menos anotações humanas do que a maioria dos métodos alternativos de classificação de possíveis notícias falsas. O nível de precisão de 75% divulgado pelos pesquisadores baseia-se na filtragem correta de dois conjuntos de dados públicos e em uma coleção adicional de 63 mil artigos de notícias.

“Mesmo um número ridiculamente pequeno de artigos anotados pode nos levar a níveis de precisão muito, muito altos”, disse Papalexakis. “Muito mais do que ter um sistema onde tentamos capturar características individuais, como linguística, ou outras coisas que as pessoas podem considerar desinformativas.”

Um jogo de gato e rato para sempre

Do ponto de vista da ciência da computação, é fácil ver por que este trabalho atrairia Vagelis Papalexakis e os outros pesquisadores da UC Riverside – bem como o pessoal do Snapchat. Ser capaz não apenas de separar notícias falsas de notícias reais, mas também distinguir artigos de opinião tendenciosos de jornalismo sério ou artigos satíricos de A cebola é o tipo de enigma de big data com o qual os engenheiros sonham.

A grande questão, porém, é como esse algoritmo será usado – e se ele poderá, em última instância, ajudar a reprimir o fenômeno das notícias falsas.

A contribuição da Snap para o projeto (que equivale a um “presente” de US$ 7.000 e apoio não financeiro adicional) não garante que a empresa adotará a tecnologia em um produto comercial. Mas Papalexakis disse que espera que a pesquisa acabe “levando a alguma transferência de tecnologia para a plataforma”.

O objetivo final, explicou ele, é desenvolver um sistema que seja capaz de fornecer a qualquer artigo o que equivale a uma pontuação de confiabilidade. Em teoria, tal pontuação poderia ser usada para filtrar notícias falsas antes mesmo que elas tenham a chance de serem percebidas pelo usuário.

Esta é uma ideia não muito diferente dos filtros de spam de e-mail de aprendizado de máquina, que também aplicam um sistema de pontuação baseado em fatores como a proporção entre imagem e texto no corpo de uma mensagem. No entanto, Papalexakis sugeriu que uma abordagem preferível poderia ser simplesmente alertar os usuários sobre aqueles histórias com pontuação alta na categoria de possível falsificação - “e então deixar o usuário decidir o que fazer com isto."

Uma boa razão para isso é o fato de que as notícias nem sempre se dividem tão bem entre spam e spam. categorias de presunto, como o e-mail faz. Claro, alguns artigos podem ser uma invenção total, mas outros podem ser mais questionáveis: não apresentam mentiras diretas, mas mesmo assim pretendem levar o leitor em uma determinada direção. A remoção desses artigos, mesmo quando podemos encontrar opiniões conflitantes com as nossas, entra em um território mais complicado.

“Isso cai em uma área cinzenta”, continuou Papalexakis. “Tudo bem se pudermos categorizar este artigo como um artigo fortemente tendencioso. Existem diferentes categorias para o que poderíamos chamar de desinformação. [Um artigo fortemente tendencioso] pode não ser tão ruim quanto um artigo totalmente falso, mas ainda assim vende um ponto de vista específico ao leitor. É mais sutil do que falso vs. não é falso."

Em última análise, apesar do desejo de Papalexakis de criar um sistema que utilize o mínimo de supervisão possível, possível, ele reconhece que este é um desafio que terá de incluir tanto os seres humanos como os máquinas.

“Vejo isso como um jogo de gato e rato do ponto de vista tecnológico”, disse ele. “Não creio que dizer ‘resolver’ seja a forma correta de encarar a questão. Fornecer às pessoas uma ferramenta que possa ajudá-las a entender coisas específicas sobre um artigo é parte da solução. Essa solução seriam ferramentas que podem ajudá-lo a julgar as coisas por si mesmo, mantendo-se educado como um cidadão ativo, entendendo as coisas e lendo nas entrelinhas. Não creio que uma solução exclusivamente tecnológica possa ser aplicada a este problema porque muito disso depende das pessoas e de como elas veem as coisas.”

Recomendações dos Editores

  • Algoritmo supera humanos na detecção de notícias falsas