Lorsque Snapchat a été présenté pour la première fois dans le cadre d’un cours de génie mécanique à Stanford, l’assistant pédagogique horrifié s’est ouvertement demandé si les créateurs de l’application avaient créé une application de sexting. Moins d’une décennie plus tard, Snapchat pourrait contribuer à résoudre l’un des plus gros problèmes technologiques actuels: arrêter le diffusion de « fausses nouvelles » en ligne.
Contenu
- Le signal des fausses nouvelles ?
- Un jeu du chat et de la souris pour tous les âges
Avec cet objectif à l'esprit, Snap Research – la division de recherche de Snap, Inc. – a récemment financé un projet de l’Université de Californie à Riverside, visant à trouver une nouvelle façon de détecter les fausses nouvelles en ligne. Le algorithme développé par UC Riverside est apparemment capable de détecter les fausses nouvelles avec un niveau de précision impressionnant allant jusqu'à 75 %. Avec le soutien de Snap, ils espèrent encore améliorer cela.
Vidéos recommandées
« D’après ce que je comprends, ils sont très intéressés à bien comprendre comment comprendre ce problème – et finalement le résoudre. »
"Snap n'est pas l'une des premières entreprises à laquelle on pense étant donné [ce problème]", Vagelis Papalexakis, professeur adjoint au département d'informatique et d'ingénierie de l'UC Riverside, a déclaré à Digital Trends. « Néanmoins, Snap est une entreprise qui gère du contenu. Si je comprends bien, ils sont très intéressés à bien comprendre comment comprendre ce problème – et finalement le résoudre.
Ce qui différencie les recherches de l’UC Riverside des dizaines, voire des centaines, d’autres projets de recherche tentant de briser le cycle des fausses nouvelles, c’est l’ambition du projet. Il ne s’agit pas d’un simple bloqueur de mots clés et il ne vise pas non plus à interdire complètement certaines URL. Et ce qui est peut-être le plus intéressant, c’est qu’il ne s’intéresse pas particulièrement aux faits contenus dans les histoires. Cela le distingue des sites Web de vérification des faits comme Snopes, qui s'appuient sur la contribution et l'évaluation humaines plutôt que sur une véritable automatisation.
"Je ne fais pas vraiment confiance aux annotations humaines", a déclaré Papalexakis. « Non pas parce que je ne fais pas confiance aux humains, mais c’est un problème intrinsèquement difficile auquel il faut trouver une réponse définitive. Notre motivation vient de la question de savoir ce que nous pouvons faire en examinant uniquement les données et si nous pouvons utiliser le moins d’annotations humaines possible, voire pas du tout.
Le signal des fausses nouvelles ?
Le nouvel algorithme examine autant de « signaux » que possible à partir d’un reportage et les utilise pour tenter de classer la fiabilité de l’article. Papalexakis a déclaré: « Qui a partagé l’article? Quels hashtags ont-ils utilisés? Qui l'a écrit? De quelle agence de presse provient-il? À quoi ressemble la page Web? Nous essayons de déterminer quels facteurs [comptent] et quelle influence ils ont.
Par exemple, le hashtag #LockHerUp ne confirme pas nécessairement qu’un article est en soi une fausse nouvelle. Cependant, si une personne ajoute ce suffixe lorsqu’elle partage un article sur Twitter, cela pourrait suggérer une certaine orientation à l’histoire. Ajoutez suffisamment de ces indices ensemble, et l’idée est que les éléments séparés s’additionnent pour former un tout révélateur. En d’autres termes, s’il marche comme un canard et cancane comme un canard, il y a de fortes chances que ce soit un canard. Ou, dans ce cas, un robot canard russe qui se dandine et cancane.
« Notre intérêt est de comprendre ce qui se passe dès le début et comment nous pouvons signaler quelque chose dès les premiers stades avant qu’il ne commence à « infecter » le réseau », a poursuivi Papalexakis. "C'est notre intérêt pour l'instant: déterminer ce que nous pouvons extraire du contenu et du contexte d'un article particulier."
L’algorithme développé par le groupe de Papalexakis utilise ce qu’on appelle la décomposition tensorielle pour analyser les différents flux d’informations sur un article d’actualité. Les tenseurs sont des cubes multidimensionnels, utiles pour modéliser et analyser des données comportant de nombreux composants différents. La décomposition tensorielle permet de découvrir des modèles dans les données en divisant un tenseur en éléments d'information élémentaires, représentant un modèle ou un sujet particulier.
"Même un nombre ridiculement petit d'articles annotés peut nous conduire à des niveaux de précision vraiment très élevés"
L’algorithme utilise d’abord la décomposition tensorielle pour représenter les données de manière à regrouper d’éventuelles fausses nouvelles. Un deuxième niveau de l’algorithme relie ensuite les articles considérés comme proches les uns des autres. Cartographier le lien entre ces articles repose sur un principe appelé « culpabilité par association ». suggérant que les liens entre deux articles signifient qu'ils sont plus susceptibles d'être similaires à un seul un autre.
Après cela, l’apprentissage automatique est appliqué aux graphiques. Cette approche « semi-supervisée » utilise un petit nombre d'articles catégorisés par les utilisateurs, puis applique ces connaissances à un ensemble de données beaucoup plus large. Même si cela implique encore des humains à un certain niveau, cela implique moins d’annotations humaines que la plupart des méthodes alternatives de classification des fausses nouvelles potentielles. Le niveau de précision de 75 pour cent vanté par les chercheurs est basé sur le filtrage correct de deux ensembles de données publiques et d'une collection supplémentaire de 63 000 articles de presse.
"Même un nombre ridiculement petit d'articles annotés peut nous conduire à des niveaux de précision vraiment très élevés", a déclaré Papalexakis. "Beaucoup mieux que d'avoir un système dans lequel nous essayons de capturer des caractéristiques individuelles, comme la linguistique, ou d'autres choses que les gens peuvent considérer comme désinformatives."
Un jeu du chat et de la souris pour tous les âges
D’un point de vue informatique, il est facile de comprendre pourquoi ce travail séduirait Vagelis Papalexakis et les autres chercheurs de l’UC Riverside – ainsi que les gens de Snapchat. Être capable non seulement de trier les fausses nouvelles des vraies nouvelles, mais aussi de distinguer les articles d'opinion biaisés du journalisme sérieux ou les articles satiriques du L'oignon C’est le genre d’énigme Big Data dont rêvent les ingénieurs.
La plus grande question, cependant, est de savoir comment cet algorithme sera utilisé – et s’il peut à terme contribuer à lutter contre le phénomène des fausses nouvelles.
La contribution de Snap au projet (qui équivaut à un « cadeau » de 7 000 $ et à un soutien non financier supplémentaire) ne garantit pas que l’entreprise adoptera la technologie dans un produit commercial. Mais Papalexakis a déclaré qu’il espérait que la recherche finirait par « conduire à un transfert de technologie vers la plateforme ».
L’objectif final, a-t-il expliqué, est de développer un système capable de fournir à n’importe quel article ce qui équivaut à un score de fiabilité. En théorie, un tel score pourrait être utilisé pour filtrer les fausses nouvelles avant même qu’elles n’aient la chance d’être aperçues par l’utilisateur.
Il s'agit d'une idée similaire aux filtres anti-spam d'apprentissage automatique, qui appliquent également un système de notation basé sur des facteurs tels que le rapport image/texte dans le corps d'un message. Cependant, Papalexakis a suggéré qu'une approche préférable pourrait consister simplement à alerter les utilisateurs de ces histoires qui obtiennent un score élevé dans la catégorie des faux possibles - « et laissent ensuite l'utilisateur décider quoi faire avec il."
Une bonne raison à cela est le fait que les actualités ne se divisent pas toujours aussi clairement entre spam et spam. catégories de jambon, comme le fait le courrier électronique. Bien sûr, certains articles peuvent être purement fabriqués, mais d’autres peuvent être plus discutables: ne contenant aucun mensonge direct, mais néanmoins destinés à conduire le lecteur dans une certaine direction. Supprimer ces articles, même lorsque nous pouvons trouver des opinions contradictoires avec les nôtres, nous amène dans un territoire plus délicat.
"Cela tombe dans une zone grise", a poursuivi Papalexakis. « Ce n’est pas grave si nous pouvons catégoriser cet article comme étant fortement biaisé. Il existe différentes catégories pour ce que nous pourrions appeler la désinformation. [Un article fortement biaisé] n’est peut-être pas aussi mauvais qu’un faux article, mais il vend quand même un point de vue particulier au lecteur. C’est plus nuancé que faux vs. pas faux."
En fin de compte, malgré le désir de Papalexakis de proposer un système qui utilise aussi peu de surveillance que possible. possible, il reconnaît qu'il s'agit d'un défi qui devra inclure à la fois les humains et Machines.
"Je vois cela comme un jeu du chat et de la souris d'un point de vue technologique", a-t-il déclaré. « Je ne pense pas que dire « résoudre le problème » soit la bonne façon de voir les choses. Fournir aux gens un outil qui peut les aider à comprendre des éléments particuliers d’un article fait partie de la solution. Cette solution consisterait en des outils qui pourraient vous aider à juger les choses par vous-même, à rester éduqué en tant que citoyen actif, à comprendre les choses et à lire entre les lignes. Je ne pense pas qu’une solution uniquement technologique puisse être appliquée à ce problème, car cela dépend en grande partie des gens et de la façon dont ils voient les choses.
Recommandations des rédacteurs
- L'algorithme surpasse les humains dans la détection des fausses nouvelles