Les humains ne peuvent pas arrêter seuls les discours de haine en ligne. Nous avons besoin de robots pour nous aider

Internet a un problème de discours de haine.

Contenu

C'est un travail d'automatisation. Type de
Rendre le problème pire, pas meilleur
Une guerre sur deux fronts
Un défi permanent
L'avenir du discours sur Internet

Accédez à n’importe quelle section de commentaires YouTube ou parcourez les réseaux sociaux, même pendant une courte période, et vous ne manquerez pas de commentaires offensants et souvent préjugés. Mais comment résoudre ce problème? Et, ce faisant, comment éviter d’aggraver accidentellement la situation ?

Ce mois-ci, deux IA recherchant des discours de haine. Des algorithmes ont été annoncés: l'un créé au Royaume-Uni, l'autre aux États-Unis. Les deux pourraient un jour être utilisés pour parcourir les médias sociaux ou d'autres domaines du monde en ligne, et mettre en évidence les discours de haine ou les discours offensants afin qu'ils puissent être signalés, supprimés ou bloqués.

Vidéos recommandées

Le premier, développé par des chercheurs de l’Université d’Exeter au Royaume-Uni, est un

outil nommé Lola qui exploite les « dernières avancées en matière de traitement du langage naturel et de théorie du comportement » pour parcourir des milliers de messages par minute afin de découvrir des contenus haineux. « Le niveau de précision est exceptionnel par rapport aux solutions existantes sur le marché. » Dr David Lopez, l’un des créateurs de Lola, a déclaré à Digital Trends.

La seconde, le travail de chercheurs de l'Université de Californie du Sud, prétend être capable de quelque chose de similaire. « L’algorithme que nous avons développé est un classificateur de texte, qui prend en compte les publications sur les réseaux sociaux – ou potentiellement d’autres textes – et prédit si le texte contient ou non des discours de haine. » Brendan Kennedy, titulaire d'un doctorat en informatique. étudiant qui a travaillé sur le projet, a déclaré à Digital Trends.

C'est un travail d'automatisation. Type de

Pour comprendre pourquoi il est nécessaire de se tourner vers des solutions automatisées pour résoudre ce problème des plus humains, il est crucial de comprendre l’ampleur des médias sociaux. Chaque seconde de la journée, en moyenne 6 000 tweets sont envoyés. Cela équivaut à 350 000 tweets par minute, 500 millions de tweets par jour ou 200 milliards de tweets par an. Sur Facebook, environ 35 millions de personnes mettent quotidiennement à jour leur statut.

Même pour les géants de la technologie disposant d’un personnel suffisant, ces chiffres rendent impossible aux modérateurs humains d’effectuer eux-mêmes la modération nécessaire. De telles décisions doivent être prises très rapidement, non seulement pour rester au courant des nouveaux contenus générés à chaque instant, mais aussi pour que certains messages ne soient pas vus par un grand nombre d'utilisateurs. Des algorithmes bien conçus constituent le seul moyen pratique de résoudre ce problème.

« Chaque seconde de la journée, en moyenne 6 000 tweets sont envoyés. Cela équivaut à 350 000 tweets par minute, 500 millions de tweets par jour ou 200 milliards de tweets par an. »

Grâce à l’apprentissage automatique, il est possible – du moins en théorie – de développer des outils capables d’être entraînés à rechercher les discours de haine ou les discours offensants afin qu’ils puissent être supprimés ou signalés. Mais ce n’est pas facile. Le discours de haine est un terme large et contesté. Les tentatives pour le définir légalement ou même de manière informelle parmi les humains s'avèrent difficiles. Certains exemples de discours de haine peuvent être si évidents que personne ne peut les contester. Mais d’autres cas peuvent être plus subtils; le type d’actions les plus susceptibles d’être qualifiées de « micro-agressions ». Comme l’a dit le juge de la Cour suprême des États-Unis, Potter Stewart, à propos de l’obscénité: « Je le sais quand je le vois. »

« Il existe de nombreux types de discours de haine [et] de langage offensant », a déclaré Kennedy à Digital Trends. « Certains propos haineux sont faciles à signaler, par exemple les insultes. Mais la plupart des discours de haine sont rhétoriquement complexes, diabolisants et déshumanisants à travers des métaphores, des stéréotypes culturels spécifiques et des « sifflets de chien ».

Rendre le problème pire, pas meilleur

Une précédente IA de chasse aux discours de haine Ces outils se sont révélés inefficaces car ils constituent un instrument trop brutal pour découvrir des exemples plus complexes de préjugés en ligne. Les algorithmes de détection des discours haineux mal conçus, loin d’arrêter les discours haineux en ligne, ont il a en fait été démontré qu'il amplifiait des choses comme les préjugés raciaux en bloquant les tweets non offensants envoyés par une minorité groupes. Cela pourrait être aussi simple que le fait que les classificateurs de discours de haine sont hypersensibles à des termes comme « Noir », « gay » ou « transgenre » qui peuvent être plus susceptibles d'être associés à des contenus haineux dans certains pays. paramètres.

Tout comme le fameux chatbot Tay de Microsoft, qui a appris comportement raciste après avoir interagi avec les utilisateurs, les classificateurs formés sur les données textuelles originales des réseaux sociaux peuvent finir par s'appuyer fortement sur des mots spécifiques tout en ignorant ou en ignorant leur contexte environnant.

La capacité de mieux analyser les messages en ligne dans leur contexte est ce que proposent les deux nouveaux outils d'IA. promesse des systèmes de détection. Le système britannique Lola prétend être capable d'analyser 25 000 messages par minute pour détecter les comportements nuisibles, notamment la cyberintimidation, la haine et l'islamophobie, avec une précision allant jusqu'à 98 %. Une partie de cela consiste à examiner non seulement les mots-clés, mais aussi à utiliser un « moteur de détection d’émotions » pour déterminer quelles émotions sont suscitées dans le texte – qu’il s’agisse d’amour, de colère, de peur, de confiance ou autres.

Pendant ce temps, l’Université de Californie du Sud A.I. Le système de détection promet d’examiner le contexte ainsi que le contenu.

« Notre point de départ dans cette recherche est une méthode standard, qui code des séquences de jetons de texte en caractères numériques. vecteurs, qui sont [ensuite] utilisés pour produire de manière probabiliste l’étiquette de classe « haine » ou « pas de haine », Brandon dit. « À l’aide d’un algorithme d’« explication post-hoc » développé par les membres de notre équipe, nous avons programmé les discours de haine. classificateurs pour accorder moins d'importance aux identifiants de groupe et plus d'importance au contexte entourant le groupe identifiants. »

Le système a été testé en analysant des articles du site Web suprémaciste blanc Stormfront et le reportage plus neutre du New York Times. Ses créateurs affirment qu'il était capable de trier les contenus haineux des contenus non haineux avec un niveau de précision de 90 %.

Une guerre sur deux fronts

Mais les chercheurs indépendants ne sont pas les seuls à développer des outils permettant de détecter les discours de haine. Les réseaux sociaux travaillent également à résoudre ce problème.

« Nous supprimons désormais 10 millions de morceaux de discours de haine un quart », a déclaré à Digital Trends Amit Bhattacharyya, directeur de la gestion des produits au sein du groupe d’intégrité communautaire de Facebook. « Sur ce total, environ 90 % ont été détectés avant que les utilisateurs ne nous le signalent. Nous avons investi davantage – et nous sommes améliorés – dans la détection proactive des contenus potentiellement violants, y compris les discours de haine.

Les techniques de détection de Facebook, a expliqué Bhattacharyya, se concentrent sur des éléments tels que la correspondance de texte et d'images, dans lesquelles il recherche des images et des chaînes de texte identiques qui ont déjà été supprimées en tant que discours de haine ailleurs sur le plate-forme. Il utilise également des classificateurs d'apprentissage automatique qui analysent la langue et d'autres types de contenu. Facebook dispose également de points de données supplémentaires, puisqu'il peut examiner les réactions et les commentaires sur une publication pour voir comment ceux-ci correspondent étroitement aux expressions, modèles et attaques courants observés précédemment dans le contenu qui viole son discours de haine Stratégies.

« La répression des comportements abusifs en ligne ne doit pas nécessairement être réactive. Cela peut aussi être proactif.

Twitter utilise également des outils d'apprentissage automatique pour réprimer les contenus haineux. Une partie de ces informations est basée sur des mots clés, mais Twitter analyse également le comportement des utilisateurs pour tenter de déterminer dans quelle mesure les utilisateurs sont à l'aise dans les interactions. Par exemple, un utilisateur qui tweete à un autre utilisateur et reçoit une réponse puis est suivi sera vu différemment de celui qui tweete directement à une autre personne à plusieurs reprises mais est ignoré ou bloqué. Ces dynamiques comportementales peuvent aider à révéler des schémas de harcèlement ou des comportements ciblés indésirables que Twitter peut ensuite utiliser pour mieux comprendre le contenu de ce qui se passe sur sa plateforme.

Cependant, un porte-parole de Twitter a déclaré à Digital Trends que les messages signalés comme offensants étaient examinés manuellement. par les humains (dans un ordre de priorité machine) afin de déterminer qu'ils ont été correctement identifiés comme tel.

Un défi permanent

Bhattacharyya de Facebook a déclaré que le réseau social avait fait de « grands progrès » au fil des années dans la lutte contre les discours de haine sur ses plateformes et que son équipe était fière de ce qu'elle avait accompli. Dans le même temps, Bhattacharyya a déclaré: « Notre travail n’est jamais terminé et nous savons que nous ne pourrons peut-être jamais empêcher l’apparition de chaque contenu haineux sur nos plateformes. »

La triste réalité est que le problème du discours de haine en ligne ne sera probablement jamais résolu. Du moins, pas sans que les gens fassent un changement. Internet pourrait, à son détriment, amplifier certaines voix humaines et intégrer et codifier des préjugés humains particuliers, mais c’est parce qu’il ne s’agit que de l’humanité au sens large. Les problèmes qui existent dans le monde réel se retrouveront, dans une certaine mesure, dans le monde en ligne.

Trump avec l'image stylisée des logos Facebook et Twitter — Getty Images/Graphique des tendances numériques

Cela dit, la répression des comportements abusifs en ligne ne doit pas nécessairement être réactive. Cela peut aussi être proactif. Par exemple, le porte-parole de Twitter qui s'est entretenu avec Digital Trends a souligné que parmi les utilisateurs dont les comptes ont été bannis pendant 12 heures en raison d'infractions aux règles, la majorité récidive. Cela suggère que des moments propices à l’apprentissage peuvent survenir. Qu’ils incitent véritablement les utilisateurs à réexaminer leur comportement ou simplement à les empêcher de se comporter d’une manière qui enfreint les règles, cela réduit néanmoins les comportements dérangeants enfreignant les règles sur la plateforme.

Le porte-parole a également déclaré que Twitter explorait actuellement un système basé sur le « nudge ». Cela proposera des invites avant que les utilisateurs ne tweetent, les alertant que ce qu’ils s’apprêtent à publier pourrait enfreindre les règles de Twitter. Cela peut être dû à un mot-clé particulier. Lorsque vous partagez un article que vous n'avez pas ouvert via Twitter, il peut également proposer un avertissement. Ce système de nudge a été récemment testé auprès d’un petit nombre d’utilisateurs. Bien que l’essai soit maintenant terminé, il est possible qu’il soit déployé à l’avenir en tant que fonctionnalité pour tous les utilisateurs.

L'avenir du discours sur Internet

La question des discours de haine et autres discours offensants sur les réseaux sociaux ne fait que devenir plus pressante. En France, par exemple, un la loi a été adoptée en mai qui demande que certains contenus criminels soient supprimés des réseaux sociaux dans un délai d’une heure. Si ce n’est pas le cas, les sociétés de médias sociaux en question s’exposeront à une amende pouvant atteindre 4 % de leur chiffre d’affaires mondial. Les autres contenus « manifestement illicites » doivent être supprimés dans les 24 heures. La ministre de la Justice Nicole Belloubet a déclaré au Parlement français que la loi contribuerait à réduire les discours de haine en ligne.

À notre connaissance, aucune loi de ce type n’a été sérieusement proposée aux États-Unis. Mais à mesure que les médias sociaux jouent un rôle de plus en plus important et de plus en plus influent dans notre façon de communiquer, la répression des comportements toxiques deviendra de plus en plus importante. Ce n’est pas un problème qui peut être résolu uniquement par des modérateurs humains. Mais c’est aussi une démarche qui, lorsqu’elle est entreprise à l’aide de l’IA, doit être effectuée avec soin – non seulement pour s’assurer qu’elle améliore le problème, mais aussi pour garantir qu’elle ne l’aggrave pas.

L’avenir du discours sur Internet en dépend.

Recommandations des rédacteurs

Comment l’IA créé cette incroyable bobine de faits saillants sportifs que vous ne pouvez pas arrêter de regarder

Les humains ne peuvent pas arrêter seuls les discours de haine en ligne. Nous avons besoin de robots pour nous aider

C'est un travail d'automatisation. Type de

Rendre le problème pire, pas meilleur

Une guerre sur deux fronts

Un défi permanent

L'avenir du discours sur Internet

Recommandations des rédacteurs

Catégories

Récent

Le OnePlus 11 m'a totalement changé d'avis sur les téléphones OnePlus

Les experts ont ces 4 conseils pour éviter les arnaques aux applications de rencontres

Le bracelet de montre Black Unity d'Apple est superbe et soutient une bonne cause