Gli esseri umani non possono fermare da soli l’incitamento all’odio online. Abbiamo bisogno che i bot ci aiutino

Internet ha un problema di incitamento all’odio.

Contenuti

Questo è un lavoro per l'automazione. Tipo
Peggiorare il problema, non migliorarlo
Una guerra su due fronti
Una sfida continua
Il futuro del discorso su Internet

Vai a qualsiasi sezione dei commenti di YouTube o esplora i social media anche per un breve periodo di tempo e non troverai carenza di commenti offensivi e spesso pregiudizievoli. Ma come risolvere questo problema? E, così facendo, come evitare di peggiorare accidentalmente la situazione?

Questo mese, due A.I. furono annunciati algoritmi: uno creato nel Regno Unito, l’altro negli Stati Uniti. Entrambi potrebbero un giorno essere utilizzati per setacciare i social media o altre aree del mondo online ed evidenziare discorsi di odio o offensivi in modo che possano essere segnalati, cancellati o bloccati.

Video consigliati

Il primo, sviluppato dai ricercatori dell’Università di Exeter nel Regno Unito, è un strumento chiamato Lola che sfrutta gli “ultimi progressi nell’elaborazione del linguaggio naturale e nella teoria comportamentale” per scansionare migliaia di messaggi al minuto per scoprire contenuti che incitano all’odio. “Il livello di precisione è eccezionale rispetto alle soluzioni esistenti sul mercato,”

Dottor David Lopez, uno dei creatori di Lola, ha detto a Digital Trends.

Il secondo, il lavoro di ricercatori della University of Southern California, afferma di essere capace di qualcosa di simile. “L’algoritmo che abbiamo sviluppato è un classificatore di testo, che prende i post sui social media – o potenzialmente altro testo – e prevede se il testo contiene o meno incitamento all’odio”, Brendan Kennedy, un dottorato in informatica. studente che ha lavorato al progetto, ha detto a Digital Trends.

Questo è un lavoro per l'automazione. Tipo

Per comprendere il motivo per cui è necessario ricorrere a soluzioni automatizzate per risolvere questo problema così umano, è fondamentale comprendere la vastità dei social media. Ogni secondo della giornata vengono inviati in media 6.000 tweet. Ciò equivale a 350.000 tweet al minuto, 500 milioni di tweet al giorno o 200 miliardi di tweet all’anno. SU Facebook, circa 35 milioni di persone aggiornano quotidianamente il proprio stato.

Anche per i giganti della tecnologia dotati di personale adeguato, questi numeri rendono impossibile per i moderatori umani eseguire da soli la necessaria moderazione. Tali decisioni devono essere prese molto rapidamente, non solo per rimanere aggiornati sui nuovi contenuti generati in ogni momento, ma anche per evitare che determinati messaggi vengano visti da un gran numero di utenti. Algoritmi ben progettati sono l’unico modo pratico per risolvere questo problema.

“Ogni secondo della giornata vengono inviati in media 6.000 tweet. Ciò equivale a 350.000 tweet al minuto, 500 milioni di tweet al giorno o 200 miliardi di tweet all’anno”

Utilizzando l’apprendimento automatico, è possibile – almeno in teoria – sviluppare strumenti che possono essere addestrati a individuare discorsi di odio o offensivi in modo che possano essere cancellati o segnalati. Ma questo non è facile. L’incitamento all’odio è un termine ampio e controverso. I tentativi di definirlo legalmente o anche informalmente tra gli esseri umani si rivelano difficili. Alcuni esempi di incitamento all’odio potrebbero essere così chiari che nessuno può contestarli. Ma altri casi potrebbero essere più sottili; il tipo di azioni che hanno maggiori probabilità di essere classificate come “micro-aggressioni”. Come ha detto il giudice della Corte Suprema degli Stati Uniti Potter Stewart riguardo all’oscenità: “Lo so quando lo vedo”.

"Esistono molti tipi di incitamento all'odio [e] linguaggio offensivo", ha detto Kennedy a Digital Trends. “Alcuni discorsi di incitamento all’odio sono facili da segnalare, ad esempio gli insulti. Ma la maggior parte dei discorsi di odio sono retoricamente complessi, demonizzanti e disumanizzanti attraverso metafore, stereotipi culturalmente specifici e “fischietti”.

Peggiorare il problema, non migliorarlo

I precedenti episodi di incitamento all'odio di A.I. Gli strumenti si sono rivelati inefficaci perché sono uno strumento troppo schietto per scoprire esempi più complessi di pregiudizi online. Gli algoritmi di rilevamento dei discorsi di incitamento all’odio mal progettati, lungi dal fermare i discorsi di incitamento all’odio online, lo hanno fatto in realtà è stato dimostrato che amplifica cose come i pregiudizi razziali bloccando i tweet non offensivi inviati dalla minoranza gruppi. Potrebbe trattarsi di qualcosa di semplice come il fatto che i classificatori di incitamento all’odio sono ipersensibili a termini come "Nero", "gay" o "transgender", che in alcuni casi potrebbe essere associato con maggiore probabilità a contenuti che incitano all'odio impostazioni.

Proprio come il famigerato chatbot Tay di Microsoft, che ha imparato comportamento razzista dopo aver interagito con gli utenti, i classificatori addestrati sui dati testuali originali dei social media possono finire per appoggiarsi pesantemente su parole specifiche ignorando o non essendo consapevoli del contesto circostante.

La capacità di analizzare meglio i messaggi online nel contesto è ciò che i due nuovi A.I. promettono sistemi di rilevamento. Il sistema Lola del Regno Unito afferma di essere in grado di analizzare 25.000 messaggi al minuto per rilevare comportamenti dannosi – tra cui cyberbullismo, odio e islamofobia – con una precisione fino al 98%. Parte di questo non è solo guardare le parole chiave, ma utilizzare un “motore di rilevamento delle emozioni” per capire quali emozioni vengono suscitate nel testo, che si tratti di amore, rabbia, paura, fiducia o altro.

Nel frattempo, l’Università della California del Sud A.I. Il sistema di rilevamento promette di esaminare il contesto così come il contenuto.

“Il nostro punto di partenza in questa ricerca è un metodo standard, che codifica sequenze di token di testo in numerici vettori, che vengono [poi] utilizzati per produrre in modo probabilistico l’etichetta di classe “odio” o “non odio”,” Brandon disse. “Utilizzando un algoritmo di “spiegazione post-hoc” sviluppato dai membri del nostro team, abbiamo programmato l’incitamento all’odio classificatori per dare meno importanza agli identificatori di gruppo e più importanza al contesto che circonda il gruppo identificatori."

Il sistema è stato testato analizzando gli articoli del sito web suprematista bianco Stormfront e il reportage più neutrale del New York Times. I suoi creatori affermano che era in grado di separare i contenuti che incitano all'odio da quelli che non incitano all'odio con un livello di precisione del 90%.

Una guerra su due fronti

Tuttavia, non sono solo i ricercatori indipendenti a sviluppare strumenti per individuare i discorsi di incitamento all’odio. Anche i social network stanno lavorando per risolvere questo problema.

“Ora rimuoviamo 10 milioni di pezzi di discorso di odio un quarto”, ha detto a Digital Trends Amit Bhattacharyya, direttore della gestione del prodotto nel gruppo di integrità della comunità di Facebook. “Di questi, circa il 90% è stato rilevato prima che gli utenti ce lo segnalassero. Abbiamo investito di più nel rilevamento proattivo di contenuti potenzialmente in violazione, compreso l’incitamento all’odio, e siamo migliorati nel farlo”.

Le tecniche di rilevamento di Facebook, ha spiegato Bhattacharyya, si concentrano su cose come la corrispondenza di testo e immagini, in cui cerca immagini e stringhe di testo identiche che sono già state rimosse come incitamento all'odio in altre parti del file piattaforma. Utilizza inoltre classificatori di apprendimento automatico che analizzano la lingua e altri tipi di contenuto. Anche Facebook dispone di dati aggiuntivi, poiché può esaminare le reazioni e i commenti a un post per vedere come questi corrispondono strettamente a frasi, modelli e attacchi comuni visti in precedenza in contenuti che violano l'incitamento all'odio politiche.

“La repressione dei comportamenti abusivi online non deve essere reattiva. Può anche essere proattivo”.

Twitter utilizza anche strumenti di apprendimento automatico per reprimere i contenuti che incitano all'odio. Alcuni di questi sono basati su parole chiave, ma Twitter analizza inoltre il comportamento degli utenti per cercare di determinare quanto gli utenti si sentano a proprio agio nelle interazioni. Ad esempio, un utente che twitta a un altro utente e riceve risposta e poi viene seguito verrà visualizzato in modo diverso rispetto a uno che twitta direttamente a un'altra persona ripetutamente ma viene ignorato o bloccato. Queste dinamiche comportamentali possono aiutare a rivelare modelli di molestie o comportamenti mirati indesiderati che Twitter può quindi utilizzare per comprendere meglio il contenuto di ciò che sta accadendo sulla sua piattaforma.

Tuttavia, un portavoce di Twitter ha dichiarato a Digital Trends che i messaggi contrassegnati come offensivi vengono esaminati manualmente dagli esseri umani (in ordine di priorità rispetto alla macchina) in modo da determinare che siano stati correttamente identificati come come.

Una sfida continua

Bhattacharyya di Facebook ha affermato che il social network ha fatto “grandi progressi” nel corso degli anni nel frenare l’incitamento all’odio sulle sue piattaforme e che il suo team è orgoglioso di ciò che ha realizzato. Allo stesso tempo, Bhattacharyya ha affermato: “Il nostro lavoro non è mai completo e sappiamo che potremmo non essere mai in grado di impedire che ogni contenuto odioso appaia sulle nostre piattaforme”.

La realtà deprimente è che l’incitamento all’odio online probabilmente non sarà mai risolto come problema. Almeno, non senza che le persone facciano un cambiamento. Internet potrebbe, a suo discapito, amplificare certe voci umane e incorporare e codificare particolari pregiudizi umani, ma questo perché è solo l’umanità in grande. Qualunque problema esista nel mondo reale, in una certa misura, si farà strada nel mondo online.

Trump con l'immagine stilizzata dei loghi Facebook e Twitter — Grafico Getty Images/Tendenze digitali

Detto questo, la repressione dei comportamenti abusivi online non deve essere necessariamente reattiva. Può anche essere proattivo. Ad esempio, il portavoce di Twitter che ha parlato con Digital Trends ha sottolineato che, tra gli utenti il cui account è stato bannato per 12 ore a causa di infrazioni alle regole, la maggior parte commette nuovamente reati. Ciò suggerisce che possono verificarsi momenti insegnabili. Sia che spingano sinceramente gli utenti a riesaminare il loro comportamento o semplicemente impediscano loro di comportarsi in un modo che infrange le regole, ciò riduce comunque il comportamento sconvolgente di violazione delle regole sulla piattaforma.

Il portavoce ha anche detto che Twitter sta ora esplorando un sistema basato sul “nudge”. Ciò offrirà suggerimenti prima che gli utenti twittino, avvisandoli che ciò che stanno per pubblicare potrebbe entrare in conflitto con le regole di Twitter. Ciò potrebbe essere dovuto a una parola chiave particolare. Quando condividi un articolo che non hai aperto tramite Twitter, potrebbe anche offrire un avviso. Questo sistema di spinta è stato recentemente testato con un piccolo numero di utenti. Sebbene la prova sia ormai conclusa, esiste la possibilità che possa essere distribuita come funzionalità a tutti gli utenti in futuro.

Il futuro del discorso su Internet

La questione dell’incitamento all’odio e di altri discorsi offensivi sui social media è destinata a diventare sempre più urgente. In Francia, ad esempio, a la legge è stata approvata a maggio che richiede la rimozione di determinati contenuti criminali dai social media entro un’ora. In caso contrario, le società di social media in questione dovranno affrontare una multa fino al 4% delle loro entrate globali. Altri contenuti “manifestamente illeciti” devono essere rimossi entro 24 ore. Il ministro della Giustizia Nicole Belloubet ha dichiarato al Parlamento francese che la legge aiuterebbe a ridurre l’incitamento all’odio online.

Nessuna legge del genere, per quanto ne sappiamo, è stata seriamente proposta negli Stati Uniti. Ma poiché i social media diventano una parte sempre più ampia e influente del modo in cui comunichiamo, reprimere i comportamenti tossici diventerà sempre più importante. Questo non è un problema che può essere risolto esclusivamente da moderatori umani. Ma è anche un approccio che, quando viene intrapreso utilizzando l’intelligenza artificiale, deve essere fatto con attenzione, non solo per garantire che migliori il problema, ma per garantire che non lo peggiori.

Il futuro del discorso su Internet dipende da questo.

Raccomandazioni degli editori

Come l'A.I. ha creato quel fantastico video di highlight sportivi che non puoi smettere di guardare

Gli esseri umani non possono fermare da soli l’incitamento all’odio online. Abbiamo bisogno che i bot ci aiutino

Questo è un lavoro per l'automazione. Tipo

Peggiorare il problema, non migliorarlo

Una guerra su due fronti

Una sfida continua

Il futuro del discorso su Internet

Raccomandazioni degli editori

Categorie

Recente

FTC v. Microsoft: 5 sorprendenti rivelazioni dalla battaglia legale

Star Wars Jedi: Survivor ripaga la lunga storia di gioco della serie

È stata una primavera stellare per i videogiochi di fantascienza