Când Snapchat a fost prezentat pentru prima dată ca parte a unui curs de inginerie mecanică de la Stanford, asistentul de predare îngrozit al cursului s-a întrebat deschis dacă creatorii aplicației au creat o aplicație de sexting. La mai puțin de un deceniu mai târziu, Snapchat ar putea ajuta la rezolvarea uneia dintre cele mai mari probleme cu care se confruntă în prezent tehnologia: oprirea răspândirea „știrilor false” online.
Cuprins
- Semnalul pentru știrile false?
- Un joc cu pisica și șoarecele pentru toate vârstele
Având în vedere acest obiectiv, Snap Research — divizia de cercetare a Snap, Inc. — a donat recent finanțare unui proiect de la Universitatea din California, Riverside, cu scopul de a găsi o nouă modalitate de a detecta știrile false online. The algoritmul dezvoltat de UC Riverside Se pare că este capabil să detecteze știri false cu un nivel de acuratețe impresionant de până la 75%. Cu sprijinul Snap, ei speră să îmbunătățească în continuare acest lucru.
Videoclipuri recomandate
„După cum am înțeles, sunt foarte interesați să aibă o înțelegere bună a modului în care s-ar putea înțelege această problemă – și a o rezolva în cele din urmă.”
„Snap nu este una dintre primele companii care ar veni în minte având în vedere [această problemă]”, Vagelis Papalexakis, profesor asistent la Departamentul de Informatică și Inginerie de la UC Riverside, a declarat pentru Digital Trends. „Cu toate acestea, Snap este o companie care se ocupă de conținut. După cum am înțeles, sunt foarte interesați să aibă o bună înțelegere a modului în care s-ar putea înțelege această problemă și, în cele din urmă, să o rezolve.”
Ceea ce face cercetarea UC Riverside diferită de zecile, poate chiar sute de alte proiecte de cercetare care încearcă să rupă ciclul știrilor false este ambiția proiectului. Nu este un simplu blocant de cuvinte cheie și nici nu își propune să pună o interdicție generală asupra anumitor URL-uri. Nici, poate cel mai interesant, nu este interesat în mod deosebit de faptele conținute în povești. Acest lucru îl face diferit de site-urile web de verificare, cum ar fi Snopes, care se bazează pe aportul și evaluarea umană în loc de automatizarea adevărată.
„Nu prea am încredere în adnotările umane”, a spus Papalexakis. „Nu pentru că nu am încredere în oameni, dar pentru că devin aceasta este o problemă inerent dificilă pentru care să obții un răspuns definitiv. Motivația noastră pentru acest lucru vine din a întreba cât de mult putem face doar analizând datele și dacă putem folosi cât mai puține adnotări umane posibil – dacă este deloc.”
Semnalul pentru știrile false?
Noul algoritm analizează cât mai multe „semnale” posibil dintr-o știre și îl folosește pentru a încerca să clasifice credibilitatea articolului. Papalexakis a spus: „Cine a distribuit articolul? Ce hashtag-uri au folosit? Cine a scris-o? De la ce organizație de știri este? Cum arată pagina web? Încercăm să ne dăm seama ce factori [contează] și cât de multă influență au aceștia.”
De exemplu, hashtag-ul #LockHerUp poate să nu confirme neapărat că un articol este o știre falsă în sine. Cu toate acestea, dacă o persoană adaugă acest sufix atunci când distribuie un articol pe Twitter, ar putea sugera o anumită înclinație a poveștii. Adăugați destule dintre aceste indicii împreună și ideea este că piesele separate se adaugă la un întreg revelator. Altfel spus, dacă umblă ca o rață și șarlată ca o rață, sunt șanse să fie o rață. Sau, în acest caz, un bot rusesc de rață care se cântărește, șarta, din dreapta.
„Interesul nostru este să înțelegem ce se întâmplă devreme și cum putem semnala ceva în stadiile incipiente înainte de a începe să „infecteze” rețeaua”, a continuat Papalexakis. „Acesta este interesul nostru deocamdată: să descoperim ce putem extrage din conținutul și contextul unui anumit articol.”
Algoritmul dezvoltat de grupul lui Papalexakis folosește ceva numit descompunere tensorală pentru a analiza diferitele fluxuri de informații despre un articol de știri. Tensorii sunt cuburi multidimensionale, utile pentru modelarea și analiza datelor care au o mulțime de componente diferite. Descompunerea tensorului face posibilă descoperirea tiparelor în date prin ruperea unui tensor în bucăți elementare de informații, reprezentând un anumit model sau subiect.
„Chiar și un număr ridicol de mic de articole adnotate ne poate conduce la niveluri cu adevărat, foarte ridicate de acuratețe”
Algoritmul folosește mai întâi descompunerea tensorilor pentru a reprezenta datele în așa fel încât să grupeze posibilele știri false împreună. Un al doilea nivel al algoritmului conectează apoi articolele care sunt considerate a fi apropiate. Cartografierea legăturii dintre aceste articole se bazează pe un principiu numit „vinovăție prin asociere”, sugerând că conexiunile dintre două articole înseamnă că acestea sunt mai probabil să fie similare cu unul o alta.
După aceasta, învățarea automată este aplicată graficelor. Această abordare „semi-supravegheată” utilizează un număr mic de articole care au fost clasificate de utilizatori și apoi aplică aceste cunoștințe la un set de date mult mai mare. Deși acest lucru încă implică oameni la un anumit nivel, implică mai puține adnotări umane decât majoritatea metodelor alternative de clasificare a potențialelor știri false. Nivelul de acuratețe de 75% promovat de cercetători se bazează pe filtrarea corectă a două seturi de date publice și pe o colecție suplimentară de 63.000 de articole de știri.
„Chiar și un număr ridicol de mic de articole adnotate ne poate conduce la niveluri cu adevărat, foarte ridicate de acuratețe”, a spus Papalexakis. „Mult mai mare decât a avea un sistem în care am încercat să surprindem caracteristici individuale, cum ar fi lingvistica sau alte lucruri pe care oamenii le pot considera dezinformatoare.”
Un joc cu pisica și șoarecele pentru toate vârstele
Dintr-o perspectivă informatică, este ușor de înțeles de ce această lucrare ar atrage pe Vagelis Papalexakis și pe ceilalți cercetători de la UC Riverside - precum și pe cei de la Snapchat. A fi capabil nu numai să sorteze știrile false de știrile reale, ci și să distingă articolele de opinie părtinitoare de jurnalismul serios sau articolele satirice din Ceapa este genul de enigmă de date mari la care visează inginerii.
Întrebarea mai mare, totuși, este cum va fi utilizat acest algoritm - și dacă poate ajuta în cele din urmă la combaterea fenomenului știrilor false.
Contribuția lui Snap la proiect (care se ridică la un „cadou” de 7.000 USD și sprijin suplimentar non-financiar) nu garantează că compania va adopta tehnologia într-un produs comercial. Dar Papalexakis a spus că speră că cercetarea va „duce în cele din urmă la un transfer de tehnologie către platformă”.
Scopul final, a explicat el, este de a dezvolta un sistem care să fie capabil să ofere oricărui articol ceea ce înseamnă un scor de încredere. În teorie, un astfel de scor ar putea fi folosit pentru a filtra știrile false înainte ca acesta să aibă șansa de a fi văzut de utilizator.
Aceasta este o idee similară cu filtrele de spam prin e-mail de învățare automată, care aplică, de asemenea, un sistem de punctare bazat pe factori precum raportul dintre imagine și text din corpul unui mesaj. Cu toate acestea, Papalexakis a sugerat că o abordare preferabilă ar putea fi pur și simplu alertarea utilizatorilor asupra acestora povești care au un punctaj ridicat în categoria posibilă falsă — „și apoi lăsați utilizatorul să decidă ce să facă aceasta."
Un motiv bun pentru aceasta este faptul că știrile nu se împart întotdeauna atât de bine în spam vs. categorii de șuncă, așa cum o face e-mailul. Sigur, unele articole pot fi o fabricație completă, dar altele pot fi mai discutabile: fără minciuni directe, dar totuși menite să conducă cititorul într-o anumită direcție. Eliminarea acestor articole, chiar și atunci când am putea găsi opinii care se înfruntă cu ale noastre, ajunge pe un teritoriu mai lipicios.
„Acesta se încadrează într-o zonă gri”, a continuat Papalexakis. „Este în regulă dacă putem cataloga acest articol drept un articol puternic părtinitor. Există diferite categorii pentru ceea ce am putea numi dezinformare. [Un articol puternic părtinitor] s-ar putea să nu fie la fel de rău ca un articol fals, dar încă vinde un anumit punct de vedere cititorului. Este mai nuanțat decât fals vs. nu e fals."
În cele din urmă, în ciuda dorinței lui Papalexakis de a veni cu un sistem care să folosească la fel de puțină supraveghere ca posibil, el recunoaște că aceasta este o provocare care va trebui să includă atât oamenii, cât și masini.
„Îl văd ca pe un joc cu pisica și șoarecele din punct de vedere tehnologic”, a spus el. „Nu cred că a spune „rezolvarea” este modul corect de a privi. Oferirea oamenilor cu un instrument care îi poate ajuta să înțeleagă anumite lucruri despre un articol face parte din soluție. Această soluție ar fi instrumente care vă pot ajuta să judecați lucrurile pentru dvs., să rămâneți educat ca cetățean activ, să înțelegeți lucrurile și să citiți printre rânduri. Nu cred că o soluție exclusiv tehnologică poate fi aplicată acestei probleme, deoarece foarte mult depinde de oameni și de modul în care văd lucrurile.”
Recomandările editorilor
- Algoritmul îi depășește pe oameni la descoperirea știrilor false