Όταν το Snapchat παρουσιάστηκε για πρώτη φορά ως μέρος ενός μαθήματος μηχανολογίας στο Στάνφορντ, ο τρομοκρατημένος βοηθός διδασκαλίας του μαθήματος αναρωτήθηκε ανοιχτά αν οι δημιουργοί της εφαρμογής είχαν δημιουργήσει μια εφαρμογή sexting. Λιγότερο από μια δεκαετία αργότερα, το Snapchat θα μπορούσε να βοηθήσει στην επίλυση ενός από τα μεγαλύτερα προβλήματα που αντιμετωπίζει αυτή τη στιγμή η τεχνολογία: η διακοπή της διάδοση «ψευδών ειδήσεων» στο διαδίκτυο.
Περιεχόμενα
- Το σήμα για fake news;
- Ένα παιχνίδι γάτας και ποντικιού για τους αιώνες
Με αυτόν τον στόχο κατά νου, η Snap Research — το ερευνητικό τμήμα της Snap, Inc. — πρόσφατα δώρισε χρηματοδότηση σε ένα έργο του Πανεπιστημίου της Καλιφόρνια, στο Riverside, με στόχο να βρει έναν νέο τρόπο ανίχνευσης ψευδών ειδήσεων στο διαδίκτυο. ο Ο αλγόριθμος που έχει αναπτύξει το UC Riverside φέρεται να είναι σε θέση να ανιχνεύει ψευδείς ειδήσεις με εντυπωσιακό επίπεδο ακρίβειας έως και 75 τοις εκατό. Με την υποστήριξη του Snap, ελπίζουν να το βελτιώσουν περαιτέρω.
Προτεινόμενα βίντεο
«Όπως το καταλαβαίνω, ενδιαφέρονται πολύ να έχουν μια καλή αντίληψη για το πώς θα μπορούσε κανείς να κατανοήσει αυτό το πρόβλημα - και να το λύσει τελικά».
«Η Snap δεν είναι από τις πρώτες εταιρείες που θα ερχόταν στο μυαλό λόγω [αυτό το πρόβλημα]», Βαγγέλης Παπαλεξάκης, Επίκουρος Καθηγητής στο Τμήμα Επιστήμης και Μηχανικών Υπολογιστών στο UC Riverside, δήλωσε στο Digital Trends. «Παρόλα αυτά, η Snap είναι μια εταιρεία που χειρίζεται περιεχόμενο. Όπως το καταλαβαίνω, ενδιαφέρονται πολύ να έχουν μια καλή αντίληψη για το πώς θα μπορούσε κανείς να κατανοήσει αυτό το πρόβλημα - και να το λύσει τελικά».
Αυτό που κάνει την έρευνα του UC Riverside να διαφέρει από τα δεκάδες, ίσως και εκατοντάδες άλλα ερευνητικά έργα που προσπαθούν να σπάσουν τον κύκλο των ψεύτικων ειδήσεων είναι η φιλοδοξία του έργου. Δεν είναι ένας απλός αποκλεισμός λέξεων-κλειδιών, ούτε στοχεύει να θέσει μια γενική απαγόρευση σε ορισμένες διευθύνσεις URL. Ούτε, ίσως το πιο ενδιαφέρον, ενδιαφέρεται ιδιαίτερα για τα γεγονότα που περιέχονται στις ιστορίες. Αυτό το κάνει να ξεχωρίζει από ιστοτόπους ελέγχου δεδομένων όπως το Snopes, οι οποίοι βασίζονται στην ανθρώπινη συνεισφορά και αξιολόγηση αντί για αληθινή αυτοματοποίηση.
«Δεν εμπιστεύομαι πραγματικά τους ανθρώπινους σχολιασμούς», είπε ο Παπαλεξάκης. «Όχι επειδή δεν εμπιστεύομαι τους ανθρώπους, αλλά επειδή αυτό είναι ένα εγγενώς δύσκολο πρόβλημα για να λάβω μια οριστική απάντηση. Το κίνητρό μας για αυτό προέρχεται από το να ρωτήσουμε πόσα μπορούμε να κάνουμε κοιτάζοντας μόνο τα δεδομένα και αν μπορούμε να χρησιμοποιήσουμε όσο το δυνατόν λιγότερο ανθρώπινο σχολιασμό — αν υπάρχει καθόλου».
Το σήμα για fake news;
Ο νέος αλγόριθμος εξετάζει όσο το δυνατόν περισσότερα «σήματα» από μια είδηση και το χρησιμοποιεί για να προσπαθήσει να ταξινομήσει την αξιοπιστία του άρθρου. Παπαλεξάκης είπε: «Ποιος μοιράστηκε το άρθρο; Τι hashtags χρησιμοποίησαν; Ποιος το έγραψε? Από ποιο ειδησεογραφικό οργανισμό προέρχεται; Πώς μοιάζει η ιστοσελίδα; Προσπαθούμε να καταλάβουμε ποιοι παράγοντες [έχουν σημασία] και πόση επιρροή έχουν».
Για παράδειγμα, το hashtag #LockHerUp μπορεί να μην επιβεβαιώνει απαραίτητα ότι ένα άρθρο είναι ψευδές νέο από μόνο του. Ωστόσο, εάν ένα άτομο προσθέσει αυτό το επίθημα όταν μοιράζεται ένα άρθρο στο Twitter, θα μπορούσε να προτείνει μια συγκεκριμένη κλίση στην ιστορία. Προσθέστε αρκετές από αυτές τις ενδείξεις μαζί και η ιδέα είναι ότι τα ξεχωριστά κομμάτια συνθέτουν ένα αποκαλυπτικό σύνολο. Για να το θέσω αλλιώς, αν περπατάει σαν πάπια και τραμπουκίζει σαν πάπια, το πιθανότερο είναι ότι είναι πάπια. Ή, σε αυτήν την περίπτωση, ένα ρωσικό ρομπότ παπιών που κουνιέται, κουκλίστικο, με κατεύθυνση προς τα δεξιά.
«Το ενδιαφέρον μας είναι να καταλάβουμε τι συμβαίνει νωρίς και πώς μπορούμε να επισημάνουμε κάτι στα αρχικά στάδια πριν αρχίσει να «μολύνει» το δίκτυο», συνέχισε ο Παπαλεξάκης. "Αυτό είναι το ενδιαφέρον μας προς το παρόν: να βρούμε τι μπορούμε να αποσπάσουμε από το περιεχόμενο και το πλαίσιο ενός συγκεκριμένου άρθρου."
Ο αλγόριθμος που αναπτύχθηκε από την ομάδα Παπαλεξάκη χρησιμοποιεί κάτι που ονομάζεται αποσύνθεση τανυστή για να αναλύσει τις διάφορες ροές πληροφοριών σχετικά με ένα άρθρο ειδήσεων. Οι τανυστές είναι πολυδιάστατοι κύβοι, χρήσιμοι για τη μοντελοποίηση και την ανάλυση δεδομένων που έχουν πολλά διαφορετικά στοιχεία. Η αποσύνθεση τανυστή καθιστά δυνατή την ανακάλυψη μοτίβων σε δεδομένα σπάζοντας έναν τανυστή σε στοιχειώδη κομμάτια πληροφοριών, που αντιπροσωπεύουν ένα συγκεκριμένο μοτίβο ή θέμα.
«Ακόμη και ένας γελοία μικρός αριθμός σχολιασμένων άρθρων μπορεί να μας οδηγήσει σε πραγματικά, πραγματικά υψηλά επίπεδα ακρίβειας»
Ο αλγόριθμος χρησιμοποιεί αρχικά την αποσύνθεση τανυστή για να αναπαραστήσει δεδομένα με τέτοιο τρόπο ώστε να ομαδοποιεί πιθανές ψευδείς ειδήσεις μαζί. Στη συνέχεια, μια δεύτερη βαθμίδα του αλγορίθμου συνδέει αντικείμενα που θεωρούνται ότι βρίσκονται κοντά. Η χαρτογράφηση της σύνδεσης μεταξύ αυτών των άρθρων βασίζεται σε μια αρχή που ονομάζεται «ενοχή λόγω συσχέτισης». υποδηλώνοντας ότι οι συνδέσεις μεταξύ δύο άρθρων σημαίνει ότι είναι πιο πιθανό να είναι παρόμοια με ένα αλλο.
Μετά από αυτό, η μηχανική εκμάθηση εφαρμόζεται στα γραφήματα. Αυτή η «ημι-εποπτευόμενη» προσέγγιση χρησιμοποιεί έναν μικρό αριθμό άρθρων που έχουν κατηγοριοποιηθεί από τους χρήστες και στη συνέχεια εφαρμόζει αυτή τη γνώση σε ένα πολύ μεγαλύτερο σύνολο δεδομένων. Ενώ αυτό εξακολουθεί να περιλαμβάνει ανθρώπους σε κάποιο επίπεδο, περιλαμβάνει λιγότερο ανθρώπινο σχολιασμό από τις περισσότερες εναλλακτικές μεθόδους ταξινόμησης πιθανών ψεύτικων ειδήσεων. Το επίπεδο ακρίβειας 75 τοις εκατό που διαφημίζουν οι ερευνητές βασίζεται στο σωστό φιλτράρισμα δύο δημόσιων συνόλων δεδομένων και μιας πρόσθετης συλλογής 63.000 άρθρων ειδήσεων.
«Ακόμη και ένας γελοία μικρός αριθμός σχολιασμένων άρθρων μπορεί να μας οδηγήσει σε πραγματικά, πραγματικά υψηλά επίπεδα ακρίβειας», είπε ο Παπαλεξάκης. «Πολύ υψηλότερο από το να έχουμε ένα σύστημα όπου προσπαθούσαμε να αποτυπώσουμε μεμονωμένα χαρακτηριστικά, όπως τη γλωσσολογία, ή άλλα πράγματα που οι άνθρωποι μπορεί να θεωρούν παραπληροφοριακά».
Ένα παιχνίδι γάτας και ποντικιού για τους αιώνες
Από την σκοπιά της επιστήμης των υπολογιστών, είναι εύκολο να καταλάβει κανείς γιατί αυτή η εργασία θα άρεσε στον Βαγγέλη Παπαλεξάκη και στους άλλους ερευνητές στο UC Riverside — καθώς και στους ανθρώπους του Snapchat. Να είστε σε θέση όχι μόνο να ταξινομείτε τις ψεύτικες ειδήσεις από τις πραγματικές ειδήσεις, αλλά και να διακρίνετε τα μεροληπτικά άρθρα από τη σοβαρή δημοσιογραφία ή τα σατιρικά άρθρα από Το ΚΡΕΜΜΥΔΙ είναι το είδος του γρίφου των μεγάλων δεδομένων που ονειρεύονται οι μηχανικοί.
Το μεγαλύτερο ερώτημα, ωστόσο, είναι πώς θα χρησιμοποιηθεί αυτός ο αλγόριθμος — και αν μπορεί τελικά να βοηθήσει στην καταπολέμηση του φαινομένου των fake news.
Η συνεισφορά της Snap στο έργο (η οποία αντιστοιχεί σε ένα «δώρο» 7.000 $ και πρόσθετη μη οικονομική υποστήριξη) δεν εγγυάται ότι η εταιρεία θα υιοθετήσει την τεχνολογία σε ένα εμπορικό προϊόν. Αλλά ο Παπαλεξάκης είπε ότι ελπίζει ότι η έρευνα θα «οδηγήσει τελικά σε κάποια μεταφορά τεχνολογίας στην πλατφόρμα».
Ο τελικός στόχος, εξήγησε, είναι να αναπτυχθεί ένα σύστημα που να είναι ικανό να παρέχει σε οποιοδήποτε άρθρο αυτό που ισοδυναμεί με βαθμολογία αξιοπιστίας. Θεωρητικά, μια τέτοια βαθμολογία θα μπορούσε να χρησιμοποιηθεί για να φιλτράρει τις ψεύτικες ειδήσεις προτού καν προλάβει να τις δει ο χρήστης.
Αυτή η ιδέα δεν είναι παρόμοια με τα φίλτρα ανεπιθύμητης αλληλογραφίας ηλεκτρονικού ταχυδρομείου μηχανικής εκμάθησης, τα οποία εφαρμόζουν επίσης ένα σύστημα βαθμολόγησης που βασίζεται σε παράγοντες όπως η αναλογία εικόνας προς κείμενο στο σώμα ενός μηνύματος. Ωστόσο, ο Παπαλεξάκης πρότεινε ότι μια προτιμώμενη προσέγγιση μπορεί να είναι απλώς η ειδοποίηση των χρηστών για αυτά ιστορίες που βαθμολογούνται ψηλά στην κατηγορία πιθανών ψεύτικων — «και μετά αφήστε τον χρήστη να αποφασίσει τι θα κάνει το."
Ένας καλός λόγος για αυτό είναι το γεγονός ότι οι ειδήσεις δεν χωρίζονται πάντα τόσο σωστά σε spam vs. κατηγορίες ζαμπόν, όπως κάνει το email. Σίγουρα, ορισμένα άρθρα μπορεί να είναι ασυνήθιστα κατασκευασμένα, αλλά άλλα μπορεί να είναι πιο αμφισβητήσιμα: δεν περιέχουν άμεσα ψέματα, αλλά παρόλα αυτά έχουν σκοπό να οδηγήσουν τον αναγνώστη προς μια συγκεκριμένη κατεύθυνση. Η κατάργηση αυτών των άρθρων, ακόμη και όταν μπορεί να βρούμε απόψεις που συγκρούονται με τις δικές μας, μπαίνει σε πιο αυτοκόλλητο έδαφος.
«Αυτό πέφτει σε μια γκρίζα ζώνη», συνέχισε ο Παπαλεξάκης. «Είναι εντάξει αν μπορούμε να το κατηγοριοποιήσουμε ως ένα πολύ προκατειλημμένο άρθρο. Υπάρχουν διαφορετικές κατηγορίες για αυτό που θα μπορούσαμε να ονομάσουμε παραπληροφόρηση. [Ένα πολύ προκατειλημμένο άρθρο] μπορεί να μην είναι τόσο κακό όσο ένα ευθέως ψευδές άρθρο, αλλά εξακολουθεί να πουλά μια συγκεκριμένη άποψη στον αναγνώστη. Είναι πιο διαφοροποιημένο από το ψεύτικο vs. δεν είναι ψεύτικο."
Τελικά, παρά την επιθυμία του Παπαλεξάκη να καταλήξει σε ένα σύστημα που θα χρησιμοποιεί τόσο μικρή επίβλεψη όσο είναι δυνατόν, αναγνωρίζει ότι πρόκειται για μια πρόκληση που θα πρέπει να περιλαμβάνει τόσο τους ανθρώπους όσο και μηχανές.
«Το βλέπω ως παιχνίδι γάτας με ποντίκι από τεχνολογική άποψη», είπε. «Δεν νομίζω ότι το να λέμε «λύνοντάς το» είναι ο σωστός τρόπος να το δούμε. Η παροχή στους χρήστες ενός εργαλείου που μπορεί να τους βοηθήσει να κατανοήσουν συγκεκριμένα πράγματα σχετικά με ένα άρθρο είναι μέρος της λύσης. Αυτή η λύση θα ήταν εργαλεία που μπορούν να σας βοηθήσουν να κρίνετε τα πράγματα μόνοι σας, να παραμένετε μορφωμένοι ως ενεργός πολίτης, να κατανοείτε τα πράγματα και να διαβάζετε μεταξύ των γραμμών. Δεν νομίζω ότι μπορεί να εφαρμοστεί μια αποκλειστικά τεχνολογική λύση σε αυτό το πρόβλημα, επειδή σε μεγάλο βαθμό εξαρτάται από τους ανθρώπους και το πώς βλέπουν τα πράγματα».
Συστάσεις των συντακτών
- Ο αλγόριθμος ξεπερνά τους ανθρώπους στον εντοπισμό ψεύτικων ειδήσεων