Als Snapchat zum ersten Mal im Rahmen eines Maschinenbaukurses an der Stanford University vorgestellt wurde, fragte sich der entsetzte Lehrassistent des Kurses offen, ob die Entwickler der App eine Sexting-App entwickelt hatten. Weniger als ein Jahrzehnt später könnte Snapchat dazu beitragen, eines der größten Probleme der Technologie zu lösen: das Stoppen des Verbreitung von „Fake News“ im Internet.
Inhalt
- Das Signal für Fake News?
- Ein Katz-und-Maus-Spiel für die Ewigkeit
Mit diesem Ziel vor Augen hat Snap Research – die Forschungsabteilung von Snap, Inc. – spendete kürzlich Gelder für ein Projekt der University of California, Riverside, mit dem Ziel, einen neuen Weg zur Erkennung gefälschter Nachrichten im Internet zu finden. Der Algorithmus, den UC Riverside entwickelt hat Berichten zufolge ist es in der Lage, gefälschte Nachrichten mit einer beeindruckenden Genauigkeit von bis zu 75 Prozent zu erkennen. Mit der Unterstützung von Snap hoffen sie, dies weiter zu verbessern.
Empfohlene Videos
„So wie ich es verstehe, sind sie sehr daran interessiert, genau zu verstehen, wie man dieses Problem verstehen und letztendlich lösen kann.“
„Snap ist nicht eines der ersten Unternehmen, das mir angesichts dieses Problems in den Sinn kommt.“ Vagelis Papalexakis, Assistenzprofessor in der Abteilung für Informatik und Ingenieurwesen an der UC Riverside, sagte gegenüber Digital Trends. „Trotzdem ist Snap ein Unternehmen, das Inhalte verwaltet. Soweit ich weiß, sind sie sehr daran interessiert, genau zu verstehen, wie man dieses Problem verstehen und letztendlich lösen kann.“
Was die Forschung von UC Riverside von den Dutzenden, vielleicht sogar Hunderten anderer Forschungsprojekte unterscheidet, die versuchen, den Fake-News-Kreislauf zu durchbrechen, ist der Ehrgeiz des Projekts. Dabei handelt es sich weder um einen einfachen Keyword-Blocker, noch zielt er darauf ab, bestimmte URLs pauschal zu verbieten. Und was vielleicht am interessantesten ist, es interessiert sich auch nicht besonders für die Fakten, die in Geschichten enthalten sind. Dies unterscheidet es von Faktencheck-Websites wie Snopes, die auf menschliche Eingaben und Bewertungen statt auf echte Automatisierung angewiesen sind.
„Ich vertraue menschlichen Anmerkungen nicht wirklich“, sagte Papalexakis. „Nicht, weil ich den Menschen nicht vertraue, sondern weil es ein von Natur aus schwieriges Problem ist, eine endgültige Antwort darauf zu finden. Unsere Motivation hierfür liegt in der Frage, wie viel wir allein durch die Betrachtung der Daten erreichen können und ob wir – wenn überhaupt – so wenig menschliche Anmerkungen wie möglich verwenden können.“
Das Signal für Fake News?
Der neue Algorithmus betrachtet möglichst viele „Signale“ einer Nachrichtenmeldung und versucht anhand dieser, die Vertrauenswürdigkeit des Artikels einzustufen. Papalexakis sagte: „Wer hat den Artikel geteilt? Welche Hashtags haben sie verwendet? Wer schrieb es? Von welcher Nachrichtenorganisation stammt es? Wie sieht die Webseite aus? Wir versuchen herauszufinden, welche Faktoren wichtig sind und welchen Einfluss sie haben.“
Beispielsweise bestätigt der Hashtag #LockHerUp nicht automatisch, dass es sich bei einem Artikel um Fake News handelt. Wenn jemand dieses Suffix jedoch hinzufügt, wenn er einen Artikel auf Twitter teilt, könnte dies auf eine bestimmte Ausrichtung der Geschichte hinweisen. Fügen Sie genügend dieser Hinweise zusammen, und die Idee ist, dass die einzelnen Teile ein aufschlussreiches Ganzes ergeben. Anders ausgedrückt: Wenn es wie eine Ente läuft und wie eine Ente quakt, ist die Wahrscheinlichkeit groß, dass es eine Ente ist. Oder, in diesem Fall, ein watschelnder, quackender, rechtsextremer russischer Entenbot.
„Unser Interesse besteht darin, zu verstehen, was frühzeitig passiert und wie wir etwas im Frühstadium kennzeichnen können, bevor es beginnt, das Netzwerk zu ‚infizieren‘“, fuhr Papalexakis fort. „Das ist jetzt unser Interesse: herauszufinden, was wir aus dem Inhalt und dem Kontext eines bestimmten Artikels herausholen können.“
Der von Papalexakis‘ Gruppe entwickelte Algorithmus nutzt die sogenannte Tensorzerlegung, um die verschiedenen Informationsströme zu einem Nachrichtenartikel zu analysieren. Tensoren sind mehrdimensionale Würfel, die zum Modellieren und Analysieren von Daten mit vielen verschiedenen Komponenten nützlich sind. Durch die Tensorzerlegung ist es möglich, Muster in Daten zu entdecken, indem ein Tensor in elementare Informationsteile zerlegt wird, die ein bestimmtes Muster oder Thema darstellen.
„Selbst eine lächerlich kleine Anzahl kommentierter Artikel kann uns zu einem wirklich sehr hohen Maß an Genauigkeit verhelfen.“
Der Algorithmus nutzt zunächst die Tensorzerlegung, um Daten so darzustellen, dass mögliche Fake-News-Geschichten gruppiert werden. Eine zweite Stufe des Algorithmus verbindet dann Artikel, die als nahe beieinander gelten. Die Abbildung des Zusammenhangs zwischen diesen Artikeln basiert auf einem Prinzip namens „Schuld durch Assoziation“. Dies deutet darauf hin, dass Verbindungen zwischen zwei Artikeln bedeuten, dass sie eher einem Artikel ähneln ein anderer.
Anschließend wird maschinelles Lernen auf die Diagramme angewendet. Dieser „halbüberwachte“ Ansatz verwendet eine kleine Anzahl von Artikeln, die von Benutzern kategorisiert wurden, und wendet dieses Wissen dann auf einen viel größeren Datensatz an. Dabei sind zwar in gewisser Weise immer noch Menschen beteiligt, es erfordert jedoch weniger menschliche Anmerkungen als die meisten alternativen Methoden zur Klassifizierung potenzieller Fake News. Die von den Forschern angegebene Genauigkeit von 75 Prozent basiert auf der korrekten Filterung zweier öffentlicher Datensätze und einer zusätzlichen Sammlung von 63.000 Nachrichtenartikeln.
„Selbst eine lächerlich kleine Anzahl kommentierter Artikel kann uns zu einem wirklich sehr hohen Maß an Genauigkeit führen“, sagte Papalexakis. „Viel höher als ein System, bei dem wir versucht haben, einzelne Merkmale wie Linguistik oder andere Dinge zu erfassen, die Menschen möglicherweise als falsch ansehen.“
Ein Katz-und-Maus-Spiel für die Ewigkeit
Aus Sicht der Informatik ist es leicht zu verstehen, warum diese Arbeit Vagelis Papalexakis und den anderen Forschern an der UC Riverside – sowie den Leuten bei Snapchat – gefallen würde. In der Lage zu sein, nicht nur gefälschte Nachrichten von echten Nachrichten zu unterscheiden, sondern auch voreingenommene Kommentare von seriösem Journalismus oder satirischen Artikeln zu unterscheiden Die Zwiebel ist die Art von Big-Data-Rätsel, von der Ingenieure träumen.
Die größere Frage ist jedoch, wie dieser Algorithmus eingesetzt wird – und ob er letztendlich dazu beitragen kann, gegen das Phänomen Fake News vorzugehen.
Der Beitrag von Snap zu dem Projekt (der einem „Geschenk“ von 7.000 US-Dollar und zusätzlicher nichtfinanzieller Unterstützung entspricht) garantiert nicht, dass das Unternehmen die Technologie in ein kommerzielles Produkt übernehmen wird. Aber Papalexakis sagte, er hoffe, dass die Forschung irgendwann „zu einem gewissen Technologietransfer auf die Plattform führen wird“.
Das letztendliche Ziel bestehe, erklärte er, darin, ein System zu entwickeln, das in der Lage sei, jedem Artikel eine Vertrauenswürdigkeitsbewertung zu geben. Theoretisch könnte ein solcher Score genutzt werden, um Fake News herauszufiltern, bevor sie überhaupt die Chance haben, vom Nutzer gesehen zu werden.
Dies ist eine nicht unähnliche Idee zu E-Mail-Spamfiltern mit maschinellem Lernen, die ebenfalls ein Bewertungssystem anwenden, das auf Faktoren wie dem Verhältnis von Bild zu Text im Nachrichtentext basiert. Papalexakis schlug jedoch vor, dass ein vorzuziehender Ansatz darin bestehen könnte, die Benutzer einfach darauf aufmerksam zu machen Geschichten, die in der Kategorie „Mögliche Fälschungen“ eine hohe Punktzahl erzielen – „und dann den Benutzer entscheiden lassen, was er damit machen möchte.“ Es."
Ein guter Grund dafür ist die Tatsache, dass Nachrichten nicht immer so klar in Spam vs. Spam unterteilt werden können. Ham-Kategorien, wie es bei E-Mail der Fall ist. Sicher, einige Artikel sind möglicherweise völlig erfunden, andere sind jedoch möglicherweise fragwürdiger: Sie enthalten keine direkten Lügen, sollen den Leser aber dennoch in eine bestimmte Richtung führen. Das Entfernen dieser Artikel, auch wenn wir möglicherweise feststellen, dass die Meinungen mit unseren eigenen im Widerspruch stehen, begibt sich in problematischeres Terrain.
„Das fällt in eine Grauzone“, fuhr Papalexakis fort. „Es ist in Ordnung, wenn wir dies als stark voreingenommenen Artikel einstufen können. Es gibt verschiedene Kategorien für das, was wir Fehlinformationen nennen könnten. [Ein stark voreingenommener Artikel] ist vielleicht nicht so schlimm wie ein völlig falscher Artikel, aber er vermittelt dem Leser dennoch eine bestimmte Sichtweise. Es ist nuancierter als Fake vs. kein Fake."
Letztendlich trotz des Wunsches von Papalexakis, ein System zu entwickeln, das möglichst wenig Aufsicht erfordert Er räumt ein, dass dies eine Herausforderung ist, die sowohl Menschen als auch Menschen einbeziehen muss Maschinen.
„Aus technologischer Sicht sehe ich es als ein Katz-und-Maus-Spiel“, sagte er. „Ich glaube nicht, dass es die richtige Sichtweise ist, ‚das Problem zu lösen‘ zu sagen. Ein Teil der Lösung besteht darin, den Menschen ein Tool zur Verfügung zu stellen, das ihnen hilft, bestimmte Aspekte eines Artikels zu verstehen. Diese Lösung wären Werkzeuge, die Ihnen helfen können, Dinge selbst zu beurteilen, als aktiver Bürger gebildet zu bleiben, Dinge zu verstehen und zwischen den Zeilen zu lesen. Ich glaube nicht, dass eine rein technologische Lösung für dieses Problem angewendet werden kann, weil es zu einem großen Teil von den Menschen und ihrer Sicht auf die Dinge abhängt.“
Empfehlungen der Redaktion
- Der Algorithmus übertrifft den Menschen beim Erkennen gefälschter Nachrichten