人間だけではオンラインのヘイトスピーチを止めることはできません。 助けてくれるボットが必要です

ジョン・タイソン

インターネットにはヘイトスピーチの問題があります。

コンテンツ

  • これは自動化のための仕事です。 種の
  • 問題を改善するのではなく悪化させる
  • 二つの戦線での戦争
  • 継続的な挑戦
  • インターネット上の言説の未来

YouTube のコメント セクションにアクセスしたり、ソーシャル メディアを短時間でも検索したりすると、攻撃的で偏見のあるコメントが数多くあることがわかります。 しかし、この問題をどうやって解決するのでしょうか? そして、そうする際に、誤って状況を悪化させてしまうことをどのように避けることができるでしょうか?

今月は、ヘイトスピーチを求める 2 つの AI が登場しました。 アルゴリズムが発表されました。1 つは英国で作成され、もう 1 つは米国で作成されました。どちらもいつか使用される可能性があります。 ソーシャル メディアやオンライン世界のその他の領域を調査し、ヘイト スピーチや攻撃的なスピーチを強調表示して、報告、削除、ブロックできるようにします。

おすすめ動画

1 つ目は、英国のエクセター大学の研究者によって開発されたものです。 Lola という名前のツール これは「自然言語処理と行動理論の最新の進歩」を利用して、毎分数千のメッセージをスキャンして嫌がらせ的なコンテンツを発見します。 「市場の既存のソリューションと比較して、精度のレベルは際立っています。」 デビッド・ロペス博士Lola のクリエイターの 1 人が Digital Trends に語った。

2つ目は、 南カリフォルニア大学の研究者、同様のことができると主張しています。 「私たちが開発したアルゴリズムは、ソーシャル メディアの投稿 (または場合によっては他のテキスト) を取得し、そのテキストにヘイトスピーチが含まれているかどうかを予測するテキスト分類器です。」 ブレンダン・ケネディ、コンピューターサイエンスの博士号。 プロジェクトに取り組んだ学生がデジタルトレンドに語った。

これは自動化のための仕事です。 種の

この最も人間的な問題を解決するために自動化されたソリューションに頼る必要がある理由を理解するには、ソーシャル メディアの規模を理解することが重要です。 1 日あたり 1 秒あたり、平均 6,000 件のツイートが送信されます。 これは、1 分あたり 350,000 ツイート、1 日あたり 5 億ツイート、または年間 2,000 億ツイートに相当します。 の上 フェイスブック、約 3,500 万人が毎日自分のステータスを更新しています。

十分な人員を擁するハイテク大手であっても、この数字を見ると、人間のモデレーターが単独で必要なモデレーションを行うのは不可能です。 このような決定は、刻々と生成される新しいコンテンツを常に把握するためだけでなく、特定のメッセージが多数のユーザーに表示されないようにするために、非常に迅速に行う必要があります。 この問題を解決するには、適切に設計されたアルゴリズムが唯一の実用的な方法です。

「1 日あたり 1 秒あたり、平均 6,000 件のツイートが送信されます。 これは、1 分あたり 35 万ツイート、1 日あたり 5 億ツイート、または年間 2,000 億ツイートに相当します。」

機械学習を使用すると、少なくとも理論上は、ヘイトスピーチや攻撃的なスピーチを削除または報告できるように訓練できるツールを開発することが可能です。 しかし、これは簡単ではありません。 ヘイトスピーチは広範で議論のある用語です。 それを法的に、あるいは人間の間で非公式に定義しようとする試みは、困難であることが判明しています。 ヘイトスピーチの例の中には、誰も異論を唱えることができないほど明白なものもあります。 しかし、他の場合はもっと微妙な場合もあります。 このタイプの行動は「マイクロアグレッション」として分類される可能性が高くなります。 アメリカ合衆国最高裁判所のポッター・スチュワート判事が猥褻行為について次のように述べたことは有名です。「見ればそれがわかる」。

「ヘイトスピーチや攻撃的な言葉にはさまざまな種類があります」とケネディ氏はデジタルトレンドに語った。 「中傷など、一部のヘイトスピーチは簡単にフラグが立てられます。 しかし、ほとんどのヘイトスピーチは修辞的に複雑で、比喩、文化的に特有の固定観念、そして『犬笛』を通じて悪者化し、人間性を奪うものです。」

問題を改善するのではなく悪化させる

以前のヘイトスピーチ狩りAI オンラインでより複雑な偏見の例を明らかにするには、ツールがあまりにも率直すぎるため、ツールは効果がないことが証明されています。 不適切に設計されたヘイトスピーチ検出アルゴリズムでは、オンラインでのヘイトスピーチを阻止するどころか、 実際、少数派が送信した非攻撃的なツイートをブロックすることで、人種的偏見などを増幅させることが示されています。 グループ。 それは、ヘイトスピーチ分類者が次のような用語に過敏であるという事実と同じくらい単純なことかもしれません。 「黒人」、「ゲイ」、または「トランスジェンダー」は、一部の地域では憎悪に満ちたコンテンツと関連付けられる可能性が高くなります。 設定。

Microsoft の悪名高い Tay チャットボットと同じように、 ユーザーとのやり取り後の人種差別的な行為元のソーシャル メディア テキスト データに基づいてトレーニングされた分類子は、周囲のコンテキストを無視または認識せずに、特定の単語に大きく依存してしまう可能性があります。

s

2 つの新しい AI は、オンライン メッセージをコンテキストに合わせてより適切に分析する機能を備えています。 検出システムは約束します。 英国の Lola システムは、1 分あたり 25,000 件のメッセージを分析して、ネットいじめ、憎しみ、イスラム嫌悪などの有害な行為を最大 98% の精度で検出できると主張しています。 その一環として、キーワードだけでなく、「感情検出エンジン」を使用して、愛、怒り、恐怖、信頼など、テキスト内でどのような感情が引き起こされているかを判断することも行われています。

一方、南カリフォルニア大学のA.I. 検出システムは、コンテンツだけでなくコンテキストも調べることを約束します。

「この研究における私たちの出発点は、テキストトークンのシーケンスを数値にエンコードする標準的な方法です。 これらのベクトルは、確率的に「嫌い」または「嫌いではない」というクラス ラベルを出力するために使用されます。」 ブランドン 言った。 「私たちのチームのメンバーが開発した『事後説明』アルゴリズムを使用して、ヘイトスピーチをプログラムしました。 グループ識別子の重要性を下げ、グループを取り巻くコンテキストの重要性を高める分類子 識別子。」

このシステムは、白人至上主義のウェブサイト「ストームフロント」の記事と、より中立的なニューヨーク・タイムズの報道を分析することでテストされた。 その作成者らは、90%の精度でヘイトコンテンツと非ヘイトコンテンツを分類することができたと主張している。

二つの戦線での戦争

ただし、ヘイトスピーチを検出するツールを開発しているのは独立した研究者だけではありません。 ソーシャルネットワークもこの問題の解決に取り組んでいます。

「現在、1,000万個の ヘイトスピーチ Facebookのコミュニティ・インテグリティ・グループの製品管理ディレクター、アミット・バタチャリヤ氏はデジタル・トレンドに語った。 「そのうち、約 90% はユーザーから報告を受ける前に検出されました。 私たちは、ヘイトスピーチを含む、違反の可能性のあるコンテンツを積極的に検出することにさらに投資し、その能力を高めてきました。」

Facebook の検出技術は、テキストや画像のマッチングなどに重点を置いているとバタチャリヤ氏は説明しました。 ヘイトスピーチとして既に削除されている画像と同一のテキスト文字列を検索します。 プラットホーム。 また、言語やその他のコンテンツ タイプを分析する機械学習分類器も使用します。 Facebook には追加のデータ ポイントもあります。投稿に対する反応やコメントを調べて、どのような結果が得られるかを確認できるからです。 これらは、ヘイトスピーチに違反するコンテンツで以前に見られた一般的なフレーズ、パターン、攻撃とよく一致します。 ポリシー。

「オンラインでの虐待行為の取り締まりは、事後的に行う必要はありません。 積極的に取り組むことも可能です。」

Twitter は、憎悪に満ちたコンテンツを取り締まるために機械学習ツールも使用しています。 その一部はキーワードベースですが、Twitter はさらにユーザーの行動を分析して、ユーザーがどの程度快適に対話できるかを判断しようとしています。 たとえば、別のユーザーにツイートして返信され、その後フォローされるユーザーは、別のユーザーに直接ツイートしても無視されたりブロックされたりするユーザーとは異なる見方をされます。 これらの行動力学は、嫌がらせや望ましくない標的を絞った行動のパターンを明らかにするのに役立ち、Twitter はプラットフォーム上で起こっていることの内容をより深く理解するために使用できます。

しかし、Twitterの広報担当者はDigital Trendsに対し、攻撃的とフラグが立てられたメッセージは手動で確認されると語った。 人間が(機械の優先順位に従って)正しく識別されたかどうかを判断します。 そのような。

継続的な挑戦

Facebookのバタチャリヤ氏は、ソーシャルネットワークはプラットフォーム上でのヘイトスピーチの抑制において長年にわたり「大きな進歩」を遂げており、そのチームはその成果を誇りに思っていると述べた。 同時にバタチャリヤ氏は、「私たちの仕事は決して完了することはなく、すべての憎悪に満ちたコンテンツが私たちのプラットフォームに表示されるのを防ぐことは決して不可能であることを承知しています。」と述べた。

憂鬱な現実は、オンラインのヘイトスピーチが問題として解決されることはおそらく決してないということです。 少なくとも、変化を起こす人々がいないわけではありません。 インターネットは、その弊害として、特定の人間の声を増幅させ、特定の人間の偏見を埋め込み、体系化する可能性がありますが、それは、インターネットがまさに人類全体に関わるものだからです。 現実世界に存在するあらゆる問題は、ある程度まではオンライン世界にも影響を及ぼします。

FacebookとTwitterのロゴを持つトランプ大統領の様式化された画像
ゲッティイメージズ/デジタルトレンドグラフィック

とはいえ、オンラインでの虐待行為の取り締まりは、事後対応である必要はありません。 積極的に行動することも可能です。 例えば、Digital Trendsと話したTwitterの広報担当者は、ルール違反によりアカウントを12時間禁止されたユーザーのうち、大多数が再び違反行為を行っていると指摘した。 これは、教えられる瞬間が発生する可能性があることを示唆しています。 それらが本当にユーザーに自分の行動の再検討を促すのか、単にルールに違反する行動を止めるだけなのかにかかわらず、プラットフォーム上での腹立たしいルール違反の行動は減少します。

同広報担当者はまた、ツイッターは現在「ナッジ」ベースのシステムを検討していると述べた。 これにより、ユーザーがツイートする前にプロンプ​​トが表示され、投稿しようとしている内容が Twitter のルールに違反する可能性があることが警告されます。 特定のキーワードが原因である可能性があります。 Twitter 経由で開いていない記事を共有する場合、警告が表示される場合もあります。 このナッジ システムは最近、少数のユーザーを対象にテストされました。 現在トライアルは終了していますが、将来的には機能としてすべてのユーザーに展開される可能性があります。

インターネット上の言説の未来

ソーシャルメディア上でのヘイトスピーチやその他の攻撃的な表現の問題は、今後さらに差し迫ったものになるだろう。 たとえばフランスでは、 法律は5月に可決されました これは、特定の犯罪コンテンツを 1 時間以内にソーシャルメディアから削除することを求めています。 そうでない場合、問題のソーシャルメディア企業は世界収益の最大4%の罰金に処されることになる。 その他の「明らかに違法」コンテンツは 24 時間以内に削除する必要があります。 ニコール・ベルーベ法務大臣はフランス議会で、この法律はオンラインでのヘイトスピーチを減らすのに役立つと述べた。

私たちが知る限り、米国でそのような法律が本格的に提案されたことはありません。 しかし、ソーシャルメディアが私たちのコミュニケーション手段の中でますます大きくなり、より影響力を持つようになるにつれて、有害な行為を取り締まることがますます重要になるでしょう。 これは人間のモデレーターだけで対処できる問題ではありません。 しかし、AI を使用して取り組む場合は、問題を確実に改善するだけでなく、悪化させないことを保証するために、慎重に行う必要があります。

インターネット上の言論の将来はそれにかかっています。

編集者のおすすめ

  • どのようにA.I. 見ずにはいられない素晴らしいスポーツ ハイライト リールを作成しました