인간은 온라인 증오심 표현만으로는 막을 수 없습니다. 도움을 줄 봇이 필요합니다

인터넷에는 증오심 표현 문제가 있습니다.

내용물

자동화를 위한 작업입니다. 거의
문제를 더 좋게 만드는 게 아니라 더 악화시키는 것
두 전선에서의 전쟁
계속되는 도전
인터넷 담론의 미래

짧은 시간이라도 YouTube 댓글 섹션으로 이동하거나 소셜 미디어를 탐색하면 공격적이고 자주 편견을 갖는 댓글이 부족함을 발견할 수 있습니다. 그런데 이 문제를 어떻게 해결하나요? 그리고 그렇게 함으로써 실수로 상황이 악화되는 것을 어떻게 방지할 수 있습니까?

이번 달에는 증오심 표현을 추구하는 A.I. 알고리즘이 발표되었습니다. 하나는 영국에서, 다른 하나는 미국에서 만들어졌습니다. 둘 다 언젠가는 사용될 수 있습니다. 소셜 미디어나 온라인 세계의 다른 영역을 샅샅이 뒤지고 증오심 표현이나 공격적인 표현을 강조하여 신고, 삭제 또는 차단할 수 있습니다.

자동화를 위한 작업입니다. 거의

가장 인간적인 문제를 해결하기 위해 자동화된 솔루션으로 전환해야 하는 이유를 이해하려면 소셜 미디어의 규모를 이해하는 것이 중요합니다. 하루 평균 6,000개의 트윗이 전송됩니다. 이는 분당 350,000개의 트윗, 하루 5억 개의 트윗, 연간 2천억 개의 트윗에 해당합니다. ~에 페이스북, 약 3,500만 명의 사람들이 매일 자신의 상태를 업데이트합니다.

직원 수가 많은 거대 기술 기업의 경우에도 이러한 숫자로 인해 인간 조정자가 스스로 필요한 조정을 수행하는 것은 불가능합니다. 이러한 결정은 매 순간 생성되는 새로운 콘텐츠를 파악하는 것뿐만 아니라 특정 메시지가 많은 사용자에게 표시되지 않도록 매우 신속하게 이루어져야 합니다. 잘 설계된 알고리즘은 이 문제를 해결하는 유일한 실용적인 방법입니다.

“하루 1초마다 평균 6,000개의 트윗이 전송됩니다. 이는 분당 350,000개의 트윗, 하루 5억 개의 트윗, 연간 2천억 개의 트윗에 해당합니다.”

기계 학습을 사용하면 적어도 이론상으로는 증오심 표현이나 불쾌한 표현을 찾아 삭제하거나 신고할 수 있도록 학습할 수 있는 도구를 개발하는 것이 가능합니다. 그러나 이것은 쉽지 않습니다. 증오심 표현은 광범위하고 논쟁의 여지가 있는 용어입니다. 인간 사이에서 이를 법적으로, 심지어 비공식적으로 정의하려는 시도는 어려운 것으로 드러났습니다. 증오심 표현의 일부 예는 너무 명확해서 누구도 이에 대해 이의를 제기할 수 없을 수도 있습니다. 그러나 다른 경우에는 더 미묘할 수 있습니다. "미시적 공격"으로 분류될 가능성이 더 높은 행동 유형입니다. 미국 대법원 판사인 포터 스튜어트(Potter Stewart)가 음란물에 관해 다음과 같이 말한 것처럼, “나는 그것을 보면 안다.”

Kennedy는 Digital Trends에 “증오심 표현과 공격적인 언어에는 다양한 유형이 있습니다.”라고 말했습니다. “일부 증오심 표현은 신고하기 쉽습니다(예: 비방). 그러나 대부분의 증오심 표현은 수사학적으로 복잡하고 은유, 문화적으로 특정한 고정관념, '개 휘파람'을 통해 악마화하고 비인간화합니다.”

문제를 더 좋게 만드는 게 아니라 더 악화시키는 것

기존 혐오발언 탐지 A.I. 도구는 온라인에서 더 복잡한 편견의 예를 밝혀내기에는 너무 무뚝뚝하기 때문에 비효율적인 것으로 입증되었습니다. 제대로 설계되지 않은 증오심 표현 탐지 알고리즘은 온라인에서 증오심 표현을 막는 것과는 거리가 멀습니다. 실제로 소수가 보낸 비공격적인 트윗을 차단하여 인종 편견과 같은 것을 증폭시키는 것으로 나타났습니다. 여러 떼. 이는 증오심 표현 분류자가 다음과 같은 용어에 지나치게 민감하다는 사실만큼 간단할 수 있습니다. '흑인', '게이' 또는 '트랜스젠더'는 일부 국가에서 증오성 콘텐츠와 연관될 가능성이 더 높습니다. 설정.

Microsoft의 악명 높은 Tay 챗봇처럼 사용자와 상호작용한 후 인종차별적 행동, 원본 소셜 미디어 텍스트 데이터에 대해 훈련된 분류자는 주변 상황을 무시하거나 인식하지 못한 채 특정 단어에 크게 의존하게 될 수 있습니다.

에스

상황에 맞게 온라인 메시지를 더 잘 분석하는 능력은 두 가지 새로운 A.I. 탐지 시스템을 약속합니다. 영국의 Lola 시스템은 분당 25,000개의 메시지를 분석하여 사이버 괴롭힘, 증오, 이슬람 혐오증을 포함한 유해한 행동을 최대 98%의 정확도로 탐지할 수 있다고 주장합니다. 그 중 일부는 키워드만 보는 것이 아니라 '감정 감지 엔진'을 사용하여 사랑, 분노, 두려움, 신뢰 등 텍스트에서 어떤 감정이 도출되는지 알아내는 것입니다.

한편, 서던캘리포니아대학교 A.I. 탐지 시스템은 내용뿐만 아니라 맥락도 살펴볼 것을 약속합니다.

“이 연구의 출발점은 일련의 텍스트 토큰을 숫자로 인코딩하는 표준 방법입니다. 이 벡터는 '증오' 또는 '증오 없음'이라는 클래스 라벨을 확률적으로 출력하는 데 사용됩니다.” Brandon 말했다. “우리 팀원들이 개발한 ‘사후 설명’ 알고리즘을 사용하여 혐오 표현을 프로그래밍했습니다. 그룹 식별자에 덜 중요하고 그룹을 둘러싼 컨텍스트에 더 많은 중요성을 부여하는 분류자 식별자.”

이 시스템은 백인 우월주의 웹사이트 Stormfront의 기사와 New York Times의 좀 더 중립적인 보도를 분석하여 테스트되었습니다. 제작자는 90%의 정확도로 증오가 아닌 콘텐츠에서 증오를 분류할 수 있다고 주장합니다.

두 전선에서의 전쟁

그러나 증오심 표현을 탐지하기 위한 도구를 개발하는 것은 독립적인 연구원들만이 아닙니다. 소셜 네트워크도 이 문제를 해결하기 위해 노력하고 있습니다.

“우리는 이제 천만 개의 조각을 제거합니다. 연설을 증오 Facebook 커뮤니티 무결성 그룹의 제품 관리 이사인 Amit Bhattacharyya는 Digital Trends에 이렇게 말했습니다. “그 중 약 90%는 사용자가 우리에게 신고하기 전에 감지되었습니다. 우리는 증오심 표현을 포함하여 잠재적으로 위반할 수 있는 콘텐츠를 사전에 감지하는 데 더 많은 투자를 했고 더 발전했습니다.”

Bhattacharyya는 Facebook의 탐지 기술이 텍스트 및 이미지 일치와 같은 것에 중점을 두고 있다고 설명했습니다. 다른 곳에서 증오심 표현으로 이미 삭제된 이미지와 동일한 텍스트 문자열을 찾습니다. 플랫폼. 또한 언어 및 기타 콘텐츠 유형을 분석하는 기계 학습 분류자를 사용합니다. Facebook에는 게시물에 대한 반응과 댓글을 보고 어떻게 진행되는지 확인할 수 있는 추가 데이터 포인트도 있습니다. 이는 증오심 표현을 위반하는 콘텐츠에서 이전에 볼 수 있었던 일반적인 문구, 패턴 및 공격과 밀접하게 일치합니다. 정책.

“온라인에서 폭력적인 행동을 단속하는 데 반드시 사후 조치를 취할 필요는 없습니다. 적극적일 수도 있다.”

트위터는 또한 기계 학습 도구를 사용하여 증오성 콘텐츠를 단속합니다. 이 중 일부는 키워드 기반이지만 Twitter는 사용자 행동을 추가로 분석하여 사용자가 상호 작용에 얼마나 편안한지 판단합니다. 예를 들어, 다른 사용자에게 트윗을 올리고 답변을 받은 다음 팔로우하는 사용자는 다른 사람에게 직접 트윗을 반복적으로 게시했지만 무시되거나 차단된 사용자와 다르게 보일 것입니다. 이러한 행동 역학은 트위터가 플랫폼에서 무슨 일이 일어나고 있는지 내용을 더 잘 이해하는 데 사용할 수 있는 괴롭힘 또는 원치 않는 표적 행동의 패턴을 밝히는 데 도움이 될 수 있습니다.

그러나 트위터 대변인은 불쾌하다고 표시된 메시지는 수동으로 검토된다고 Digital Trends에 말했습니다. 인간이 (기계 우선순위에 따라) 정확하게 식별되었는지 확인하기 위해 그런.

계속되는 도전

페이스북의 바타차리야(Bhattacharyya)는 소셜 네트워크가 플랫폼에서 증오심 표현을 억제하는 데 수년 동안 “큰 진전”을 이루었으며 페이스북 팀이 성취한 것을 자랑스럽게 생각한다고 말했습니다. 동시에 Bhattacharyya는 "우리의 작업은 결코 완료되지 않으며 모든 증오 콘텐츠가 우리 플랫폼에 표시되는 것을 결코 막을 수 없다는 것을 알고 있습니다"라고 말했습니다.

우울한 현실은 온라인 혐오발언이 결코 문제로 해결되지 않을 것이라는 점이다. 적어도 사람들이 변화를 일으키지 않고는 그렇지 않습니다. 인터넷은 해를 끼치면서 특정 인간의 목소리를 증폭시키고 특정 인간의 편견을 삽입하고 성문화할 수 있지만 그것은 단지 인류이기 때문입니다. 현실 세계에 존재하는 모든 문제는 어느 정도 온라인 세계로 퍼져나갑니다.

Facebook 및 Twitter 로고 스타일 이미지를 사용한 트럼프 — Getty Images/디지털 트렌드 그래픽

즉, 온라인에서 폭력적인 행동을 단속하는 데 반드시 대응할 필요는 없습니다. 적극적일 수도 있습니다. 예를 들어 Digital Trends와 대화한 트위터 대변인은 규칙 위반으로 인해 12시간 동안 계정이 금지된 사용자 중 대다수가 다시 위반을 한다고 지적했습니다. 이는 가르칠 수 있는 순간이 발생할 수 있음을 시사합니다. 사용자에게 자신의 행동을 재검토하도록 진심으로 유도하거나 단순히 규칙을 위반하는 방식으로 행동하는 것을 중단시키더라도 플랫폼에서 규칙을 위반하는 행동을 줄여줍니다.

대변인은 또한 트위터가 현재 '넛지' 기반 시스템을 탐색하고 있다고 말했습니다. 이는 사용자가 트윗하기 전에 메시지를 제공하여 게시하려는 내용이 트위터 규칙에 어긋날 수 있음을 경고합니다. 특정 키워드 때문일 수 있습니다. 트위터를 통해 열지 않은 기사를 공유할 때 경고 메시지가 표시될 수도 있습니다. 이 넛지 시스템은 최근 소수의 사용자를 대상으로 테스트되었습니다. 현재 평가판은 종료되었지만 향후 모든 사용자에게 기능으로 출시될 가능성이 있습니다.

인터넷 담론의 미래

소셜 미디어에서 증오심 표현 및 기타 공격적인 표현에 대한 문제는 더욱 시급해졌습니다. 예를 들어 프랑스에서는 지난 5월 법이 통과됐다. 특정 범죄 콘텐츠를 한 시간 내에 소셜 미디어에서 삭제해야 한다는 내용입니다. 그렇지 않은 경우 문제의 소셜 미디어 회사는 전 세계 매출의 최대 4%에 해당하는 벌금을 물게 됩니다. 기타 "명백히 불법"인 콘텐츠는 24시간 이내에 삭제되어야 합니다. Nicole Belloubet 법무장관은 프랑스 의회에서 이 법이 온라인 증오심 표현을 줄이는 데 도움이 될 것이라고 말했습니다.

우리가 아는 한 그러한 법률은 미국에서 심각하게 제안된 적이 없습니다. 그러나 소셜 미디어가 의사소통 방식에서 점점 더 커지고 영향력이 커짐에 따라 유해한 행동을 단속하는 것이 점점 더 중요해질 것입니다. 이는 인간 중재자에 의해서만 해결될 수 있는 문제가 아닙니다. 그러나 AI를 사용하여 수행할 때는 문제를 개선할 뿐만 아니라 문제를 악화시키지 않도록 주의 깊게 수행해야 합니다.

인터넷 담론의 미래는 이에 달려 있습니다.

편집자의 추천

어떻게 A.I. 시청을 멈출 수 없는 놀라운 스포츠 하이라이트 영상을 만들었습니다.

인간은 온라인 증오심 표현만으로는 막을 수 없습니다. 도움을 줄 봇이 필요합니다

자동화를 위한 작업입니다. 거의

문제를 더 좋게 만드는 게 아니라 더 악화시키는 것

두 전선에서의 전쟁

계속되는 도전

인터넷 담론의 미래

편집자의 추천

카테고리

충적세

LG V50 ThinQ 및 HTC 5G 허브로 Sprint의 5G 테스트

Honor Magic 2의 슬라이드다운 화면은 최고의 기술 마법입니다.

Samsung Galaxy S9 Plus의 카메라가 저조도에서 작동하는 방법은 다음과 같습니다.