Snapchat이 스탠포드 기계 공학 수업의 일부로 처음 발표되었을 때, 겁에 질린 조교는 앱 제작자가 섹스팅 앱을 만들었는지 공개적으로 궁금해했습니다. 10년도 채 지나지 않아 Snapchat은 현재 기술이 직면한 가장 큰 문제 중 하나를 해결하는 데 도움을 줄 수 있습니다. 온라인에서 '가짜뉴스' 확산.
내용물
- 가짜뉴스 신호?
- 다양한 연령대를 위한 고양이와 쥐 게임
Snap, Inc.의 연구 부문인 Snap Research는 이러한 목표를 염두에 두고 있습니다. — 최근 온라인에서 가짜 뉴스를 탐지하는 새로운 방법을 찾는 것을 목표로 캘리포니아 대학교 리버사이드 프로젝트에 자금을 기부했습니다. 그만큼 UC Riverside가 개발한 알고리즘 가짜 뉴스 기사를 최대 75%의 정확도로 탐지할 수 있는 것으로 알려졌습니다. Snap의 지원을 통해 이를 더욱 개선할 수 있기를 바랍니다.
추천 동영상
“제가 이해하기로는 그들은 이 문제를 어떻게 이해하고 궁극적으로 해결할 수 있는지 잘 이해하는 데 매우 관심이 있는 것 같습니다.”
"Snap은 [이 문제]를 고려할 때 가장 먼저 떠오르는 회사 중 하나가 아닙니다." 바겔리스 파팔렉사키스, UC Riverside 컴퓨터 과학 및 엔지니어링 부서의 조교수는 Digital Trends에 말했습니다. “그럼에도 불구하고 스냅은 콘텐츠를 다루는 회사입니다. 제가 알기로 그들은 이 문제를 어떻게 이해하고 궁극적으로 해결할 수 있는지 잘 이해하는 데 매우 관심이 있는 것으로 알고 있습니다.”
UC Riverside의 연구가 가짜 뉴스의 악순환을 깨기 위해 노력하는 수십, 어쩌면 수백 개의 다른 연구 프로젝트와 다른 점은 이 프로젝트의 야망입니다. 단순한 키워드 차단기가 아니며 특정 URL을 전면적으로 금지하는 것을 목표로 하지도 않습니다. 또한 가장 흥미로운 점은 이야기에 담긴 사실에 특별히 관심을 두지 않는다는 것입니다. 이는 진정한 자동화 대신 사람의 입력과 평가에 의존하는 Snopes와 같은 사실 확인 웹사이트와는 다릅니다.
Papalexakis는 "나는 인간의 주석을 별로 신뢰하지 않습니다."라고 말했습니다. “내가 인간을 믿지 않아서가 아니라, 이것은 확실한 답을 얻기가 본질적으로 어려운 문제이기 때문입니다. 이에 대한 우리의 동기는 데이터만 보고 얼마나 많은 일을 할 수 있는지, 그리고 사람의 주석을 가능한 한 적게 사용할 수 있는지 여부에 대한 질문에서 비롯됩니다."
가짜뉴스 신호?
새로운 알고리즘은 뉴스 기사에서 가능한 한 많은 "신호"를 살펴보고 이를 사용하여 기사의 신뢰성을 분류합니다. Papalexakis는 이렇게 말했습니다. “누가 기사를 공유했나요? 그들은 어떤 해시태그를 사용했나요? 누가 썼니? 어느 언론사에서 나온 내용인가요? 웹페이지는 어떤 모습인가요? 우리는 어떤 요소가 [중요]하고 얼마나 큰 영향을 미치는지 파악하려고 노력하고 있습니다.”
예를 들어 해시태그 #LockHerUp은 기사 자체가 가짜 뉴스임을 반드시 확인할 수는 없습니다. 그러나 누군가가 트위터에 기사를 공유할 때 이 접미사를 추가하면 이야기에 어떤 관점이 있음을 암시할 수 있습니다. 이러한 단서를 충분히 추가하면 개별 조각이 합쳐져서 전체를 드러낸다는 아이디어가 나옵니다. 다르게 말하면, 오리처럼 걷고 오리처럼 꽥꽥거린다면 오리일 확률이 높습니다. 또는 이 경우에는 뒤뚱거리고 꽥꽥거리는 러시아 오리 로봇입니다.
"우리의 관심은 초기에 어떤 일이 일어나는지, 네트워크가 '감염'되기 전에 초기 단계에 플래그를 지정할 수 있는 방법을 이해하는 것입니다."라고 Papalexakis는 덧붙였습니다. "현재 우리의 관심사는 특정 기사의 내용과 맥락에서 무엇을 짜낼 수 있는지 알아내는 것입니다."
Papalexakis 그룹이 개발한 알고리즘은 텐서 분해라는 것을 사용하여 뉴스 기사에 대한 다양한 정보 스트림을 분석합니다. 텐서는 다양한 구성 요소가 있는 데이터를 모델링하고 분석하는 데 유용한 다차원 큐브입니다. 텐서 분해를 사용하면 텐서를 특정 패턴이나 주제를 나타내는 기본 정보 조각으로 분할하여 데이터의 패턴을 발견할 수 있습니다.
"엄청나게 적은 수의 주석이 달린 기사라도 우리는 매우 높은 수준의 정확성을 얻을 수 있습니다."
알고리즘은 먼저 텐서 분해를 사용하여 가능한 가짜 뉴스 기사를 그룹화하는 방식으로 데이터를 표현합니다. 그런 다음 알고리즘의 두 번째 계층은 서로 가까운 것으로 간주되는 기사를 연결합니다. 이 기사들 사이의 연결을 매핑하는 것은 "연좌제"라는 원칙에 의존합니다. 두 기사 사이의 연결이 하나의 기사와 유사할 가능성이 더 높다는 것을 의미함 또 다른.
그 후 그래프에 머신러닝이 적용됩니다. 이 "반 감독" 접근 방식은 사용자가 분류한 소수의 기사를 사용한 다음 이 지식을 훨씬 더 큰 데이터 세트에 적용합니다. 여기에는 여전히 일정 수준에서는 인간이 포함되지만, 잠재적인 가짜 뉴스를 분류하는 대부분의 대체 방법보다 인간의 주석이 덜 포함됩니다. 연구원들이 주장하는 75% 정확도 수준은 두 개의 공개 데이터세트와 63,000개의 추가 뉴스 기사 모음을 올바르게 필터링한 것을 기반으로 합니다.
Papalexakis는 "엄청나게 적은 수의 주석이 달린 기사라도 정말 높은 수준의 정확성을 얻을 수 있습니다."라고 말했습니다. "언어학과 같은 개별 기능이나 사람들이 잘못된 정보로 간주할 수 있는 기타 사항을 포착하려고 시도한 시스템을 보유하는 것보다 훨씬 더 높습니다."
다양한 연령대를 위한 고양이와 쥐 게임
컴퓨터 과학의 관점에서 볼 때, 이 연구가 Vagelis Papalexakis와 UC Riverside의 다른 연구원들, 그리고 Snapchat의 사람들에게 매력적인 이유를 쉽게 알 수 있습니다. 진짜 뉴스와 가짜 뉴스를 분류할 수 있을 뿐만 아니라 진지한 저널리즘과 편향된 논평, 풍자적인 기사를 구별할 수 있습니다. 양파 이는 엔지니어들이 꿈꾸는 일종의 빅 데이터 난제입니다.
그러나 더 큰 문제는 이 알고리즘이 어떻게 사용될 것인지, 그리고 그것이 궁극적으로 가짜 뉴스 현상을 단속하는 데 도움이 될 수 있는지 여부입니다.
프로젝트에 대한 Snap의 기여(7,000달러의 "선물" 및 추가적인 비재정적 지원에 해당)는 회사가 상용 제품에 해당 기술을 채택할 것이라는 점을 보장하지 않습니다. 그러나 Papalexakis는 연구가 결국 "플랫폼으로의 일부 기술 이전으로 이어지기를" 희망한다고 말했습니다.
그는 최종 목표는 신뢰성 점수에 해당하는 기사를 제공할 수 있는 시스템을 개발하는 것이라고 설명했습니다. 이론적으로 이러한 점수는 사용자가 가짜 뉴스를 접할 기회를 갖기도 전에 가짜 뉴스를 필터링하는 데 사용될 수 있습니다.
이는 메시지 본문의 이미지와 텍스트의 비율과 같은 요소를 기반으로 점수 시스템을 적용하는 기계 학습 이메일 스팸 필터와 다르지 않은 아이디어입니다. 그러나 Papalexakis는 단순히 사용자에게 다음 사항을 알리는 것이 더 나은 접근 방식일 수 있다고 제안했습니다. 가짜 카테고리에서 높은 점수를 받은 이야기 — “그런 다음 사용자가 무엇을 할지 결정하게 하세요. 그것."
이에 대한 좋은 이유 중 하나는 뉴스가 항상 스팸과 스팸으로 깔끔하게 구분되지 않는다는 사실입니다. 이메일과 마찬가지로 햄 카테고리도 마찬가지입니다. 물론, 일부 기사는 완전히 조작된 것일 수 있지만 다른 기사는 더 의심스러울 수 있습니다. 직접적인 거짓말을 다루지는 않지만 그럼에도 불구하고 독자를 특정 방향으로 이끌려는 의도가 있는 것입니다. 이러한 기사를 삭제하는 것은 우리 자신의 의견과 충돌하는 의견을 발견하더라도 더 까다로운 영역에 빠지게 됩니다.
"이것은 회색 영역에 속합니다."라고 Papalexakis는 계속 말했습니다. “편향이 심한 기사로 분류해도 괜찮습니다. 잘못된 정보라고 부르는 것에는 여러 가지 범주가 있습니다. [편향이 심한 기사]는 솔직한 허위 기사만큼 나쁘지 않을 수도 있지만 여전히 독자에게 특정 관점을 판매하고 있습니다. 가짜와 가짜보다 더 미묘한 차이가 있습니다. 가짜가 아님."
궁극적으로, 감독을 거의 사용하지 않는 시스템을 마련하려는 Papalexakis의 열망에도 불구하고 가능하다면 그는 이것이 인간과 인간 모두를 포함해야 하는 도전이라는 것을 인정합니다. 기계.
“기술적인 관점에서 볼 때 저는 이 게임을 고양이와 쥐 게임으로 봅니다.”라고 그는 말했습니다. “'해결'이라는 표현은 옳지 않다고 생각해요. 기사에 대한 특정 사항을 이해하는 데 도움이 되는 도구를 사람들에게 제공하는 것이 솔루션의 일부입니다. 이 솔루션은 스스로 판단하고, 활동적인 시민으로서 교육을 받고, 사물을 이해하고, 행간을 읽는 데 도움이 되는 도구가 될 것입니다. 이 문제의 대부분은 사람과 사물을 보는 방식에 달려 있기 때문에 기술적인 해결책만으로는 이 문제에 적용될 수 없다고 생각합니다.”
편집자의 추천
- 가짜 뉴스를 찾아내는 데 인간보다 뛰어난 알고리즘