세 시간 동안 일한 후에 미루면 3년 동안 한 프로젝트에 계속해서 다시 참여하는 것이 얼마나 힘든지 상상해 보십시오.
이것이 바로 Netflix의 영화 추천 알고리즘을 10% 이상 개선하기 위해 전 세계에서 온 7명의 엔지니어, 연구원 및 과학자가 수행한 작업입니다. 그리고 최근 영화 대여 회사가 BellKor의 Pragmatic Chaos 팀에 100만 달러를 수여했을 때 그들의 부지런함이 성과를 거두었습니다.
추천 동영상
팀은 7월 말 대회가 끝나기 약 20분 전에 최종 공식을 제출하여 가까운 경쟁사인 The Ensemble을 제쳤습니다. 3년 간의 대회 기간 동안 50,000명 이상의 사람들이 상을 받기 위해 경쟁했습니다.
관련된
- 새로운 내 Netflix 탭은 이동 중에 스트리밍을 좀 더 쉽게 만들어줍니다.
- Netflix는 광고로 더 많은 수익을 창출함에 따라 미국과 영국에서 기본 요금제를 종료합니다.
- Netflix 속도 테스트: 4K Ultra HD를 스트리밍할 수 있는지 확인하는 방법
광기에 이르는 방법
BellKor의 Pragmatic Chaos는 경쟁에 대한 제출을 완료하기 위해 힘을 합친 세 팀(BellKor, PragmaticTheory 및 Big Chaos)의 조합입니다. 회원은 AT&T 리서치 통계 연구 부서의 Bob Bell과 Chris Volinsky입니다. Andreas Töscher와 Michael Jahrer, 기계 학습 연구원이자 창립자 연구 및 컨설팅을 추천합니다 오스트리아에서; 전기 엔지니어 Martin Piotte와 몬트리올의 소프트웨어 엔지니어 Martin Chabbert, 창립자 실용주의 이론; 그리고 선임 연구 과학자인 Yehuda Koren 야후! 이스라엘 연구. 그들은 9월 9일 월요일에 처음 만났습니다. 21일 넷플릭스가 우승자를 발표했다.
BellKor의 Pragmatic Chaos는 6월에 10%를 돌파한 최초의 팀이 되었으며, 이로 인해 다른 참가자들이 자신의 점수를 깨기 위해 노력할 수 있는 30일 기간이 촉발되었습니다. 라이벌 팀인 The Ensemble은 마감일 몇 분 전인 7월 말에 솔루션을 제출했습니다. BellKor의 당선작으로 Netflix의 기존 시스템이 10.06% 향상되었습니다.
테스트 데이터의 RMSE(평균 제곱근 오차)를 10% 감소시키려는 시도는 다음과 같습니다. Netflix가 현재 회원에게 영화를 추천하기 위해 사용하는 기술인 Cinematch는 협업을 통해 탄생했습니다. 필터링. 이 방법론은 동일한 평가 패턴을 공유하는 사용자의 과거 행동을 조사하여 다른 사용자에 대한 예측을 공식화합니다. BellKor의 Pragmatic Chaos는 100만 편의 영화 데이터 세트를 사용하여 알고리즘을 작동하고 "다양한 영화"를 끌어냈습니다. 팀이 발표한 논문 중 하나에 따르면 서로의 단점을 보완하는 모델입니다. 벨코르.
여기에는 가장 가까운 이웃 모델(사용자가 유사하게 평가하는 경향이 있는 항목 쌍을 식별함)이 포함되었습니다. 등급이 지정되지 않은 항목에 대한 등급 예측) 및 잠재 요인(관찰된 항목을 설명하는 숨겨진 기능을 조사) 평가). 또한 팀은 평가 이면을 살펴보며 개인이 평가한 영화와 같은 추가 데이터를 발견했습니다.
팀은 다음을 확인할 수 있었습니다.
- 시청자들은 최근에 본 영화와 오래 전에 본 영화를 평가하기 위해 다양한 기준을 사용합니다. 그리고
- 일부 영화는 시간이 지남에 따라 시청자 수가 늘어나는 것처럼 보이며 시청자는 요일에 따라 영화를 다르게 평가합니다.
팀은 이 정보를 사용하여 시간이 사람과 영화의 관계에 어떻게 영향을 미치는지에 초점을 맞춘 3차원 모델을 만들었습니다.
성공적인 조합
솔루션 이면의 방법론도 중요하지만, 아마도 더 흥미로운 점은 크라우드소싱이 사내에서 보는 것보다 더 나은 결과를 낳을 수 있다는 대회의 지적이었습니다.
BellKor 팀의 Chris Volinsky는 Netflix가 “이런 종류의 모델을 연구하고 데이터가 부족한 연구 커뮤니티가 있다는 것을 깨닫고 현명한 조치를 취했다”고 말합니다.
“넷플릭스에 데이터가 있었지만 소수의 사람들만이 문제를 해결하기 위해 노력하고 있습니다.”라고 그는 말합니다. “상금은 독점 데이터에 민감한 방식으로 이 두 가지를 연결했습니다… 이 모델 모든 도메인에서 작동하는 것은 아닙니다. 데이터가 흥미롭고 설득력이 있었기 때문에 여기서는 작동했습니다. 주제. 누구나 영화에 공감할 수 있습니다. 예를 들어 자동 언어 번역에 대한 유사한 경쟁은 그다지 열정을 불러일으키지 못할 수도 있습니다.”
원래 Big Chaos 팀의 Andreas Töscher는 Netflix와 같은 더 많은 경쟁이 준비되어 있다는 데 동의했습니다. 그는 자신의 팀의 특별한 크라우드소싱 경험의 원격 특성에 대해 이야기했습니다. 월요일 이전에는 팀원들과 눈을 마주치는 것은커녕 말조차 한 적이 없었습니다. “반년 넘게 함께 일한 후 나머지 팀원들을 만나서 반가웠습니다. 우리는 전화 통화를 한 적이 없습니다. 마틴과 마틴의 사진은 일주일 전까지만 해도 볼 수 없었습니다.”
원래 PragmaticTheory 팀의 일원이었던 Martin Chabbert는 대회에 집중하기 어려웠지만 대회에 집중하기가 어려웠다고 말합니다. 일과 가족 책임을 병행하면서 새로운 아이디어를 테스트하기 위해 컴퓨터에 로그인하는 것을 피하는 것이 더 어려웠습니다. 프로젝트. 그의 엔지니어링 배경이 팀의 노력에 도움이 되었지만, 작업의 이론적 측면에 얽매이지 않는 것도 똑같이 도움이 되었습니다.
Chabbert는 “이 분야에서 성공하기 위한 중요한 자질 중 하나는 인간 행동에 대한 직관을 실제 수학적 및 알고리즘 모델로 변환하는 능력이라고 생각합니다.”라고 말합니다. “많은 사람들이 무엇을 캡처해야 하는지에 대한 아이디어를 가지고 있지만, 중요한 것은 그것을 캡처하는 적절한 방법을 찾는 것입니다. 나는 우리가 그 일을 잘했다고 믿습니다. 또한, 학문적인 배경을 갖고 있지 않았기 때문에 우리는 당면한 업무에 집중하기보다는 이론적 근거가 있거나 필연적으로 일반론을 발전시킬 수 있는 것들을 찾으려고 노력합니다. 과학."
네 아이의 아버지는 자신의 팀 구성원 각자가 확실히 우승 점수에 기여한 무언가를 가져왔다고 말합니다. BellKor 팀 멤버인 Yehuda Koren의 알고리즘과 논문이 가장 중요했고, BigChaos가 각 하위 팀에서 나오는 모든 모델과 예측 세트를 관리하는 것이 핵심이었습니다. Chabbert와 Martin Piotte는 다양한 독창적인 모델과 조합을 산출하는 그들의 "실용적인" 접근 방식을 인정합니다.
Volinsky는 AT&T IP 조직이 경쟁사의 발명품에 대한 지적 재산을 소유하고 있지만 외부에서 라이선스를 부여할 기회를 찾는 것을 고려할 것이라고 말했습니다. 팀원 3명 모두 출전을 고려하겠다고 밝혔습니다. 넷플릭스의 두 번째 경쟁, 인구 통계 및 사용 데이터를 기반으로 개별 사용자의 취향 프로필을 만드는 데 중점을 둘 것입니다.
Lauren Fritsky는 필라델피아 외곽에 거주하는 프리랜서 작가이자 전문 블로거입니다. 그녀의 작품은 여러 신문과 잡지, AOL, CNN 등의 사이트에 게재되었습니다.
편집자의 추천
- 최고의 Netflix 거래: 최신 Netflix 원본을 무료로 시청하세요
- 넷플릭스 비용은 얼마인가요? 스트리머의 계획 분석
- 모든 기기에서 4K로 Netflix를 시청하는 방법
- TCL의 2023년 사운드바는 저렴하지만 핵심 기능이 부족합니다.
- 지불하세요! 넷플릭스, 미국에서 계정 공유 단속 시작
당신의 라이프스타일을 업그레이드하세요Digital Trends는 독자들이 모든 최신 뉴스, 재미있는 제품 리뷰, 통찰력 있는 사설 및 독특한 미리보기를 통해 빠르게 변화하는 기술 세계를 계속해서 살펴볼 수 있도록 도와줍니다.