Croudsourcing nøgle til Netflix-konkurrencevindere

BellKors pragmatiske kaos

Hvis du udsætter efter tre timers arbejde, så forestil dig, hvor svært det er at blive ved med at vende tilbage til et projekt i løbet af tre år.

Det er præcis, hvad syv ingeniører, forskere og videnskabsmænd fra hele kloden gjorde i et forsøg på at forbedre Netflixs filmanbefalingsalgoritme med 10 procent eller mere. Og deres flid gav pote for nylig, da filmudlejningsfirmaet tildelte 1 million dollars til teamet BellKors Pragmatic Chaos.

Anbefalede videoer

Holdet indsendte sin endelige formel cirka 20 minutter før konkurrencen sluttede tilbage i slutningen af ​​juli og slog den nære konkurrent The Ensemble. Mere end 50.000 mennesker kæmpede om prisen i løbet af den treårige konkurrence.

Relaterede

  • Den nye My Netflix-fane ser ud til at gøre streaming på farten lidt nemmere
  • Netflix dræber Basic-planen i USA, Storbritannien, da annoncer giver flere indtægter
  • Netflix hastighedstest: hvordan du tjekker, om du kan streame 4K Ultra HD

Metoden til galskaben

BellKors Pragmatic Chaos er en kombination af tre hold (BellKor, PragmaticTheory og Big Chaos), der gik sammen for at afslutte deres indsendelse til konkurrencen. Medlemmerne er: Bob Bell og Chris Volinsky, fra statistikafdelingen ved AT&T research; Andreas Töscher og Michael Jahrer, maskinlæringsforskere og grundlæggere af

commendo forskning og rådgivning i Østrig; elektroingeniør Martin Piotte og softwareingeniør Martin Chabbert fra Montreal, grundlæggere af Pragmatisk teori; og Yehuda Koren, seniorforsker ved Yahoo! Forskning Israel. De mødtes for første gang mandag den sep. 21, hvor Netflix annoncerede vinderne.

BellKors Pragmatic Chaos blev det første hold til at overgå 10 procent i juni, hvilket udløste en 30-dages periode, hvor andre deltagere kunne forsøge at slå deres score. Det rivaliserende team, The Ensemble, indsendte sin løsning i slutningen af ​​juli kun få minutter før deadline. BellKors vinderbidrag forbedrede Netflixs eksisterende system med 10,06 procent.

Forsøget på at producere en 10-procents reduktion i root mean squared error (RMSE) af testdata sammenlignet med Cinematch, teknologien Netflix i øjeblikket bruger til at anbefale film til medlemmer, trak på samarbejde filtrering. Metoden ser på tidligere adfærd hos brugere, der deler de samme vurderingsmønstre, for at formulere en forudsigelse for andre brugere. Ved at bruge et datasæt på en million film arbejdede BellKors Pragmatic Chaos algoritmer og trak på "en række af modeller, der komplementerer hinandens mangler,” ifølge en af ​​artiklerne udgivet af teamet BellKor.

De inkluderede nærmeste nabo-modeller (som identificerer par af varer, der har en tendens til at blive bedømt på samme måde af en bruger til forudsige vurderinger for et ikke-vurderet element) og latente faktorer (som undersøger skjulte funktioner, der forklarer de observerede vurderinger). Holdet kiggede også bag vurderingerne for at afdække yderligere data, såsom hvilke film en person bedømte.

Holdet var i stand til at fastslå, at:

  • seere bruger forskellige kriterier til at bedømme film, de så for længe siden, sammenlignet med dem, de så for nylig; og
  • nogle film ser ud til at vokse på seerne med tiden, og seerne bedømmer film forskelligt på forskellige dage i ugen.

Ved hjælp af denne information skabte holdet en tredimensionel model, der fokuserede på, hvordan tid påvirker forholdet mellem mennesker og film.

En vindende kombination

Selvom metodikken bag løsningen er vigtig, var måske mere interessant konkurrencens indikation af, at crowdsourcing kan give bedre resultater end at se in-house.

Chris Volinsky fra teamet BellKor's siger, at Netflix gjorde et smart træk ved at "indse, at der var et forskningssamfund derude, som arbejdede på den slags modeller og hungrede efter data.

"Netflix havde dataene, men kun en håndfuld mennesker arbejder på problemet," siger han. "Prisen forbandt disse to på en måde, der var følsom over for deres proprietære data... Denne model virker ikke for alle domæner - det fungerede her, fordi dataene var interessante, og det var overbevisende emne. Alle kan relatere til film. En lignende konkurrence om f.eks. automatisk sprogoversættelse genererer måske ikke så meget passion."

Andreas Töscher, oprindeligt fra teamet Big Chaos, var enig i, at flere konkurrencer som Netflix er på vej. Han talte om den fjerntliggende karakter af hans holds særlige crowdsourcing-oplevelse - før mandag havde han ikke engang talt med sine holdkammerater endsige set på dem. "Det var fantastisk at møde resten af ​​teamet efter at have arbejdet sammen i over et halvt år. Vi havde aldrig et telefonopkald. Fra Martin og Martin havde vi ikke set billeder før for en uge siden.”

Martin Chabbert, som oprindeligt var en del af PragmaticTheory-teamet, siger, at selvom det var svært at fokusere på konkurrencen, mens ved at jonglere med arbejde og familieansvar, var det sværere at undgå at logge på computeren for at afprøve en ny idé til projekt. Mens hans ingeniørbaggrund hjalp holdets indsats, hjalp det lige så meget at ikke blive bundet af de teoretiske aspekter af arbejdet.

"Jeg tror, ​​at en af ​​de vigtige egenskaber for at få succes på dette felt er evnen til at omsætte intuition om menneskelig adfærd til en egentlig matematisk og algoritmisk model," siger Chabbert. "Mange mennesker har ideer til, hvad der skal fanges, men nøglen er at finde den rigtige måde at fange det på. Jeg tror på, at vi har gjort det godt. Da vi ikke kom fra en akademisk baggrund, var vi meget fokuserede på opgaven i stedet for forsøger at finde ting, der havde teoretisk forankring, eller som nødvendigvis ville fremme generalen videnskab."

Faren til fire siger, at hvert af medlemmerne af hans hold helt sikkert bragte noget, der bidrog til den vindende score. Team BellKor-medlem Yehuda Korens algoritmer og papirer var altafgørende, mens BigChaos' styring af alle modeller og forudsigelsessæt fra hvert underhold viste sig at være nøglen. Chabbert og Martin Piotte krediterer deres "pragmatiske" tilgang for at give en bred vifte af originale modeller og kombinationer.

Volinsky siger, at AT&T IP-organisationen ejer den intellektuelle ejendomsret til opfindelserne fra konkurrenterne, men vil overveje at lede efter muligheder for at licensere dem eksternt. Alle tre holdkammerater siger, at de vil overveje at deltage Netflix anden konkurrence, som vil fokusere på at skabe smagsprofiler for individuelle brugere baseret på demografiske data og brugsdata.

Lauren Fritsky er freelanceskribent og professionel blogger baseret uden for Philadelphia. Hendes arbejde har optrådt i adskillige aviser og magasiner og på sider som AOL og CNN.

Redaktørens anbefalinger

  • Bedste Netflix-tilbud: Se de seneste Netflix-originaler gratis
  • Hvor meget koster Netflix? En oversigt over streamerens planer
  • Sådan ser du Netflix i 4K på enhver enhed
  • TCLs 2023 soundbars er overkommelige, men mangler en nøglefunktion
  • Betal! Netflix begynder at slå ned på kontodeling i USA.

Opgrader din livsstilDigital Trends hjælper læserne med at holde styr på den hurtige teknologiske verden med alle de seneste nyheder, sjove produktanmeldelser, indsigtsfulde redaktionelle artikler og enestående smugkig.