Croudsourcing-nyckel till vinnare av Netflix-tävlingen

click fraud protection
BellKors pragmatiska kaos

Om du skjuter upp efter tre timmars arbete, föreställ dig hur svårt det är att fortsätta komma tillbaka till ett projekt under tre år.

Det är precis vad sju ingenjörer, forskare och forskare från hela världen gjorde i ett försök att förbättra Netflixs filmrekommendationsalgoritm med 10 procent eller mer. Och deras flit lönade sig nyligen när filmuthyrningsföretaget delade ut 1 miljon dollar till teamet BellKors Pragmatic Chaos.

Rekommenderade videor

Laget lämnade in sin slutliga formel cirka 20 minuter innan tävlingen avslutades i slutet av juli, och slog ut den nära konkurrenten The Ensemble. Mer än 50 000 personer tävlade om priset under den treåriga tävlingen.

Relaterad

  • Den nya fliken My Netflix ser ut att göra streaming lite lättare när du är på språng
  • Netflix dödar Basic plan i USA, Storbritannien eftersom annonser ger mer intäkter
  • Netflix hastighetstest: hur du kontrollerar om du kan streama 4K Ultra HD

Metoden till galenskapen

BellKors Pragmatic Chaos är en kombination av tre lag (BellKor, PragmaticTheory och Big Chaos) som gick samman för att avsluta sin anmälan till tävlingen. Medlemmarna är: Bob Bell och Chris Volinsky, från avdelningen för statistikforskning vid AT&T research; Andreas Töscher och Michael Jahrer, maskininlärningsforskare och grundare av

beröm forskning och rådgivning i Österrike; elektroingenjör Martin Piotte och mjukvaruingenjör Martin Chabbert från Montreal, grundare av Pragmatisk teori; och Yehuda Koren, senior forskare vid Yahoo! Forskning Israel. De träffades för första gången i måndags, september. 21, när Netflix tillkännagav vinnarna.

BellKors Pragmatic Chaos blev det första laget att överträffa 10 procent i juni, vilket utlöste en 30-dagarsperiod under vilken andra tävlande kunde försöka slå sina poäng. Det rivaliserande teamet, The Ensemble, lämnade in sin lösning i slutet av juli bara några minuter före deadline. BellKors vinnande bidrag förbättrade Netflix befintliga system med 10,06 procent.

Försöket att producera en 10-procentig minskning av root mean squared error (RMSE) av testdata jämfört med Cinematch, tekniken Netflix för närvarande använder för att rekommendera filmer till medlemmar, byggde på samarbete filtrering. Metodiken tittar på tidigare beteenden hos användare som delar samma betygsmönster för att formulera en förutsägelse för andra användare. Med hjälp av en datauppsättning av en miljon filmer fungerade BellKors Pragmatic Chaos algoritmer och byggde på "en mängd olika av modeller som kompletterar varandras brister”, enligt en av tidningarna publicerade av teamet BellKor.

De inkluderade närmaste grannmodeller (som identifierar par av föremål som tenderar att betygsättas på samma sätt av en användare som förutsäga betyg för en oklassificerad artikel) och latenta faktorer (som undersöker dolda egenskaper som förklarar de observerade betyg). Teamet tittade också bakom betygen för att avslöja ytterligare data som vilka filmer en person betygsatt.

Teamet kunde fastställa att:

  • tittare använder olika kriterier för att betygsätta filmer de såg för länge sedan jämfört med de de såg nyligen; och
  • vissa filmer verkar växa på tittarna med tiden och tittarna betygsätter filmer olika olika dagar i veckan.

Med hjälp av den informationen skapade teamet en tredimensionell modell som fokuserade på hur tid påverkar relationen mellan människor och filmer.

En vinnande kombination

Även om metodiken bakom lösningen är viktig, kanske mer intressant var tävlingens indikation på att crowdsourcing kan ge bättre resultat än att se internt.

Chris Volinsky från teamet BellKor's säger att Netflix gjorde ett smart drag genom att "inse att det fanns ett forskarsamhälle där ute som arbetade med den här typen av modeller och var hungrig efter data.

"Netflix hade data, men bara en handfull människor arbetar med problemet", säger han. "Priset kopplade ihop dessa två på ett sätt som var känsligt för deras proprietära data... Den här modellen fungerar inte för alla domäner – det fungerade här eftersom data var intressant och det var övertygande ämne. Alla kan relatera till filmer. En liknande tävling för, säg, automatisk språköversättning, kanske inte genererar lika mycket passion.”

Andreas Töscher, ursprungligen från teamet Big Chaos, höll med om att fler tävlingar som Netflix är på gång. Han talade om den avlägsna karaktären av hans teams speciella crowdsourcing-upplevelse – före måndagen hade han inte ens pratat med sina lagkamrater än mindre sett ögonen på dem. "Det var fantastiskt att träffa resten av teamet efter att ha arbetat tillsammans i över ett halvår. Vi hade aldrig ett telefonsamtal. Från Martin och Martin hade vi inte sett bilder förrän för en vecka sedan.”

Martin Chabbert, som ursprungligen var en del av PragmaticTheory-teamet, säger att även om det var svårt att fokusera på tävlingen medan när man jonglerar med arbete och familjeansvar, var det svårare att undvika att logga in på datorn för att testa en ny idé för projekt. Även om hans ingenjörsbakgrund hjälpte lagets ansträngningar, hjälpte det lika mycket att inte fastna i de teoretiska aspekterna av arbetet.

"Jag tror att en av de viktiga egenskaperna för att vara framgångsrik inom detta område är förmågan att översätta intuition om mänskligt beteende till en faktisk matematisk och algoritmisk modell," säger Chabbert. "Många människor har idéer om vad som ska fångas, men nyckeln är att hitta rätt sätt att fånga det. Jag tror att vi gjorde ett bra jobb med det. Dessutom, eftersom vi inte kom från en akademisk bakgrund, var vi mycket fokuserade på uppgiften, snarare än att försöka hitta saker som hade teoretisk förankring eller som nödvändigtvis skulle främja generalen vetenskap."

Fyrabarnspappan säger att var och en av medlemmarna i hans lag verkligen hade med sig något som bidrog till den vinnande poängen. Team BellKor-medlemmen Yehuda Korens algoritmer och papper var avgörande, medan BigChaos hantering av alla modeller och förutsägelseuppsättningar som kom från varje underteam visade sig vara nyckeln. Chabbert och Martin Piotte krediterar deras "pragmatiska" tillvägagångssätt för att ge ett brett utbud av originalmodeller och kombinationer.

Volinsky säger att AT&T IP-organisationen äger den immateriella äganderätten till uppfinningarna från konkurrenterna, men skulle överväga att leta efter möjligheter att licensiera dem externt. Alla tre lagkamraterna säger att de kommer att överväga att gå in Netflix andra tävling, som kommer att fokusera på att skapa smakprofiler för enskilda användare baserat på demografi och användningsdata.

Lauren Fritsky är en frilansskribent och professionell bloggare baserad utanför Philadelphia. Hennes arbete har förekommit i flera tidningar och tidskrifter och på sajter som AOL och CNN.

Redaktörens rekommendationer

  • Bästa Netflix-erbjudanden: Se de senaste Netflix-originalen gratis
  • Hur mycket kostar Netflix? En sammanfattning av streamerns planer
  • Hur man tittar på Netflix i 4K på vilken enhet som helst
  • TCLs 2023 soundbars är prisvärda, men saknar en nyckelfunktion
  • Betala! Netflix börjar slå ned kontodelning i USA

Uppgradera din livsstilDigitala trender hjälper läsare att hålla koll på den snabba teknikvärlden med alla de senaste nyheterna, roliga produktrecensioner, insiktsfulla redaktioner och unika smygtittar.