Croudsourcing-nøkkel til vinnere av Netflix-konkurransen

Hvis du utsetter deg etter tre timers arbeid, forestill deg hvor vanskelig det er å fortsette å komme tilbake til et prosjekt i løpet av tre år.

Det er nøyaktig hva syv ingeniører, forskere og forskere fra hele verden gjorde i et forsøk på å forbedre Netflixs filmanbefalingsalgoritme med 10 prosent eller mer. Og deres flid ga resultater nylig da filmutleieselskapet tildelte 1 million dollar til BellKors Pragmatic Chaos.

Anbefalte videoer

Laget sendte inn sin endelige formel omtrent 20 minutter før konkurransen ble avsluttet i slutten av juli, og slo den nære konkurrenten The Ensemble. Mer enn 50 000 mennesker kjempet mot prisen i løpet av den tre år lange konkurransen.

I slekt

Den nye My Netflix-fanen ser ut til å gjøre strømming på farten litt enklere
Netflix dreper Basic-planen i USA, Storbritannia ettersom annonser gir mer inntekter
Netflix hastighetstest: hvordan sjekke om du kan streame 4K Ultra HD

Metoden til galskapen

BellKors Pragmatic Chaos er en kombinasjon av tre lag (BellKor, PragmaticTheory og Big Chaos) som gikk sammen for å fullføre innleveringen til konkurransen. Medlemmene er: Bob Bell og Chris Volinsky, fra statistikkforskningsavdelingen ved AT&T research; Andreas Töscher og Michael Jahrer, maskinlæringsforskere og grunnleggere av

commendo forskning og rådgivning i Østerrike; elektroingeniør Martin Piotte og programvareingeniør Martin Chabbert fra Montreal, grunnleggerne av Pragmatisk teori; og Yehuda Koren, seniorforsker ved Yahoo! Forske på Israel. De møttes for første gang mandag sept. 21, da Netflix annonserte vinnerne.

BellKors Pragmatic Chaos ble det første laget som overgikk 10 prosent i juni, noe som utløste en 30-dagers periode der andre deltakere kunne prøve å slå poengsummen deres. Det rivaliserende teamet, The Ensemble, leverte sin løsning i slutten av juli bare minutter før fristen. BellKors vinnende bidrag forbedret Netflix sitt eksisterende system med 10,06 prosent.

Forsøket på å produsere en 10-prosent reduksjon i root mean squared error (RMSE) av testdata sammenlignet med Cinematch, teknologien Netflix for tiden bruker for å anbefale filmer til medlemmer, trakk på samarbeid filtrering. Metodikken ser på tidligere atferd til brukere som deler de samme vurderingsmønstrene for å formulere en prediksjon for andre brukere. Ved å bruke et datasett med én million filmer, fungerte BellKors Pragmatic Chaos algoritmer og trakk på "en rekke av modeller som utfyller manglene til hverandre," ifølge en av avisene publisert av teamet BellKor.

De inkluderte nærmeste nabomodeller (som identifiserer gjenstandspar som har en tendens til å bli vurdert på samme måte av en bruker til forutsi vurderinger for en ikke-vurdert gjenstand) og latente faktorer (som undersøker skjulte funksjoner som forklarer de observerte rangeringer). Teamet kikket også bak rangeringene for å avdekke ytterligere data, for eksempel hvilke filmer en person vurderte.

Teamet var i stand til å fastslå at:

seere bruker forskjellige kriterier for å rangere filmer de så for lenge siden sammenlignet med de de så nylig; og
noen filmer ser ut til å vokse på seerne over tid, og seerne vurderer filmer forskjellig på forskjellige ukedager.

Ved å bruke denne informasjonen laget teamet en tredimensjonal modell som fokuserte på hvordan tid påvirker forholdet mellom mennesker og filmer.

En vinnende kombinasjon

Selv om metodikken bak løsningen er viktig, var kanskje mer interessant konkurransens indikasjon på at crowddsourcing kan gi bedre resultater enn å se internt.

Chris Volinsky fra teamet BellKor sier at Netflix gjorde et smart trekk ved å «innse at det var et forskningsmiljø der ute som jobbet med denne typen modeller og hungret etter data.

"Netflix hadde dataene, men bare en håndfull mennesker jobber med problemet," sier han. "Prisen koblet disse to sammen på en måte som var sensitiv for deres proprietære data... Denne modellen fungerer ikke for alle domener - det fungerte her fordi dataene var interessante, og det var overbevisende emne. Alle kan forholde seg til filmer. En lignende konkurranse om for eksempel automatisk språkoversettelse genererer kanskje ikke like mye lidenskap.»

Andreas Töscher, opprinnelig fra teamet Big Chaos, var enig i at flere konkurranser som Netflix er i vente. Han snakket om den avsidesliggende naturen til teamets spesielle crowdsourcing-opplevelse - før mandag hadde han ikke engang snakket med lagkameratene, enn si sett på dem. «Det var flott å møte resten av teamet, etter å ha jobbet sammen i over et halvt år. Vi hadde aldri en telefonsamtale. Fra Martin og Martin hadde vi ikke sett bilder før for en uke siden.»

Martin Chabbert, som opprinnelig var en del av PragmaticTheory-teamet, sier at selv om det var vanskelig å fokusere på konkurransen mens ved å sjonglere arbeid og familieansvar, var det vanskeligere å unngå å logge på datamaskinen for å teste ut en ny idé for prosjekt. Mens hans ingeniørbakgrunn hjalp teamets innsats, hjalp det like mye å ikke bli fastlåst av de teoretiske aspektene ved arbeidet.

"Jeg tror en av de viktige egenskapene for å lykkes på dette feltet er evnen til å oversette intuisjon om menneskelig atferd til en faktisk matematisk og algoritmisk modell," sier Chabbert. "Mange mennesker har ideer om hva som bør fanges, men nøkkelen er å finne den riktige måten å fange det på. Jeg tror vi gjorde en god jobb med det. I tillegg til at vi ikke kom fra akademisk bakgrunn, var vi veldig fokusert på oppgaven i stedet for prøver å finne ting som hadde teoretisk forankring eller som nødvendigvis ville fremme generalen vitenskap."

Firebarnsfaren sier at hvert av medlemmene i laget hans absolutt hadde med seg noe som bidro til vinnerscore. Team BellKor-medlem Yehuda Korens algoritmer og papirer var avgjørende, mens BigChaos’ styring av alle modellene og prediksjonssettene som kom fra hvert underteam viste seg å være nøkkelen. Chabbert og Martin Piotte krediterer deres "pragmatiske" tilnærming for å gi et bredt spekter av originale modeller og kombinasjoner.

Volinsky sier at AT&T IP-organisasjonen eier den intellektuelle eiendommen til oppfinnelsene fra konkurransen, men vil vurdere å se etter muligheter for å lisensiere dem eksternt. Alle tre lagkameratene sier de vil vurdere å melde seg på Netflix sin andre konkurranse, som vil fokusere på å lage smaksprofiler for individuelle brukere basert på demografiske data og bruksdata.

Lauren Fritsky er en frilansskribent og profesjonell blogger basert utenfor Philadelphia. Arbeidet hennes har dukket opp i flere aviser og magasiner og på nettsteder som AOL og CNN.

Redaktørenes anbefalinger

Beste Netflix-tilbud: Se de nyeste Netflix-originalene gratis
Hvor mye koster Netflix? En oversikt over streamerens planer
Slik ser du Netflix i 4K på hvilken som helst enhet
TCLs 2023 lydplanker er rimelige, men mangler en nøkkelfunksjon
Betal! Netflix begynner å slå ned på kontodeling i USA

Oppgrader livsstilen dinDigitale trender hjelper leserne å følge med på den fartsfylte teknologiverdenen med alle de siste nyhetene, morsomme produktanmeldelser, innsiktsfulle redaksjoner og unike sniktitter.

Croudsourcing-nøkkel til vinnere av Netflix-konkurransen

Redaktørenes anbefalinger

Kategorier

Nylig

Call of Duty kan bli saksøkt for å ha sprengt et hotell i spillet

Hvordan The Mandalorian sesong 2s Cameo forble en overraskelse

Microsoft hevder det har en ny måte å holde ChatGPT etisk på