Croudsourcing Ključ do zmagovalcev tekmovanja Netflix

Če po treh urah dela odlašate, si predstavljajte, kako težko se je v treh letih vračati k projektu.

Točno to je naredilo sedem inženirjev, raziskovalcev in znanstvenikov z vsega sveta, da bi izboljšali Netflixov algoritem za priporočanje filmov za 10 odstotkov ali več. In njihova prizadevnost se je nedavno obrestovala, ko je izposojevalnica filmov podelila 1 milijon dolarjev ekipi BellKor's Pragmatic Chaos.

Priporočeni videoposnetki

Ekipa je poslala svojo končno formulo približno 20 minut pred koncem tekmovanja konec julija in premagala tesnega tekmeca The Ensemble. V triletnem tekmovanju se je za nagrado potegovalo več kot 50.000 ljudi.

Povezano

Nov zavihek My Netflix nekoliko olajša pretakanje na poti
Netflix uniči osnovni načrt v ZDA in Združenem kraljestvu, saj oglasi prinašajo več prihodkov
Preizkus hitrosti Netflix: kako preveriti, ali lahko pretakate 4K Ultra HD

Metoda do norosti

BellKor's Pragmatic Chaos je kombinacija treh ekip (BellKor, PragmaticTheory in Big Chaos), ki so združile moči, da bi zaključile svojo prijavo na tekmovanje. Člani so: Bob Bell in Chris Volinsky, iz oddelka za statistične raziskave pri AT&T research; Andreas Töscher in Michael Jahrer, raziskovalca strojnega učenja in ustanovitelja

commendo raziskave in svetovanje v Avstriji; inženir elektrotehnike Martin Piotte in inženir programske opreme Martin Chabbert iz Montreala, ustanovitelja Pragmatična teorija; in Yehuda Koren, višji raziskovalec pri Yahoo! Raziščite Izrael. Prvič so se srečali v ponedeljek, 9. 21, ko je Netflix razglasil zmagovalce.

BellKor's Pragmatic Chaos je postala prva ekipa, ki je junija presegla 10 odstotkov, kar je sprožilo 30-dnevno obdobje, v katerem so lahko drugi tekmovalci poskušali premagati njihov rezultat. Konkurenčna ekipa The Ensemble je svojo rešitev oddala konec julija le nekaj minut pred iztekom roka. BellKorjev zmagovalni vnos je Netflixov obstoječi sistem izboljšal za 10,06 odstotka.

Poskus 10-odstotnega zmanjšanja korenske srednje kvadratne napake (RMSE) testnih podatkov v primerjavi z Cinematch, tehnologija, ki jo Netflix trenutno uporablja za priporočanje filmov članom, je temeljila na sodelovanju filtriranje. Metodologija obravnava preteklo vedenje uporabnikov, ki imajo enake vzorce ocenjevanja, da oblikuje napoved za druge uporabnike. Z uporabo nabora podatkov enega milijona filmov je BellKorjev Pragmatic Chaos delal algoritme in črpal iz »različnih modelov, ki dopolnjujejo pomanjkljivosti drug drugega,« piše v enem od dokumentov, ki jih je objavila ekipa BellKor.

Vključevali so modele najbližjih sosedov (ki identificirajo pare elementov, ki jih uporabnik običajno oceni podobno kot napovedujejo ocene za neocenjeno postavko) in latentne dejavnike (ki raziskujejo skrite funkcije, ki pojasnjujejo opaženo ocene). Ekipa je prav tako pokukala za ocenami, da bi odkrila dodatne podatke, na primer, katere filme je oseba ocenila.

Ekipa je lahko ugotovila, da:

gledalci uporabljajo drugačna merila za ocenjevanje filmov, ki so jih gledali pred časom, v primerjavi s filmi, ki so jih gledali pred kratkim; in
zdi se, da nekateri filmi sčasoma pridobijo gledalce in gledalci različno ocenjujejo filme ob različnih dnevih v tednu.

Z uporabo teh informacij je ekipa ustvarila tridimenzionalni model, ki se je osredotočal na to, kako čas vpliva na odnos med ljudmi in filmi.

Zmagovalna kombinacija

Čeprav je metodologija, ki stoji za rešitvijo, pomembna, je bila morda bolj zanimiva navedba natečaja, da lahko množično iskanje zagotovi boljše rezultate kot interno iskanje.

Chris Volinsky iz ekipe BellKor's pravi, da je Netflix naredil pametno potezo, ko je »ugotovil, da tam zunaj obstaja raziskovalna skupnost, ki je delala na tovrstnih modelih in je bila lačna podatkov.

"Netflix je imel podatke, a le peščica ljudi se ukvarja s težavo," pravi. »Nagrada je ta dva povezala na način, ki je bil občutljiv na njune lastniške podatke … Ta model ne deluje za vsako domeno - tukaj je delovalo, ker so bili podatki zanimivi in prepričljivi tema. Vsak se lahko poveže s filmi. Podobno tekmovanje za, recimo, samodejno prevajanje jezikov morda ne bo vzbudilo toliko strasti.«

Andreas Töscher, prvotno iz ekipe Big Chaos, se je strinjal, da se obeta več tekmovanj, kot je Netflixovo. Govoril je o oddaljeni naravi posebne izkušnje njegove ekipe z množičnim iskanjem – pred ponedeljkom se ni niti pogovarjal s svojimi soigralci, kaj šele, da bi jih opazoval. »Bilo je super srečati preostalo ekipo, potem ko smo sodelovali več kot pol leta. Nikoli nismo imeli telefonskega klica. Od Martina in Martina do pred enim tednom nismo videli slik.”

Martin Chabbert, ki je bil prvotno del ekipe PragmaticTheory, pravi, da se je bilo težko osredotočiti na tekmovanje, medtem ko med žongliranjem službenih in družinskih obveznosti se je bilo težje izogniti prijavi v računalnik, da bi preizkusili novo idejo za projekt. Čeprav je njegovo inženirsko znanje pomagalo pri prizadevanjih ekipe, je enako pomagalo tudi to, da se ni obremenil s teoretičnimi vidiki dela.

"Mislim, da je ena od pomembnih lastnosti za uspeh na tem področju sposobnost prevesti intuicijo o človeškem vedenju v dejanski matematični in algoritemski model," pravi Chabbert. »Veliko ljudi ima ideje o tem, kaj bi bilo treba zajeti, a ključno je najti pravi način za zajemanje. Verjamem, da smo pri tem opravili dobro delo. Poleg tega, ker nismo izhajali iz akademskega ozadja, smo bili bolj osredotočeni na nalogo, ki smo jo imeli poskuša najti stvari, ki imajo teoretično osnovo ali ki bi nujno napredovale v splošnem znanost."

Oče štirih otrok pravi, da je vsak član njegove ekipe zagotovo prinesel nekaj, kar je pripomoglo k zmagovalnemu rezultatu. Algoritmi in dokumenti Yehude Korena, člana ekipe BellKor, so bili najpomembnejši, medtem ko se je BigChaosovo upravljanje vseh modelov in nizov napovedi, ki prihajajo iz vsake podskupine, izkazalo kot ključno. Chabbert in Martin Piotte pripisujeta svojemu "pragmatičnemu" pristopu zasluge za ustvarjanje široke palete izvirnih modelov in kombinacij.

Volinsky pravi, da ima organizacija AT&T IP intelektualno lastnino za izume konkurence, vendar bi razmislila o iskanju priložnosti za njihovo zunanje licenciranje. Vsi trije soigralci pravijo, da bodo razmislili o vstopu Netflixovo drugo tekmovanje, ki se bo osredotočala na ustvarjanje profilov okusa za posamezne uporabnike na podlagi demografskih podatkov in podatkov o uporabi.

Lauren Fritsky je samostojna pisateljica in profesionalna blogerka s sedežem zunaj Filadelfije. Njeno delo je bilo objavljeno v več časopisih in revijah ter na spletnih mestih, kot sta AOL in CNN.

Priporočila urednikov

Najboljše ponudbe Netflixa: brezplačno si oglejte najnovejše izvirnike Netflixa
Koliko stane Netflix? Razčlenitev streamerjevih načrtov
Kako gledati Netflix v 4K na kateri koli napravi
Zvočne vrstice TCL 2023 so cenovno dostopne, vendar nimajo ključne funkcije
Plačajte! Netflix začenja zatiranje deljenja računov v ZDA

Nadgradite svoj življenjski slogDigitalni trendi bralcem pomagajo slediti hitremu svetu tehnologije z vsemi najnovejšimi novicami, zabavnimi ocenami izdelkov, pronicljivimi uvodniki in enkratnimi vpogledi v vsebine.

Croudsourcing Ključ do zmagovalcev tekmovanja Netflix

Priporočila urednikov

Kategorije

Nedavno

Podmorska vesoljska postaja naredi velik korak k uvedbi

CES 2023: Ring se razširi na vozila z novo Ring Car Cam

Ringova ponudba za varovanje doma vidi množico novih dodatkov