Croudsourcingový kľúč k víťazom súťaže Netflix

BellKorov pragmatický chaos

Ak otáľate po troch hodinách práce, predstavte si, aké ťažké je v priebehu troch rokov sa neustále vracať k projektu.

Presne to urobilo sedem inžinierov, výskumníkov a vedcov z celého sveta v snahe vylepšiť algoritmus odporúčaní filmov Netflix o 10 percent alebo viac. A ich usilovnosť sa nedávno vyplatila, keď filmová požičovňa udelila 1 milión dolárov tímu BellKor’s Pragmatic Chaos.

Odporúčané videá

Tím predložil svoj konečný vzorec asi 20 minút pred koncom súťaže koncom júla, čím porazil blízkeho konkurenta The Ensemble. O cenu sa v priebehu trojročnej súťaže uchádzalo viac ako 50 000 ľudí.

Súvisiace

  • Nová karta My Netflix vyzerá, že streamovanie na cestách bude o niečo jednoduchšie
  • Netflix zabíja základný plán v USA a Spojenom kráľovstve, pretože reklamy prinášajú vyššie príjmy
  • Test rýchlosti Netflix: ako skontrolovať, či môžete streamovať 4K Ultra HD

Metóda k šialenstvu

BellKor’s Pragmatic Chaos je kombináciou troch tímov (BellKor, PragmaticTheory a Big Chaos), ktoré spojili svoje sily, aby dokončili svoje podanie do súťaže. Členmi sú: Bob Bell a Chris Volinsky z oddelenia výskumu štatistiky v AT&T research; Andreas Töscher a Michael Jahrer, výskumníci a zakladatelia strojového učenia

chválim výskum a poradenstvo v Rakúsku; elektrotechnik Martin Piotte a softvérový inžinier Martin Chabbert z Montrealu, zakladatelia spoločnosti Pragmatická teória; a Yehuda Koren, vedúci vedecký pracovník v Yahoo! Preskúmajte Izrael. Prvýkrát sa stretli v pondelok 9. 21, keď Netflix vyhlásil víťazov.

BellKor’s Pragmatic Chaos sa stal prvým tímom, ktorý v júni prekonal 10 percent, čo vyvolalo 30-dňové obdobie, počas ktorého sa ostatní súťažiaci mohli pokúsiť prekonať svoje skóre. Konkurenčný tím The Ensemble predložil svoje riešenie koncom júla len niekoľko minút pred termínom. Víťazný príspevok spoločnosti BellKor zlepšil existujúci systém Netflixu o 10,06 percenta.

Pokus o 10-percentné zníženie strednej kvadratickej chyby (RMSE) testovacích údajov v porovnaní s Cinematch, technológia, ktorú Netflix v súčasnosti používa na odporúčanie filmov členom, bola založená na spolupráci filtrovanie. Metodológia sa zameriava na minulé správanie používateľov, ktorí zdieľajú rovnaké vzorce hodnotenia, aby sformulovala predpoveď pre iných používateľov. Pomocou dátového súboru jedného milióna filmov pracoval BellKor's Pragmatic Chaos s algoritmami a čerpal z „rôznych modelov, ktoré sa navzájom dopĺňajú,“ uvádza sa v jednom z článkov publikovaných tímom BellKor.

Zahŕňali modely najbližšieho suseda (ktoré identifikujú páry položiek, ktoré zvyknú byť hodnotené používateľom podobne ako predpovedať hodnotenia pre nehodnotenú položku) a latentné faktory (ktoré skúmajú skryté znaky, ktoré vysvetľujú pozorované hodnotenia). Tím sa tiež pozrel na hodnotenia, aby odhalil ďalšie údaje, ako napríklad to, aké filmy osoba ohodnotila.

Tímu sa podarilo zistiť, že:

  • diváci používajú iné kritériá na hodnotenie filmov, ktoré videli už dávno, v porovnaní s tými, ktoré videli nedávno; a
  • Zdá sa, že niektoré filmy pribúdajú na divákov v čase a diváci hodnotia filmy rôzne v rôznych dňoch v týždni.

Pomocou týchto informácií tím vytvoril trojrozmerný model, ktorý sa zameral na to, ako čas ovplyvňuje vzťah medzi ľuďmi a filmami.

Víťazná kombinácia

Aj keď je metodológia riešenia dôležitá, možno ešte zaujímavejšie bolo, že súťaž naznačila, že crowdsourcing môže priniesť lepšie výsledky ako hľadanie interne.

Chris Volinsky z tímu BellKor's hovorí, že Netflix urobil šikovný krok, keď si „uvedomil, že existuje výskumná komunita, ktorá pracuje na takýchto modeloch a hladuje po údajoch.

„Netflix mal údaje, ale na probléme pracuje len hŕstka ľudí,“ hovorí. „Cena spojila týchto dvoch spôsobom, ktorý bol citlivý na ich vlastnícke údaje... Tento model nefunguje pre každú doménu – tu to fungovalo, pretože údaje boli zaujímavé a presvedčivé tému. Každý sa dokáže vžiť do filmov. Podobná súťaž, povedzme, o automatický jazykový preklad, nemusí vyvolať toľko vášne.“

Andreas Töscher, pôvodne z tímu Big Chaos, súhlasil s tým, že je pripravených viac súťaží ako Netflix. Hovoril o odľahlej povahe špecifických skúseností svojho tímu s crowdsourcingom - pred pondelkom sa so svojimi spoluhráčmi ani nerozprával, nieto ich sledoval. „Bolo skvelé stretnúť sa so zvyškom tímu po viac ako polročnej spolupráci. Nikdy sme nemali telefonát. Od Martina a Martina sme ešte pred týždňom nevideli žiadne fotky.“

Martin Chabbert, ktorý bol pôvodne súčasťou tímu PragmaticTheory, hovorí, že aj keď bolo ťažké sústrediť sa na súťaž žonglovanie s pracovnými a rodinnými povinnosťami bolo ťažšie vyhnúť sa prihláseniu sa do počítača a otestovať nový nápad pre projektu. Zatiaľ čo jeho inžinierske zázemie pomohlo úsiliu tímu, rovnako pomohlo, že sa nezamotal do teoretických aspektov práce.

"Myslím si, že jednou z dôležitých vlastností úspechu v tejto oblasti je schopnosť previesť intuíciu o ľudskom správaní do skutočného matematického a algoritmického modelu," hovorí Chabbert. „Veľa ľudí má nápady, čo by sa malo zachytiť, ale kľúčom je nájsť správny spôsob, ako to zachytiť. Verím, že sme v tom odviedli dobrú prácu. Okrem toho, že sme nepochádzali z akademického prostredia, boli sme skôr sústredení na danú úlohu snažiac sa nájsť veci, ktoré mali teoretické základy alebo ktoré by nevyhnutne posunuli generála dopredu veda.”

Otec štyroch detí hovorí, že každý z členov jeho tímu určite priniesol niečo, čo prispelo k víťaznému skóre. Algoritmy a dokumenty člena tímu BellKor Yehudu Korena boli prvoradé, zatiaľ čo riadenie všetkých modelov a predikčných sád každého podtímu zo strany BigChaosu sa ukázalo ako kľúčové. Chabbert a Martin Piotte vďačia za svoj „pragmatický“ prístup za to, že poskytli širokú škálu originálnych modelov a kombinácií.

Volinsky hovorí, že organizácia AT&T IP vlastní duševné vlastníctvo k vynálezom od konkurencie, ale zvážila by hľadanie príležitostí na ich externú licenciu. Všetci traja spoluhráči tvrdia, že vstup zvážia Druhá súťaž Netflixu, ktorá sa zameria na vytváranie chuťových profilov pre jednotlivých používateľov na základe demografických údajov a údajov o používaní.

Lauren Fritsky je spisovateľka a profesionálna blogerka na voľnej nohe so sídlom mimo Philadelphie. Jej práca sa objavila v niekoľkých novinách a časopisoch a na stránkach ako AOL a CNN.

Odporúčania redaktorov

  • Najlepšie ponuky Netflix: Sledujte najnovšie originály Netflix zadarmo
  • Koľko stojí Netflix? Rozpis plánov streamera
  • Ako sledovať Netflix v rozlíšení 4K na akomkoľvek zariadení
  • Soundbary TCL 2023 sú cenovo dostupné, ale chýba im kľúčová funkcia
  • Zaplať! Netflix začína so zásahom proti zdieľaniu účtov v USA

Zlepšite svoj životný štýlDigitálne trendy pomáhajú čitateľom mať prehľad o rýchlo sa rozvíjajúcom svete technológií so všetkými najnovšími správami, zábavnými recenziami produktov, užitočnými úvodníkmi a jedinečnými ukážkami.