Croudsourcing ključ do pobjednika Netflix natjecanja

BellKorov pragmatični kaos

Ako odugovlačite nakon tri sata rada, zamislite koliko je teško vraćati se projektu tijekom tri godine.

Upravo je to učinilo sedam inženjera, istraživača i znanstvenika iz cijelog svijeta u pokušaju da poboljšaju Netflixov algoritam za preporuku filmova za 10 posto ili više. A njihova se marljivost nedavno isplatila kada je tvrtka za iznajmljivanje filmova dodijelila milijun dolara BellKorovom Pragmatic Chaosu.

Preporučeni videozapisi

Tim je poslao svoju konačnu formulu oko 20 minuta prije završetka natjecanja krajem srpnja, pobijedivši bliskog konkurenta The Ensemble. Više od 50.000 ljudi borilo se za nagradu tijekom trogodišnjeg natjecanja.

Povezano

  • Nova kartica My Netflix čini streaming u pokretu malo lakšim
  • Netflix ukida osnovni plan u SAD-u i Velikoj Britaniji jer oglasi donose više prihoda
  • Test brzine Netflixa: kako provjeriti možete li strujati 4K Ultra HD

Metoda do ludila

BellKor's Pragmatic Chaos kombinacija je tri tima (BellKor, PragmaticTheory i Big Chaos) koji su udružili snage kako bi dovršili svoju prijavu na natjecanje. Članovi su: Bob Bell i Chris Volinsky, iz odjela za statistička istraživanja pri AT&T Research; Andreas Töscher i Michael Jahrer, istraživači strojnog učenja i osnivači

commendo istraživanje i savjetovanje u Austriji; inženjer elektrotehnike Martin Piotte i softverski inženjer Martin Chabbert iz Montreala, osnivači Pragmatička teorija; i Yehuda Koren, viši znanstveni suradnik na Yahoo! Istražite Izrael. Prvi put su se sreli u ponedjeljak, 9. 21, kada je Netflix objavio pobjednike.

BellKorov Pragmatic Chaos postao je prvi tim koji je premašio 10 posto u lipnju, što je pokrenulo razdoblje od 30 dana tijekom kojeg su drugi natjecatelji mogli pokušati nadmašiti njihov rezultat. Suparnički tim, The Ensemble, predao je svoje rješenje krajem srpnja samo nekoliko minuta prije isteka roka. BellKorov pobjednički unos poboljšao je Netflixov postojeći sustav za 10,06 posto.

Pokušaj da se proizvede 10-postotno smanjenje srednje kvadratne pogreške (RMSE) testnih podataka u usporedbi s Cinematch, tehnologija koju Netflix trenutno koristi za preporučivanje filmova članovima, temelji se na suradnji filtriranje. Metodologija gleda na prošlo ponašanje korisnika koji dijele iste obrasce ocjenjivanja kako bi formulirala predviđanje za druge korisnike. Koristeći skup podataka od milijun filmova, BellKorov Pragmatic Chaos radio je algoritme i oslanjao se na "razne modela koji nadopunjuju nedostatke jedan drugoga”, navodi se u jednom od radova koje je tim objavio BellKor.

Uključili su modele najbližih susjeda (koji identificiraju parove stavki koje korisnik obično ocjenjuje slično kao predvidjeti ocjene za neocjenjenu stavku) i latentne faktore (koji istražuju skrivene značajke koje objašnjavaju promatrano ocjene). Tim je također zavirio iza ocjena kako bi otkrio dodatne podatke poput onih koje je filmove osoba ocijenila.

Tim je uspio utvrditi sljedeće:

  • gledatelji koriste različite kriterije za ocjenjivanje filmova koje su davno gledali u odnosu na one koje su gledali nedavno; i
  • čini se da neki filmovi vremenom privlače gledatelje i gledatelji različito ocjenjuju filmove u različite dane u tjednu.

Koristeći te informacije, tim je stvorio trodimenzionalni model koji se fokusirao na to kako vrijeme utječe na odnos između ljudi i filmova.

Dobitna kombinacija

Dok je metodologija koja stoji iza rješenja važna, možda je zanimljivije bilo naznaka natjecanja da crowdsourcing može dati bolje rezultate od traženja unutar kuće.

Chris Volinsky iz tima BellKor's kaže da je Netflix napravio pametan potez "shvativši da vani postoji istraživačka zajednica koja radi na ovakvim modelima i gladuje za podacima.

"Netflix je imao podatke, ali samo nekolicina ljudi radi na problemu", kaže on. “Nagrada je povezala ovo dvoje na način koji je bio osjetljiv na njihove vlasničke podatke... Ovaj model ne funkcionira za svaku domenu - ovdje je funkcioniralo jer su podaci bili zanimljivi i uvjerljivi tema. Svatko se može poistovjetiti s filmovima. Slično natjecanje za, recimo, automatsko prevođenje jezika, možda neće izazvati toliko strasti.”

Andreas Töscher, izvorno iz tima Big Chaos, složio se da je u pripremi više natjecanja poput Netflixa. Razgovarao je o udaljenoj prirodi posebnog iskustva njegovog tima u crowdsourcingu - prije ponedjeljka nije čak ni razgovarao sa svojim suigračima, a kamoli da ih je bacio oko. “Bilo je sjajno upoznati ostatak tima, nakon što smo radili zajedno više od pola godine. Nikada nismo imali telefonski razgovor. Od Martina i Martina nismo vidjeli slike do prije tjedan dana.”

Martin Chabbert, koji je izvorno bio dio tima PragmaticTheory, kaže da je bilo teško usredotočiti se na natjecanje dok žonglirajući poslom i obiteljskim obavezama, bilo je teže izbjeći prijavu na računalo kako bi testirali novu ideju za projekt. Iako je njegovo inženjersko iskustvo pomoglo timskim naporima, jednako je pomoglo i to što se nije zaglibio u teoretske aspekte rada.

"Mislim da je jedna od važnih osobina za uspjeh u ovom polju sposobnost prevođenja intuicije o ljudskom ponašanju u stvarni matematički i algoritamski model", kaže Chabbert. “Mnogi ljudi imaju ideje o tome što bi trebalo uhvatiti, ali ključ je u pronalaženju odgovarajućeg načina za snimanje. Vjerujem da smo u tome napravili dobar posao. Također, ne dolazimo iz akademske pozadine, bili smo vrlo usredotočeni na zadatak koji smo imali, a ne pokušavajući pronaći stvari koje su imale teorijsku utemeljenost ili koje bi nužno unaprijedile opće znanost."

Otac četvero djece kaže da je svaki od članova njegove ekipe zasigurno donio nešto što je pridonijelo pobjedničkom rezultatu. Algoritmi i dokumenti člana tima BellKor Yehude Korena bili su najvažniji, dok se BigChaosovo upravljanje svim modelima i skupovima predviđanja koji dolaze iz svakog podtima pokazalo ključnim. Chabbert i Martin Piotte pripisuju zasluge svom "pragmatičnom" pristupu za stvaranje širokog spektra originalnih modela i kombinacija.

Volinsky kaže da organizacija AT&T IP posjeduje intelektualno vlasništvo nad izumima konkurencije, ali bi razmotrila mogućnost da ih licencira izvana. Sva trojica suigrača kažu da će razmisliti o ulasku Netflixovo drugo natjecanje, koji će se fokusirati na stvaranje profila okusa za pojedinačne korisnike na temelju demografskih podataka i podataka o korištenju.

Lauren Fritsky je slobodna spisateljica i profesionalna blogerica koja živi izvan Philadelphije. Njezini su se radovi pojavili u nekoliko novina i časopisa te na stranicama kao što su AOL i CNN.

Preporuke urednika

  • Najbolje ponude Netflixa: besplatno gledajte najnovije Netflix originale
  • Koliko košta Netflix? Raspad streamerovih planova
  • Kako gledati Netflix u 4K na bilo kojem uređaju
  • TCL-ove zvučne trake iz 2023. pristupačne su, ali nemaju ključnu značajku
  • Platiti! Netflix počinje s akcijom dijeljenja računa u SAD-u

Nadogradite svoj životni stilDigitalni trendovi pomažu čitateljima da prate brzi svijet tehnologije sa svim najnovijim vijestima, zabavnim recenzijama proizvoda, pronicljivim uvodnicima i jedinstvenim brzim pregledima.