Ако отлагате след три часа работа, представете си колко трудно е да продължите да се връщате към проект в продължение на три години.
Точно това направиха седем инженери, изследователи и учени от цял свят в опит да подобрят алгоритъма за препоръчване на филми на Netflix с 10 или повече процента. И тяхното усърдие се изплати наскоро, когато компанията за филми под наем присъди 1 милион долара на екипа на BellKor’s Pragmatic Chaos.
Препоръчани видеоклипове
Екипът представи окончателната си формула около 20 минути преди края на състезанието в края на юли, побеждавайки най-близкия конкурент The Ensemble. Повече от 50 000 души се бориха за наградата в хода на тригодишното състезание.
Свързани
- Новият раздел My Netflix изглежда, за да направи стрийминг в движение малко по-лесен
- Netflix премахва основния план в САЩ и Обединеното кралство, тъй като рекламите носят повече приходи
- Тест за скорост на Netflix: как да проверите дали можете да предавате поточно 4K Ultra HD
Методът към лудостта
Pragmatic Chaos на BellKor е комбинация от три отбора (BellKor, PragmaticTheory и Big Chaos), които обединиха сили, за да завършат подаването си на състезанието. Членовете са: Боб Бел и Крис Волински от отдела за статистически изследвания в AT&T Research; Андреас Тьошер и Михаел Джарер, изследователи на машинно обучение и основатели на
commendo изследвания и консултации в Австрия; електроинженер Мартин Пиот и софтуерен инженер Мартин Чабърт от Монреал, основатели на Прагматична теория; и Йехуда Корен, старши научен сътрудник в Yahoo! Изследвайте Израел. Те се срещнаха за първи път в понеделник, септември. 21, когато Netflix обяви победителите.Прагматичният хаос на BellKor стана първият отбор, надхвърлил 10 процента през юни, което предизвика 30-дневен период, през който други състезатели можеха да се опитат да победят техния резултат. Съперничещият екип, The Ensemble, изпрати своето решение в края на юли, само минути преди крайния срок. Печелившата позиция на BellKor подобри съществуващата система на Netflix с 10,06 процента.
Опитът да се постигне 10-процентно намаление на средната квадратична грешка (RMSE) на тестовите данни в сравнение с Cinematch, технологията, която Netflix в момента използва, за да препоръчва филми на членовете, се основава на сътрудничеството филтриране. Методологията разглежда миналото поведение на потребители, които споделят същите модели на оценка, за да формулира прогноза за други потребители. Използвайки набор от данни от един милион филма, Pragmatic Chaos на BellKor работи с алгоритми и използва „различни на модели, които допълват недостатъците един на друг“, според един от документите, публикувани от екипа BellKor.
Те включват модели на най-близките съседи (които идентифицират двойки елементи, които са склонни да бъдат оценени по подобен начин от потребителя на прогнозиране на оценки за неоценен артикул) и латентни фактори (които изследват скрити характеристики, които обясняват наблюдаваното оценки). Екипът също надникна зад оценките, за да разкрие допълнителни данни, като например какви филми е оценил човек.
Екипът успя да определи, че:
- зрителите използват различни критерии, за да оценят филмите, които са гледали преди много време, в сравнение с тези, които са гледали наскоро; и
- някои филми изглежда привличат вниманието на зрителите с времето и зрителите оценяват филмите по различен начин в различните дни от седмицата.
Използвайки тази информация, екипът създаде триизмерен модел, който се фокусира върху това как времето влияе на връзката между хората и филмите.
Печеливша комбинация
Въпреки че методологията зад решението е важна, може би по-интересно беше указанието на конкурса, че краудсорсингът може да доведе до по-добри резултати от търсенето вътрешно.
Крис Волински от екипа на BellKor's казва, че Netflix са направили умен ход, като „осъзнаха, че има изследователска общност, която работи върху тези видове модели и гладува за данни.
„Netflix имаше данните, но само шепа хора работят по проблема“, казва той. „Наградата свърза тези двамата по начин, който беше чувствителен към техните собствени данни … Този модел не работи за всеки домейн - работи тук, защото данните бяха интересни и убедителни тема. Всеки може да се свърже с филмите. Подобно състезание за, да речем, автоматичен езиков превод може да не генерира толкова много страст.“
Андреас Тьошер, първоначално от екипа Big Chaos, се съгласи, че предстоят още състезания като Netflix. Той говори за отдалечения характер на специфичния краудсорсинг опит на неговия екип - преди понеделник той дори не беше говорил със съотборниците си, камо ли да ги погледне. „Беше страхотна среща с останалата част от екипа, след като работихме заедно повече от половин година. Никога не сме се обаждали по телефона. От Мартин и Мартин не бяхме виждали снимки до преди една седмица.“
Мартин Чабърт, който първоначално е бил част от екипа на PragmaticTheory, казва, че въпреки че е било трудно да се съсредоточи върху състезанието, докато жонглирайки между работа и семейни задължения, беше по-трудно да се избегне влизането в компютъра, за да се тества нова идея за проект. Въпреки че неговият инженерен опит помогна на усилията на екипа, това да не се затъва в теоретичните аспекти на работата също помогна.
„Мисля, че едно от важните качества за успех в тази област е способността да се преведе интуицията за човешкото поведение в действителен математически и алгоритмичен модел“, казва Чабърт. „Много хора имат идеи какво трябва да бъде уловено, но ключът е в намирането на правилния начин да го уловим. Вярвам, че свършихме добра работа в това отношение. Освен това, тъй като не идвахме от академична среда, бяхме много фокусирани върху поставената задача, а не върху опитвайки се да намерят неща, които имат теоретична основа или които непременно биха допринесли за генерала наука.”
Бащата на четири деца казва, че всеки от членовете на неговия отбор със сигурност е донесъл нещо, което е допринесло за победния резултат. Алгоритмите и документите на члена на Team BellKor Йехуда Корен бяха от първостепенно значение, докато управлението на BigChaos на всички модели и набори от прогнози, идващи от всеки подекип, се оказа ключово. Chabbert и Martin Piotte признават техния "прагматичен" подход за получаване на широк набор от оригинални модели и комбинации.
Волински казва, че организацията AT&T IP притежава интелектуалната собственост върху изобретенията от конкуренцията, но би помислила да потърси възможности да ги лицензира външно. И тримата съотборници казват, че ще обмислят да се включат Второто състезание на Netflix, който ще се фокусира върху създаването на вкусови профили за отделни потребители въз основа на демографски данни и данни за употреба.
Лорън Фрицки е писател на свободна практика и професионален блогър, базиран извън Филаделфия. Работата й се появява в няколко вестника и списания и в сайтове като AOL и CNN.
Препоръки на редакторите
- Най-добри оферти на Netflix: Гледайте най-новите оригинали на Netflix безплатно
- Колко струва Netflix? Разбивка на плановете на стриймъра
- Как да гледате Netflix в 4K на всяко устройство
- Саундбарите на TCL 2023 са достъпни, но им липсва ключова характеристика
- Плащай! Netflix започва репресии за споделяне на акаунти в САЩ
Надградете начина си на животDigital Trends помага на читателите да следят забързания свят на технологиите с всички най-нови новини, забавни ревюта на продукти, проницателни редакционни статии и единствени по рода си кратки погледи.