Ключ краудсорсингу до переможців конкурсу Netflix

Якщо ви зволікаєте після трьох годин роботи, уявіть, як важко повертатися до проекту протягом трьох років.

Це саме те, що зробили семеро інженерів, дослідників і науковців з усього світу, намагаючись покращити алгоритм рекомендацій фільмів Netflix на 10 відсотків або більше. І їхня старанність нещодавно окупилася, коли компанія з прокату фільмів виплатила 1 мільйон доларів команді BellKor’s Pragmatic Chaos.

Рекомендовані відео

Команда подала свою остаточну формулу приблизно за 20 хвилин до завершення конкурсу ще наприкінці липня, перемігши найближчого конкурента The Ensemble. Протягом трьох років конкурсу за приз боролися понад 50 000 людей.

Пов'язані

Нова вкладка «Мій Netflix» спрощує трансляцію в дорозі
Netflix скасовує базовий план у США та Великобританії, оскільки реклама приносить більше прибутку
Тест швидкості Netflix: як перевірити, чи можна транслювати 4K Ultra HD

Метод до безумства

BellKor’s Pragmatic Chaos — це комбінація трьох команд (BellKor, PragmaticTheory та Big Chaos), які об’єднали зусилля, щоб завершити свою заявку на змагання. Члени: Боб Белл і Кріс Волінскі, співробітники відділу статистичних досліджень AT&T Research; Андреас Тошер і Міхаель Джарер, дослідники машинного навчання та засновники

commendo дослідження та консалтинг в Австрії; інженер-електрик Мартін Піотт і інженер-програміст Мартін Чабберт з Монреаля, засновники Прагматична теорія; та Єгуда Корен, старший науковий співробітник Yahoo! Дослідження Ізраїлю. Вони вперше зустрілися в понеділок, вересня. 21, коли Netflix оголосив переможців.

BellKor’s Pragmatic Chaos стала першою командою, яка перевищила 10 відсотків у червні, що спричинило 30-денний період, протягом якого інші учасники могли спробувати побити їхній результат. Команда-конкурент, The Ensemble, подала своє рішення наприкінці липня за кілька хвилин до крайнього терміну. Переможна робота BellKor покращила існуючу систему Netflix на 10,06 відсотка.

Спроба зменшити на 10 відсотків середньоквадратичну помилку (RMSE) тестових даних порівняно з Cinematch, технологія, яку зараз використовує Netflix, щоб рекомендувати фільми членам, створена на основі співпраці фільтрація. Методологія розглядає минулу поведінку користувачів, які мають однакові моделі оцінювання, щоб сформулювати прогноз для інших користувачів. Використовуючи набір даних про один мільйон фільмів, BellKor’s Pragmatic Chaos розробив алгоритми та використав «різноманітність моделей, які доповнюють недоліки одна одної», — йдеться в одній із публікацій, опублікованих командою БеллКор.

Вони включали моделі найближчих сусідів (які ідентифікують пари елементів, які, як правило, оцінюються користувачем так само, як передбачити оцінки для елемента без оцінки) і латентні фактори (які досліджують приховані особливості, що пояснюють спостережене рейтинги). Команда також зазирнула за рейтинги, щоб виявити додаткові дані, наприклад, які фільми людина оцінила.

Команда змогла визначити, що:

глядачі використовують різні критерії, щоб оцінити фільми, які вони дивилися давно, порівняно з тими, які вони дивилися нещодавно; і
деякі фільми з часом привертають увагу глядачів, і глядачі оцінюють фільми по-різному в різні дні тижня.

Використовуючи цю інформацію, команда створила тривимірну модель, яка зосереджена на тому, як час впливає на стосунки між людьми та фільмами.

Виграшна комбінація

Хоча методологія, яка лежить в основі рішення, важлива, можливо, більш цікавим було вказівка конкурсу на те, що краудсорсинг може дати кращі результати, ніж власний пошук.

Кріс Волінскі з команди BellKor каже, що Netflix зробив розумний крок, «зрозумівши, що там є дослідницьке співтовариство, яке працювало над такими моделями та відчувало потребу в даних.

«У Netflix були дані, але лише кілька людей працюють над цією проблемою», — каже він. «Приз об’єднав цих двох у спосіб, який був чутливим до їхніх конфіденційних даних… Ця модель не працює для кожного домену — це спрацювало тут, тому що дані були цікавими та переконливими тема. Кожен може мати стосунок до фільмів. Подібний конкурс, скажімо, на автоматичний мовний переклад може не викликати стільки пристрастей».

Андреас Тешер, колишній член команди Big Chaos, погодився, що попереду ще більше змагань, подібних до Netflix. Він говорив про віддалений характер особливого досвіду краудсорсингу своєї команди — до понеділка він навіть не спілкувався зі своїми товаришами по команді, не кажучи вже про те, щоб поглянути на них. «Було чудово зустрітися з рештою команди після того, як ми працювали разом понад півроку. Ми ніколи не телефонували. Тиждень тому ми не бачили фотографій від Мартіна та Мартіна».

Мартін Чабберт, який спочатку був частиною команди PragmaticTheory, каже, що хоча було важко зосередитися на конкурсі, поки поєднуючи роботу та сімейні обов’язки, було важче уникнути входу в комп’ютер, щоб випробувати нову ідею для демонструвати. Хоча його інженерна освіта допомогла зусиллям команди, не зациклюватися на теоретичних аспектах роботи також допомогло.

«Я вважаю, що однією з важливих якостей для досягнення успіху в цій галузі є здатність перетворювати інтуїцію про людську поведінку в реальну математичну та алгоритмічну модель», — говорить Чабберт. «Багато людей мають ідеї щодо того, що слід зафіксувати, але головне — знайти правильний спосіб це зафіксувати. Я вважаю, що ми добре попрацювали. Крім того, не з академічної освіти, ми були дуже зосереджені на поставленому завданні, а не на намагаючись знайти те, що мало теоретичне обґрунтування або те, що обов’язково просунуло б генерала наука."

Батько чотирьох дітей каже, що кожен із членів його команди, безумовно, привніс щось, що сприяло переможному рахунку. Алгоритми та документи Єгуди Корена, члена команди BellKor, мали першорядне значення, а керування BigChaos усіма моделями та наборами прогнозів, які надходять від кожної підгрупи, виявилося ключовим. Шабберт і Мартін Піотт віддають перевагу своєму «прагматичному» підходу за створення широкого спектру оригінальних моделей і комбінацій.

Волінський каже, що організація AT&T IP володіє інтелектуальною власністю на винаходи від конкурентів, але розглядає можливість пошуку можливостей для їх зовнішнього ліцензування. Усі троє товаришів по команді кажуть, що розглядатимуть можливість вступу Другий конкурс Netflix, яка буде зосереджена на створенні профілів смаків для окремих користувачів на основі демографічних даних і даних про використання.

Лорен Фріцкі – письменниця-фрілансер і професійний блогер, що живе за межами Філадельфії. Її роботи з’являлися в кількох газетах і журналах, а також на таких сайтах, як AOL і CNN.

Ключ краудсорсингу до переможців конкурсу Netflix

Рекомендації редакції

Категорії

Останні

Розумні динаміки забезпечують штучний інтелект до майже кожного третього будинку в США

WhatsApp запускає Status, наскрізний зашифрований клон Snapchat Stories

Найкращі канали Twitter SXSW, щоб стежити за божевіллям в Остіні, коли воно розгортається