Inside Knowledge Graph: глибокий семантичний пошук Google

Google починає розгортати свою нову технологію Knowledge Graph для своїх англомовних користувачів у Сполучених Штатах. Хоча нова служба з’являтиметься як доповнення до звичайних результатів веб-пошуку Google ніж окрема послуга сама по собі — це принципово інший спосіб підходу пошук. Замість того, щоб повертати ранжовані результати пошуку на основі буквальних пошукових термінів (або деяких пошукових термінів, або можливо виправлені версії деяких пошукових термінів), Knowledge Graph по суті намагається пов’язати пошук запити з речі він знає про: місця, людей, книги, фільми, події — що завгодно. Граф знань – це спроба досягти семантичний пошук, намагаючись повернути результати на основі значення того, що шукають користувачі, замість лише буквальних збігів.

Чи може Мережа знань змінити спосіб пошуку? І що це може означати для основного бізнесу Google — і сайтів, які покладаються на Google для залучення трафіку на свої сайти?

Рекомендовані відео

Граф знань під капотом

Незважаючи на те, що Knowledge Graph є принципово новим видом пошукової пропозиції від Google, він слідує добре протореним шляхом, яким Google йшов роками зі своїм основним пошуковим сервісом. І Google докладає обережності, щоб представити його таким чином, щоб він не сильно зашкодив пошуковій системі, яка домінує на ринку.

Пов'язані

Конкурент Google ChatGPT щойно запустив пошук. Ось як це спробувати
На жаль, демо Google Bard AI спростовано першим результатом пошуку
Google щойно показав, що вас найбільше вразило у 2022 році

Протягом багатьох років Google міг відповідати на прості фактичні запити безпосередньо з пошуку панель і навіть трохи порахувати — це зручно для людей, у яких більше ймовірно, що веб-браузер працює, ніж a калькулятор. Спробуйте: Google має надавати прямі відповіді на такі питання, як "столиця Суринаму» або «квадратний корінь 3952.”

За допомогою Knowledge Graph Google також буде вводити пошукові запити в складні бази даних із взаємопов’язаною інформацією про… ну, речі, через відсутність кращих умов. У певному сенсі ці бази даних функціонують подібно до традиційного пошуку: вони повертають записи з важливою інформацією про певну річ. Для людини це може бути щось на кшталт дати народження (і, можливо, дати смерті), національності, титулів чи посад, які вони могли обіймати, повного офіційного імені тощо.

Для будівлі ці набори даних можуть включати такі речі, як її місце розташування, час її будівництва, її загальний розмір, її тип (скажімо, пам’ятник, торгова площа, комерційне приміщення, місце проживання, гм… космічна станція?). Однак, на додаток до кількох голих фактів і деяких ключових слів, ці записи бази даних також збирають прямі посилання на пов'язані об’єкти в базі даних (які, у свою чергу, пов’язані з іншими пов’язаними об’єктами тощо). Цілком імовірно, природа цих зв'язків теж визначена. Наприклад, запис про особу може містити посилання на батьків, подружжя (чоловіків) і дітей цієї особи, а також інші важливі стосунки та вміти розрізняти членів сім’ї та інші типи стосунків. База даних не виконувала б свою роботу, якби набір даних про Джорджа Х. В. Буш (41-й президент Сполучених Штатів) не посилався на набір даних про Джорджа Буша. Буш (43-й президент) — і обидва будуть пов’язані з Кондолізою Райс, але по-різному. Набір даних про Велику піраміду повинен містити посилання на Хеопса і Хуфу, Сфінкса, а також на Мавзолей у Галікарнасі. (Ви можете здогадатися чому?)

Ці набори даних складають серце семантичного пошуку — і коштують вони недешево. По-перше, вони величезні: сукупність людських знань може бути лише крихітною порошинкою на тлі всього інформації у всесвіті, але просто зчитування служби може легко створити сотні мільйонів (або мільярди) наборів даних. (Для порівняння, англійська версія Вікіпедії містить мізерні 4 мільйони статей або близько того.) Ці набори даних нелегко отримати: їх потрібно копітко скомпілювати з надійних джерел. Крім того, вони мають бути організовані та розроблені таким чином, щоб можна було отримати доступ до інформації та маніпулювати нею корисними способами (і в режимі реального часу, для цілей Google). І набори даних мають бути в змозі впоратися зі шкідливою природою «знань». Зрештою, лише кілька років тому Плутон був планетою, а Vioxx був схваленим FDA засобом для лікування остеоартриту.

Очевидно, що Google створює свої бази даних, використовуючи технології та методи, отримані з Metaweb ще в 2010 році, хоча Metaweb Freebase семантична база даних залишається доступною для всіх. Google використовує Freebase для даних, а також інформацію, зібрану з Вікіпедії та Всесвітня книга фактів ЦРУ. Google претензії його база даних Knowledge Graph уже містить записи для приблизно 500 мільйонів об’єктів (зауважте, що ці об’єкти не можна безпосередньо порівнювати з статті Вікіпедії) і приблизно 3,5 мільярда «фактів». Ми взяли «факт» у лапки, тому що колись було «фактом», що Земля була плоскою і люди не міг літати. Знання слизькі.

Граф знань на екрані

Початкова реалізація Google Knowledge Graph розроблена для того, щоб розширити наявні результати пошуку компанії, а не замінити їх. Подібно до того, як Google іноді показує попередній перегляд сторінок на панелі праворуч від результатів пошуку у стандартному вікні веб-браузера, результати Мережі знань відображатимуться на панелях поруч із результатами пошуку. Не всі пошукові терміни створюватимуть панелі Мережі знань: запити мають відповідати чітко визначеним об’єктам у Мережі знань. (Не хвилюйтеся, якщо ви ще не бачите результатів Мережі знань; Google все ще розгортає цю функцію, і зараз вона доступна лише англомовним користувачам у Сполучених Штатах.)

Панелі Knowledge Graph прагнуть відобразити підсумок ключової та найбільш затребуваної інформації про запит не вимагаючи від користувачів читати дворядковий підсумок веб-сторінки або переходити на іншу сторінку сайт. Для людини ці ключові факти можуть включати дати народження та смерті, важливих людей, пов’язаних з нею, а також короткий опис титулів, досягнень або того, що робить цю особу важливою. Для інших суб’єктів Google намагатиметься відкрити ключову інформацію, статистику та зв’язки. Панель Knowledge Graph також оброблятиме усунення неоднозначностей. Якщо пошуковому запиту відповідає кілька об’єктів Мережі знань, Google надає доступ до всіх.

Можливо, більш важливо те, що коли користувачі взаємодіють із сутністю Мережі знань, вони можуть, у певних межах, переглядати посилання зв’язків із цими сутностями. Наприклад, відображення запису в Мережі знань про Дашила Хаммета має дозволити користувачам негайно перейти до підсумку Мережі знань про Тонка людина і Мальтійський сокіл — і, можливо, до коротких викладів про Ліліан Гельман і антикомуністичне полювання на відьом після Другої світової війни.

Мережа знань не обмежуватиметься пошуком у веб-переглядачі: Google зараз розгортає результати пошуку в Мережі знань на більшість пристроїв під керуванням Android 2.2 або новішої версії (знову ж таки, лише для США англійською мовою) у вікні швидкого пошуку та на основі веб-переглядача шукачі. Результати пошуку Knowledge Graph також будуть представлені в майбутніх версіях пошукової програми Google для пристроїв iOS. Користувачі можуть переміщатися між інформацією в Мережі знань, торкаючись вмісту або гортаючи його вперед і назад.

Важливо зазначити, що це лише перші місця, які Knowledge Graph з’являється в службах Google. За лаштунками можна очікувати, що результати пошуку Knowledge Graph почнуть інформувати широкий спектр служб Google, особливо в міру того, як зростатиме його набори даних і «факти». Швидше за все, пошуки в Мережі знань не відбуватимуться замінити Традиційний пошук Google за ключовими словами — семантичний і буквальний пошук — це два різні інструменти, які підходять для двох окремих завдань — але, теоретично, не було б дивно, якби одного разу Knowledge Graph сприяв аж чверті взаємодій Google із пошуком користувачів.

Краудсорсинг… чи заняття в кольорі Google?

Отже, як Knowledge Graph збирає інформацію для своїх зведень? Поки що Google не дуже чітко висловився щодо методології презентації Knowledge Graph. У моїй (обмеженій) вибірці значна частина даних, які Google віддає пріоритет для своїх зведень, здається досить послідовною: дати, зв’язки, і єдине поле «важливих досягнень» для людей (яке можна позначити як-от «Відкриття» або «Професія» або «Назва»). Місця отримують місцезнаходження та дати, а також ряд інших полів, які можуть бути саме такими, які хтось хоче, або зовсім невідповідними. Наприклад, якщо ви дивитесь на Емпайр-Стейт-Білдінг, адреса вулиці здається доречною… але це не зовсім так, скажімо, для Стоунхенджа. Подібні дивацтва можуть статися з телефонними номерами: скільком людям потрібен миттєвий доступ до номера телефону для Тадж-Махалу?

Google стверджує, що надає пріоритет інформації, представленій у підсумках Knowledge Graph, використовуючи «людську мудрість». А Google цього не робить насправді означають те, що їм говорять люди або які збирають експерти чи куратори баз даних — це означає робити непрямі припущення про наміри користувачів, реєструючи пошукову поведінку та відстежуючи, що вони натискають, не натискають і шукають після виконання пошук. У двох словах, Google використовує краудсорсинг, щоб спробувати визначити, які «факти» найкраще представити в підсумку Knowledge Graph.

Наприклад, Google стверджує, що підсумкова інформація в Мережі знань, яку він представляє про Тома Круза, відповідає на 37 відсотків подальших запитів користувачів пошуку Google про актора, коли вони шукають його. Ця цифра 37 відсотків звучить переконливо науково й точно, але немає абсолютно ніякого способу оцінити чи пов’язана оцінка Google сукупної поведінки користувачів пошуку з тим, що конкретно користувач — люблю ви — хоче знати. Оскільки Google, здається, так пишається цифрою 37 відсотків, давайте перевернемо це з ніг на голову: Google каже, що 63 у відсотках часу він не може надати жодної інформації про тему, яку знаходять користувачі його пошуку актуальні.

Позицію Google легко зрозуміти: коли це можливо, вона хоче негайно представити інформацію, яку шукають її користувачі. Єдиний спосіб, яким Google може справді це оцінити, — подивитися, як люди використовують її пошукову систему, і спробувати зробити деякі припущення.

Краудсорсинг має свої небезпеки. Так само, як Google ступає в каламутній воді, коли захоче визначити пріоритетність результатів пошуку з Google+ У Search Plus Your World існує небезпека покладатися на краудсорсинг для визначення пріоритетності подання інформації та «фактів». Просто оскільки пошукова аудиторія Google може не знати (або не особливо турбуватися) про певну інформацію, це не означає, що вона неважлива або актуальні. Є багато випадків, коли «натовп» сприймає факти неправильно. Більшість людей думають, що шизофренія означає мати кілька особистостей, пити молоко або їсти морозиво збільшує вироблення слизу, а Марія Антуанетта сказала: «Нехай їдять торт». Але жодна з цих речей не є правда.

Покладання на краудсорсинг для оцінки важливості інформації також створює потенціал для зловживань. Скажімо, уряд хотів поширити дезінформацію про дисидентів, політична кампанія хотіла очорнити опонента, чи хакери хотіли погратися з результатами пошуку просто заради сміху? Приблизно так само результати пошуку Google були "Google бомбардували”, краудсорсинг може бути використаний для маніпулювання Knowledge Graph. Розумні люди не повірять усьому, що прочитають; так само «факти», представлені семантичними пошуковими системами, не будуть надійними — а в деяких випадках краудсорсинг зробить їх ще меншими.

Робимо Google більш липким

З практичної сторони, Мережа знань Google матиме один миттєвий ефект: вона зробить результати пошуку Google більш липкими. Щоразу, коли Knowledge Graph може надати пряму відповідь на запитання користувача пошуку — або дозволити їм швидко перейти до нього за допомогою пов’язаних тем — користувачі залишатимуться в службах Google. Це означає, що Google збирає більше даних про пошуки та поведінку користувачів (незалежно від того, чи ввійшли вони в обліковий запис Google чи ні). Це, у свою чергу, дозволяє Google ще більше вдосконалювати свою цільову рекламну платформу.

Це також означає, що такі служби, як Вікіпедія, часто відповідають на ті самі питання, пов’язані зі знаннями запити, націлені Мережею знань, спостерігатимуть зниження обсягу веб-трафіку, з якого вони отримують Google. У випадку Вікіпедії це прямо відповідає меншій кількості можливостей отримати підтримку спільноти; для інших послуг, що призведе безпосередньо до меншої кількості показів оголошень і (отже) до нижчих доходів. Для людей, які пропонують сайти та послуги, засновані на наданні окремих фактів та інформації — і це включає все, від Wikipedia до IMDb і онлайн-магазинів до телефонних книг і бізнес-довідників до (імовірно) краудсорсингових служб, таких як Yelp, і навіть публічних записів… Knowledge Graph може повільно підірвати їх підприємства.

Inside Knowledge Graph: глибокий семантичний пошук Google

Граф знань під капотом

Граф знань на екрані

Краудсорсинг… чи заняття в кольорі Google?

Робимо Google більш липким

Рекомендації редакції

Категорії

Останні

Пташиний Твіттер — найспокійніше місце в Інтернеті

Чи варто купувати Xbox One у Чорну п’ятницю 2021?

Чи варто купувати ноутбук Dell XPS 15 у Чорну п’ятницю 2021?