Inside Knowledge Graph: глубокий семантический поиск Google

Google начинает внедрять новую технологию Knowledge Graph для англоговорящих пользователей в США. Хотя новый сервис появится как дополнение к обычным результатам веб-поиска Google, скорее чем отдельный сервис — он представляет собой принципиально иной подход к поиск. Вместо возврата ранжированных результатов поиска на основе буквальных поисковых запросов (или некоторых поисковых запросов, или возможно исправленные версии некоторых поисковых запросов), схема знаний по существу пытается связать поиск запросы с вещи он знает о: местах, людях, книгах, фильмах, событиях — что угодно. График знаний – это попытка достичь семантический поиск, пытаясь вернуть результаты, основанные на значении того, что ищут пользователи, а не просто на буквальных совпадениях.

Может ли «График знаний» изменить способ поиска? И что это может означать для основного бизнеса Google — и сайтов, которые полагаются на Google в привлечении трафика на свои сайты?

Рекомендуемые видео

График знаний под капотом

Хотя Knowledge Graph — это принципиально новый вид поискового предложения от Google, он следует проторенным путям, которым Google уже много лет следует со своей основной поисковой службой. И Google старается представить его таким образом, чтобы он не наносил ущерба доминирующему на рынке поиску.

Связанный

Конкурент Google ChatGPT только что запустился в поиске. Вот как это попробовать
Упс — демо-версия Google Bard AI опровергнута первым результатом поиска
Google только что показал, что вы нашли самым интересным в 2022 году

В течение многих лет Google мог отвечать на ряд простых фактических запросов прямо из поиска. панель и даже выполнить некоторые математические действия — удобно для людей, у которых скорее всего работает веб-браузер, чем калькулятор. Попробуйте: Google должен предоставлять прямые ответы на такие вопросы, как «столица Суринама" или "квадратный корень 3952.”

С помощью Knowledge Graph Google также будет помещать поисковые запросы в сложные базы данных взаимосвязанной информации о… ну, вещи, за неимением лучших условий. В некотором смысле эти базы данных работают так же, как традиционный поиск: они возвращают записи с важными фрагментами информации о конкретном предмете. Для человека это может быть что-то вроде даты его рождения (и, возможно, даты смерти), его национальности, титулов или должностей, которые он мог занимать, полного юридического имени и т. д.

Для здания эти наборы данных могут включать в себя такие данные, как его местоположение, время постройки, общий размер, тип (скажем, памятник, торговое помещение, коммерческое помещение, жилой дом, хм… космическая станция?). Однако, помимо нескольких фактов и некоторых ключевых слов, эти записи базы данных также содержат прямые ссылки на связанный объекты в базе данных (которые, в свою очередь, связаны с другими связанными объектами и т. д.). По всей вероятности, природа этих связей также определена. Например, запись о человеке может содержать ссылки на его родителей, супруга(ов) и детей, а также другие важные отношения и уметь различать членов семьи и другие типы отношений. База данных не будет выполнять свою работу, если набор данных о Джордже Х. В. Буш (41-й президент США) не ссылался на набор данных о Джордже Буше. Буш (43-й президент) — и оба будут связаны с Кондолизой Райс, но по-разному. Набор данных о Великой пирамиде должен включать ссылки на Хеопса, Хуфу и Сфинкса, а также на Мавзолей в Галикарнасе. (Можете ли вы догадаться почему?)

Эти наборы данных составляют основу семантического поиска — и стоят они недешево. Прежде всего, они огромны: сумма человеческих знаний может быть лишь крошечным пятнышком на фоне всего информации во вселенной, но простое парсинг сервиса может легко привести к сотням миллионов (или миллиардов) наборов данных. (Для сравнения, в английской версии Википедии содержится всего около 4 миллионов статей.) Эти наборы данных получить непросто: их приходится тщательно собирать из надежных источников. Более того, они должны быть организованы и спроектированы таким образом, чтобы к информации можно было получить доступ и манипулировать ею полезными способами (и в режиме реального времени, для целей Google). И наборы данных должны быть в состоянии справиться с податливой природой «знаний». В конце концов, всего несколько лет назад Плутон был планетой, а Виокс был одобрен FDA для лечения остеоартрита.

Google, судя по всему, строит свои базы данных, используя технологии и методы, приобретенные у Metaweb еще в 2010 году. Бесплатная база семантическая база данных остается доступной каждому. Google использует Freebase для данных, а также информацию, взятую из Википедии и других источников. Всемирная книга фактов ЦРУ. Google претензии в его базе данных Knowledge Graph уже есть записи примерно для 500 миллионов объектов (обратите внимание, что объекты нельзя напрямую сравнивать с статьи в Википедии) и около 3,5 миллиардов «фактов». Мы взяли «факт» в кавычки, потому что когда-то «фактом» было то, что Земля была плоской, а люди не мог летать. Знания скользкие.

График знаний на экране

Первоначальная реализация Google Knowledge Graph предназначена для дополнения существующих списков результатов поиска компании, а не для их замены. Подобно тому, как Google иногда показывает предварительный просмотр страниц на панели справа от результатов поиска в стандартном окне веб-браузера, результаты Knowledge Graph будут отображаться на панелях рядом с результатами поиска. Не все поисковые запросы будут создавать панели «График знаний»: запросы должны соответствовать четко определенным объектам в «График знаний». (Не волнуйтесь, если вы еще не видите результаты Графика знаний; Google все еще внедряет эту функцию, и сейчас она доступна только англоговорящим пользователям в США.)

Панели «График знаний» предназначены для отображения сводной информации о ключевой и наиболее востребованной информации о запросе. не требуя от пользователей читать двухстрочное описание веб-страницы или переходить на другую сайт. Для человека эти ключевые факты могут включать даты рождения и смерти, значимых людей, связанных с ним, а также краткое описание титулов, достижений или того, что еще делает этого человека значимым. Что касается других организаций, Google попытается раскрыть ключевую информацию, статистику и ассоциации. Панель «График знаний» также поможет устранить неоднозначность. Если поисковому запросу соответствует более одного объекта Knowledge Graph, Google предоставляет доступ ко всем им.

Возможно, что еще более важно, когда пользователи взаимодействуют с объектом Графа знаний, они могут, в некоторых пределах, просматривать ссылки отношений с этими объектами. Например, при открытии записи в «Графике знаний» на сайте Dashiell Hammett пользователи должны сразу же перейти к сводке «График знаний» по теме «Дэшил Хэмметт». Тонкий человек и Мальтийский сокол - и, возможно, к резюме о Лилиан Хелман и антикоммунистической охоте на ведьм после Второй мировой войны.

Knowledge Graph не будет ограничиваться поиском в браузере: Google в настоящее время внедряет результаты поиска Knowledge Graph. на большинство устройств под управлением Android 2.2 или более поздней версии (опять же, только для США на английском языке) в поле быстрого поиска и на основе браузера. искатели. Результаты поиска Knowledge Graph также будут представлены в будущих версиях поискового приложения Google для устройств iOS. Пользователи могут перемещаться по информации в Knowledge Graph, нажимая или пролистывая контент вперед и назад.

Важно отметить, что это лишь первые места, где Knowledge Graph появляется в сервисах Google. За кулисами вы можете ожидать, что результаты поиска в Knowledge Graph начнут информировать широкий спектр сервисов Google, особенно по мере роста его набора наборов данных и «фактов». Поиск в Графе знаний, скорее всего, никогда не будет заменять Традиционный поиск Google по ключевым словам — семантический поиск и буквальный поиск — это своего рода два разных инструмента, которые хорошо справляются с двумя отдельными задачами. но теоретически было бы неудивительно, если бы Knowledge Graph в один прекрасный день способствовал четверти взаимодействий Google с поиском. пользователи.

Краудсорсинг… или классы в стиле Google?

Итак, как же Knowledge Graph выбирает информацию для своих сводок? До сих пор Google не очень подробно рассказывал о методологии презентации Knowledge Graph. В моей (ограниченной) выборке значительная часть данных, которые Google отдает приоритет для своих сводок, кажется довольно последовательной: даты, связи, и одно поле «Значительные достижения» для людей (которое можно назвать чем-то вроде «Открытия», «Профессия» или "Заголовок"). Места получают местоположения и даты, а также ряд других полей, которые могут быть именно тем, что кто-то хочет, или совершенно неуместными. Например, если вы смотрите на Эмпайр-стейт-билдинг, указание адреса кажется уместным… но это не совсем подходит, скажем, для Стоунхенджа. Подобные странности могут произойти и с телефонными номерами: скольким людям нужен мгновенный доступ к номеру телефона Тадж-Махала?

Google заявляет, что отдает приоритет информации, представленной в сводках Knowledge Graph, используя «человеческую мудрость». И при этом Google не на самом деле означают то, что им говорят люди или что собирают профильные эксперты или кураторы баз данных — это означает косвенные предположения. о намерениях пользователей, регистрируя поведение при поиске и отслеживая, что они нажимают, не нажимают и что ищут после выполнения поиск. Короче говоря, Google использует краудсорсинг, чтобы попытаться определить, какие «факты» лучше всего представить в сводке Knowledge Graph.

Например, Google утверждает, что сводная информация «График знаний», которую он представляет для Тома Круза, отвечает на 37 процентов последующих запросов пользователей Google об актере, когда они ищут его. Эта цифра в 37 процентов звучит обнадеживающе научно и точно, но нет абсолютно никакой возможности оценить ее. имеет ли оценка Google совокупного поведения поисковых пользователей какое-либо отношение к тому, что конкретный пользователь — нравиться ты - хочет знать. Поскольку Google, кажется, так гордится этой цифрой в 37 процентов, давайте перевернем ее с ног на голову: Google говорит, что 63 процента. в процентах случаев он не может предоставить никакой информации по теме, которую находят его пользователи поиска. соответствующий.

Позицию Google легко понять: всякий раз, когда это возможно, компания хочет немедленно предоставить информацию, которую ищут ее пользователи. Единственный способ, которым Google может действительно это оценить, — это посмотреть, как люди используют его поисковую систему, и попытаться сделать некоторые догадки.

Краудсорсинг имеет свои опасности. Точно так же, как Google ступает в мутные воды, когда решает расставить приоритеты в результатах поиска Google+ в Search Plus Your World опасно полагаться на краудсорсинг для определения приоритета представления информации и «фактов». Только тот факт, что поисковая аудитория Google может не знать (или особенно не интересоваться) определенной информацией, не означает, что она не важна или соответствующий. Существует множество случаев, когда восприятие фактов «толпой» неверно. Большинство людей думают, что шизофрения означает раздвоение личности, употребление молока или поедание мороженого. увеличивает выработку слизи, и Мария-Антуанетта сказала: «Пусть едят торт». Однако ни одна из этих вещей не является истинный.

Использование краудсорсинга для оценки важности информации также создает потенциал для злоупотреблений. Скажем, правительство хотело распространить дезинформацию о диссидентах, политическая кампания хотела очернить оппонента, или хакеры хотели поиграть с результатами поиска просто ради смеха? Примерно таким же образом результаты поиска Google были «Гуглбомбирован», краудсорсинг можно использовать для манипулирования Графом Знаний. Разумные люди не поверят всему, что читают; Точно так же «факты», представленные семантическими поисковыми системами, не будут надежными, а в некоторых случаях краудсорсинг сделает их еще менее надежными.

Делаем Google более липким

С практической стороны, Google Knowledge Graph будет иметь один немедленный эффект: он сделает результаты поиска Google более запоминающимися. Всякий раз, когда Knowledge Graph может предоставить прямой ответ на вопрос пользователя, выполняющего поиск, или позволить им быстро перейти к нему по связанным темам, пользователи будут оставаться в сервисах Google. Это означает, что Google собирает больше данных о поисковых запросах и поведении пользователей (независимо от того, вошли они в учетную запись Google или нет). Это, в свою очередь, позволяет Google совершенствовать свою платформу целевой рекламы.

Это также означает, что такие сервисы, как Википедия, которые часто отвечают на одни и те же виды конкретных знаний, запросы, нацеленные на Knowledge Graph, увидят снижение объема веб-трафика, который они получают от Google. В случае с Википедией это напрямую соответствует уменьшению возможностей заручиться поддержкой сообщества; для других услуг это напрямую приведет к меньшему количеству показов рекламы и (следовательно) к снижению доходов. Для людей, которые предлагают сайты и услуги, основанные на предоставлении отдельных фактов и информации — и это включает в себя все, от Википедии до IMDb и интернет-магазинов. телефонные книги и бизнес-справочники, (возможно) краудсорсинговые сервисы, такие как Yelp, и даже публичные записи… Граф знаний может медленно разрушать их предприятия.

Inside Knowledge Graph: глубокий семантический поиск Google

График знаний под капотом

График знаний на экране

Краудсорсинг… или классы в стиле Google?

Делаем Google более липким

Рекомендации редакции

Категории

Недавний

Сеть Verizon 5G запущена: вот каково это использовать

Что такое миллиметровая волна? Объяснение высокочастотного диапазона 5G

Внедрение 5G в США обернулось катастрофой. Вот почему