Inside Knowledge Graph: задълбочено семантично търсене на Google

Google Граф на знанието

Google започва да пуска своята нова технология Knowledge Graph на своите англоговорящи потребители в Съединените щати. Въпреки че новата услуга ще се появи като допълнение към нормалните резултати от търсенето в мрежата на Google - по-скоро отколкото отделна услуга сама по себе си — тя представлява фундаментално различен начин за подход Търсене. Вместо да връщат класирани резултати от търсене въз основа на буквални думи за търсене (или някои думи за търсене, или евентуално коригирани версии на някои от думите за търсене), Графът на знанието по същество се опитва да свърже търсенето запитвания с неща той знае за: места, хора, книги, филми, събития - каквото и да е. Knowledge Graph е опит за постигане семантично търсене, опитвайки се да върне резултати въз основа на значението на това, което потребителите търсят, вместо само буквални съвпадения.

Може ли Графът на знанието да промени начина, по който търсим? И какво може да означава това за основния бизнес на Google – и сайтовете, които разчитат на Google, за да доведат трафик към своите сайтове?

Препоръчани видеоклипове

Графика на знанието под капака

Google Knowledge Graph (Кюри)

Въпреки че Knowledge Graph е фундаментално нов вид предложение за търсене от Google, той следва добре утъпкани пътеки, които Google преследва от години с основната си услуга за търсене. И Google внимава да го въведе по начин, който не е ужасно разрушителен за неговото доминиращо на пазара търсене.

Свързани

  • Съперникът на Google ChatGPT току-що стартира в търсенето. Ето как да го опитате
  • Ами сега — демонстрацията на Google Bard AI е опровергана от първия резултат от търсенето
  • Google току-що разкри какво сте намерили за най-очарователно през 2022 г

Години наред Google успява да отговори на селекция от прости фактически запитвания директно от търсенето лента и дори да направите малко математика - удобно за хора, които е по-вероятно да имат работещ уеб браузър, отколкото a калкулатор. Опитайте: Google трябва да предоставя директни отговори на неща като „столица на Суринам" или "корен квадратен 3952.”

С Knowledge Graph Google също така ще пуска заявки за търсене в сложни бази данни от взаимосвързана информация за... добре, неща, поради липса на по-добри условия. В някои отношения тези бази данни функционират много като традиционно търсене: те връщат записи с важни битове информация за определено нещо. За дадено лице това може да е нещо като рождена дата (и може би дата на смърт), националност, титли или длъжности, които може да е заемал, пълно юридическо име и др.

За една сграда тези набори от данни могат да включват неща като нейното местоположение, кога е построена, общият й размер, нейният тип (да речем, паметник, търговско пространство, търговско пространство, жилище, хм...космическа станция?). Въпреки това, в допълнение към това, което представлява няколко голи факта и някои ключови думи, тези записи в базата данни също събират заедно директни връзки към свързани обекти в базата данни (които от своя страна се свързват с други свързани обекти и т.н.). По всяка вероятност естеството на тези връзки също е определено. Например, запис около човек може да съдържа връзки към родителите, съпруга(ите) и децата на това лице, и други значими връзки и да може да прави разлика между членове на семейството и други видове връзки. Базата данни няма да върши работата си, ако набор от данни за Джордж Х. У. Буш (41-вият президент на Съединените щати) не се свърза с набор от данни за Джордж У. Буш (43-ият президент) – и двамата биха се свързали с Кондолиза Райс, но по различни начини. Наборът от данни за Голямата пирамида трябва да включва връзки към Хеопс и Хуфу и Сфинкса, но също и към Мавзолея в Халикарнас. (Можете ли да познаете защо?)

Тези набори от данни съставляват сърцето на семантичното търсене - и не са евтини. На първо място, те са огромни: сумата от човешкото знание може да е само малка прашинка в лицето на всички информация във вселената, но самото изчерпване на услугата може лесно да произведе стотици милиони (или милиарди) от набори от данни. (За сравнение, английската версия на Wikipedia има оскъдни около 4 милиона статии.) Тези набори от данни не са лесни за получаване: те трябва да бъдат старателно компилирани от надеждни източници. Освен това те трябва да бъдат организирани и проектирани по такъв начин, че информацията да бъде достъпна и манипулирана по полезни начини (и в реално време, за целите на Google). И наборите от данни трябва да са в състояние да се справят с неблагоприятната природа на „знанието“. В крайна сметка само преди няколко години Плутон беше планета, а Vioxx беше одобрено от FDA лечение на остеоартрит.

Google очевидно изгражда своите бази данни, използвайки технологии и методи, придобити с Metaweb през 2010 г. - въпреки че Metaweb's Freebase семантичната база данни остава достъпна за всеки. Google използва Freebase за данни, заедно с информация, извлечена от Wikipedia и Световна книга с факти на ЦРУ. Google искове неговата база данни Knowledge Graph вече има записи за около 500 милиона обекта (моля, имайте предвид, че обектите не могат да бъдат директно сравнени с статии в Wikipedia) и около 3,5 милиарда „факти“. Поставяме „факт“ в кавички, защото някога е било „факт“, че Земята е плоска и хората не можеше да лети. Знанието е хлъзгаво.

Графика на знанието на екрана

Първоначалното внедряване на Knowledge Graph от Google е предназначено да разшири съществуващите списъци с резултати от търсенето на компанията, вместо да ги замени. Точно както Google понякога показва визуализации на страници в панел от дясната страна на резултатите от търсенето в стандартен прозорец на уеб браузър, резултатите от Графа на знанието ще се показват в панели до резултатите от търсенето. Не всички думи за търсене ще създадат панели на Графа на знанието: Заявките ще трябва да съответстват на добре дефинирани обекти в Графа на знанието. (Не се притеснявайте, ако все още не виждате резултати от Графа на знанието; Google все още пуска функцията и в момента тя е ограничена до англоговорящи потребители в Съединените щати.)

Панелите на Графа на знанието се стремят да покажат обобщение на ключовата и най-търсената информация за заявка без да се изисква от потребителите да четат двуредови резюмета на уеб страница или да щракнат до друга сайт. За даден човек тези ключови факти могат да включват дати на раждане и смърт, значими хора, свързани с него, и бързи акценти на титли, постижения или какво друго прави този човек значим. За други субекти Google ще се опита да разкрие ключова информация, статистика и асоциации. Панелът на Графа на знанието също ще обработва недвусмисленост. Ако повече от един обект на Графа на знанието съответства на заявка за търсене, Google предоставя достъп до всички тях.

Може би по-важното е, че след като потребителите взаимодействат с обект на Графа на знанието, те могат, в рамките на някои ограничения, да сърфират във връзките на връзките към тези обекти. Например изтеглянето на запис в Графа на знанието за Dashiell Hammett би трябвало да позволи на потребителите незабавно да преминат към резюме на Графа на знанието на Тънкият човек и Малтийският сокол — и може би към резюмета за Лилиан Хелман и антикомунистическия лов на вещици след Втората световна война.

Графът на знанието няма да бъде ограничен до търсения, базирани на браузър: Google в момента пуска резултатите от търсенето на Графа на знанието към повечето устройства, работещи с Android 2.2 или по-нова версия (отново, само за САЩ на английски) в полето за бързо търсене и базирано на браузър търсачи. Резултатите от търсенето в Knowledge Graph също ще бъдат представени в предстоящите версии на приложението за търсене на Google за iOS устройства. Потребителите могат да навигират в информацията в Knowledge Graph чрез докосване или плъзгане напред и назад през съдържанието.

Google Knowledge Graph (мобилен)

Важно е да се отбележи, че това са само първите места, които Knowledge Graph се появява в услугите на Google. Зад кулисите можете да очаквате резултатите от търсенето на Knowledge Graph да започнат да информират голямо разнообразие от услуги на Google, особено с нарастването на неговия набор от данни и „факти“. Търсенията в Графа на знанието вероятно никога няма замени Традиционното търсене на Google, базирано на ключови думи - семантичното търсене и буквалното търсене са два различни инструмента, добри за две отделни задачи - но на теория не би било изненадващо, ако един ден Графът на знанието допринесе за една четвърт от взаимодействията на Google с търсенето потребители.

Краудсорсинг… или класове, оцветени в Google?

И така, как Knowledge Graph избира информация за своите обобщения? Досега Google не е бил много ясен относно методологията зад представянето на Knowledge Graph. В моята (ограничена) извадка голяма част от данните, които Google приоритизира за своите обобщения, изглеждат доста последователни: дати, отношения, и едно поле „значително постижение“ за хората (което може да бъде означено като „Открития“ или „Професия“ или "Заглавие"). Местата получават местоположения и дати, както и селекция от други полета, които могат да бъдат точно това, което някой иска или напълно неподходящи. Например, ако разглеждате Емпайър Стейт Билдинг, предоставянето на адреса на улицата изглежда подходящо... но не е толкова подходящо за, да речем, Стоунхендж. Подобни странности могат да се случат с телефонните номера: колко хора се нуждаят от незабавен достъп до телефонен номер за Тадж Махал?

Google Knowledge Graph (Тадж Махал)

Google казва, че дава приоритет на информацията, която представя в обобщенията на Knowledge Graph, използвайки „човешка мъдрост“. И с това Google не го прави всъщност означават неща, които хората им казват или които експерти по предмети или куратори на бази данни събират - това означава да се правят косвени предположения за намеренията на потребителите, като регистрирате поведението при търсене и следите върху какво кликват, какво не кликват и какво търсят, след като направят Търсене. С две думи, Google използва краудсорсинг, за да се опита да определи кои „факти“ са най-добрите за представяне в резюме на Графа на знанието.

Например Google казва, че обобщената информация на Knowledge Graph, която представя за Том Круз, отговаря на 37 процента от последващите запитвания на потребителите на Google за търсене за актьора, когато го търсят. Това число от 37 процента звучи успокояващо научно и точно, но няма абсолютно никакъв начин да се оцени дали оценката на Google за общото поведение на потребителите на търсене има нещо общо с това, което конкретен потребител - като Вие — иска да знае. Тъй като Google изглежда толкова горд с тези 37 процента, нека го обърнем наопаки: Google казва, че 63 процент от времето, той не може да представи никаква информация за тема, която потребителите му търсят релевантни.

Позицията на Google е лесна за разбиране: винаги, когато е възможно, иска незабавно да представи информацията, която потребителите търсят. Единственият начин, по който Google наистина може да оцени това, е като погледне как хората използват неговата търсачка и се опита да направи някои предположения.

Краудсорсингът крие своите опасности. Точно както Google стъпва в мътни води, когато реши приоритизиране на резултатите от търсенето от Google+ в Search Plus Your World има опасност да се разчита на краудсорсинг за приоритизиране на представянето на информация и „факти“. Просто защото търсещата аудитория на Google може да не знае (или особено да я интересува) за определена информация, не означава, че тя не е важна или релевантни. Има много случаи, когато възприемането на фактите от „тълпата“ е погрешно. Повечето хора смятат, че шизофренията означава да имаш множество личности, да пиеш мляко или да ядеш сладолед увеличава производството на слуз, а Мария Антоанета каза „Нека ядат торта“. И все пак нито едно от тези неща не е така вярно.

Разчитането на краудсорсинг за оценка на важността на информацията също създава потенциал за злоупотреба. Да кажем, че правителство е искало да посее дезинформация за дисиденти, политическа кампания е искала да наклевети опонент или хакери са искали да си играят с резултатите от търсенето само за смях? Почти по същия начин резултатите от търсенето с Google бяха „Googlebombed”, краудсорсингът може да се използва за манипулиране на Knowledge Graph. Разумните хора няма да повярват на всичко, което прочетат; по подобен начин „фактите“, представени от семантичните търсачки, няма да бъдат надеждни – а в някои случаи краудсорсингът ще ги направи още по-малко.

Направете Google по-лепкав

От практическа гледна точка Knowledge Graph на Google ще има едно незабавно въздействие: ще направи резултатите от търсенето с Google по-лепкави. Всеки път, когато Knowledge Graph може да предостави директен отговор на въпроса на търсещия потребител – или да му позволи да навигира бързо до него чрез сродни теми – потребителите ще останат в услугите на Google. Това означава, че Google събира повече данни за търсенията и поведението на потребителите (независимо дали са влезли в акаунт в Google или не). Това от своя страна позволява на Google допълнително да усъвършенства своята целева рекламна платформа.

Това също означава, че услуги като Wikipedia, които често отговарят на същите видове специфични знания заявките, насочени от Графа на знанието, ще видят спад в количеството уеб трафик, от който получават Google. В случая с Wikipedia това пряко съответства на по-малко възможности за търсене на подкрепа от общността; за други услуги, което ще доведе директно до по-малък брой рекламни импресии и (следователно) по-ниски приходи. За хора, които предлагат сайтове и услуги, базирани на предоставяне на отделни факти и информация – и това включва всичко от Wikipedia до IMDb до онлайн търговци на дребно до телефонни указатели и бизнес указатели до (възможно) масови услуги като Yelp и дори публични записи... Графът на знанието може бавно да подкопае техните предприятия.

Препоръки на редакторите

  • Как да използвате Google SGE — изпробвайте сами генеративното търсене
  • Не е нужно да използвате Bing – Google Търсене вече също има AI
  • Как ChatGPT може да помогне на Microsoft да детронира Google Търсене
  • Google Chrome получава една от най-добрите функции на Microsoft Edge
  • Новият инструмент на Google за поверителност ви уведомява, ако личната ви информация е изтекла