Inside Knowledge Graph: Hluboké sémantické vyhledávání Google

Google začíná zavádět svou novou technologii Knowledge Graph pro své anglicky mluvící uživatele ve Spojených státech. Ačkoli se nová služba objeví jako doplněk k běžným výsledkům vyhledávání Google na webu – spíše než samostatná služba sama o sobě – představuje zásadně odlišný způsob přístupu Vyhledávání. Namísto vracení seřazených výsledků vyhledávání na základě doslovných vyhledávacích výrazů (nebo některých vyhledávacích výrazů, popř případně opravené verze některých hledaných výrazů), Knowledge Graph se v podstatě pokouší přiřadit vyhledávání dotazy s věci ví o: místech, lidech, knihách, filmech, událostech – na co si vzpomenete. Knowledge Graph je snaha dosáhnout sémantické vyhledávání, pokoušející se vracet výsledky založené na významu toho, co uživatelé hledají, namísto pouze doslovných shod.

Může Diagram znalostí změnit způsob, jakým vyhledáváme? A co by to mohlo znamenat pro základní podnikání společnosti Google – a weby, které spoléhají na to, že na jejich stránky přivádí návštěvnost?

Doporučená videa

Diagram znalostí pod kapotou

I když je Knowledge Graph zásadně novým druhem nabídky vyhledávání od společnosti Google, jde po dobře prošlapaných cestách, kterými se Google již léta ubírá se svou běžnou vyhledávací službou. A Google je opatrný, aby jej představil způsobem, který příliš nenaruší jeho vyhledávání, které dominuje na trhu.

Příbuzný

Konkurent společnosti Google ChatGPT právě zahájil vyhledávání. Zde je návod, jak to vyzkoušet
Jejda – Google Bard AI demo je vyvráceno prvním výsledkem vyhledávání
Google právě odhalil, co vás v roce 2022 nejvíce fascinovalo

Google byl po léta schopen odpovídat na výběr jednoduchých faktických dotazů přímo z vyhledávání bar a dokonce si něco spočítat – užitečné pro lidi, u kterých je pravděpodobnější, že budou mít webový prohlížeč spuštěný než a kalkulačka. Zkuste to: Google by měl poskytovat přímé odpovědi na věci jako „hlavní město Surinamu“ nebo „druhá odmocnina 3952.”

Díky Knowledge Graph bude Google také ukládat vyhledávací dotazy do komplexních databází vzájemně souvisejících informací o...no, věci, pro nedostatek lepších podmínek. V některých ohledech tyto databáze fungují podobně jako tradiční vyhledávání: vracejí záznamy s důležitými informacemi o konkrétní věci. Pro osobu to může být něco jako její datum narození (a možná datum úmrtí), její národnost, tituly nebo funkce, které mohou zastávat, celé právní jméno a další.

U budovy mohou tyto datové sady zahrnovat věci, jako je její umístění, kdy byla postavena, její celková velikost, její typ (řekněme památka, obchodní prostory, komerční prostory, rezidence, ehm… vesmírná stanice?). Nicméně, kromě toho, co představuje několik holých faktů a některá klíčová slova, tyto položky databáze také shromažďují přímé odkazy na příbuzný objekty v databázi (které zase odkazují na další související objekty atd.). S největší pravděpodobností je také definována povaha těchto vazeb. Záznam o osobě může například obsahovat odkazy na její rodiče, manžela (manželky) a děti, a jiné významné vztahy a umět rozlišovat mezi členy rodiny a jinými typy vztahů. Databáze by nedělala svou práci, kdyby soubor dat o George H. W. Bush (41. prezident Spojených států) nepropojil s datovým souborem o George W. Bush (43. prezident) – a oba by se napojili na Condoleezzu Riceovou, ale různými způsoby. Soubor dat o Velké pyramidě by měl obsahovat odkazy na Cheopse a Chufua a Sfingu – ale také na mauzoleum v Halikarnasu. (Můžete hádat proč?)

Tyto datové sady tvoří srdce sémantického vyhledávání – a nejsou levné. Za prvé, jsou obrovské: Součet lidských znalostí může být jen nepatrnou skvrnkou ve tváři všech informace ve vesmíru, ale pouhé seškrábnutí služby může snadno vyprodukovat stovky milionů (nebo miliard) datových sad. (Pro srovnání, anglická verze Wikipedie má mizivé 4 miliony článků.) Tyto datové sady není snadné získat: musí být pečlivě sestaveny ze spolehlivých zdrojů. Kromě toho musí být uspořádány a navrženy tak, aby bylo možné k informacím přistupovat a manipulovat s nimi užitečnými způsoby (a v reálném čase pro účely společnosti Google). A datové soubory se musí umět vyrovnat s mužnou povahou „znalostí“. Koneckonců, ještě před několika lety bylo Pluto planetou a Vioxx byla léčba osteoartrózy schválená FDA.

Google zjevně buduje své databáze pomocí technologií a metod získaných s Metawebem v roce 2010 – ačkoli Metaweb Freebase sémantická databáze zůstává dostupná komukoli. Google používá Freebase pro data spolu s informacemi získanými z Wikipedie a dalších CIA World Factbook. Google nároky jeho databáze Knowledge Graph již obsahuje záznamy pro přibližně 500 milionů objektů (upozorňujeme, že tyto objekty nelze přímo srovnávat s články na Wikipedii) a asi 3,5 miliardy „faktů“. „Fakt“ jsme dali do uvozovek, protože kdysi bylo „faktem“, že Země byla placatá a lidé nemohl létat. Znalosti jsou kluzké.

Diagram znalostí na obrazovce

Počáteční implementace Diagramu znalostí společnosti Google je navržena tak, aby rozšířila stávající záznamy společnosti ve výsledcích vyhledávání, nikoli je nahradila. Stejně jako Google někdy zobrazuje náhledy stránek na panelu napravo od výsledků vyhledávání ve standardním okně webového prohlížeče, výsledky Diagramu znalostí se zobrazí na panelech vedle výsledků vyhledávání. Ne všechny hledané výrazy vytvoří panely Diagramu znalostí: Dotazy se budou muset shodovat s dobře definovanými objekty v Diagramu znalostí. (Nedělejte si starosti, pokud zatím nevidíte výsledky Diagramu znalostí; Google tuto funkci stále zavádí a momentálně je omezena na anglicky mluvící uživatele ve Spojených státech.)

Panely Diagram znalostí se snaží zobrazit souhrn klíčových a nejvyhledávanějších informací o dotazu aniž by uživatelé museli číst dvouřádkové souhrny webové stránky nebo klikat na jinou místo. Pro osobu mohou tato klíčová fakta zahrnovat data narození a úmrtí, významné osoby s nimi spojené a rychlé zdůraznění titulů, úspěchů nebo čeho jiného dělá tuto osobu významnou. U ostatních subjektů se Google pokusí získat klíčové informace, statistiky a asociace. Panel Knowledge Graph si poradí i s jednoznačností. Pokud vyhledávacímu dotazu odpovídá více než jedna entita Diagramu znalostí, Google poskytne přístup ke všem.

Ještě důležitější je, že jakmile uživatelé interagují s entitou Diagramu znalostí, mohou v rámci určitých limitů procházet odkazy vztahů k těmto entitám. Například zobrazení záznamu Diagramu znalostí na Dashiell Hammett by mělo uživatelům umožnit okamžitě přejít na shrnutí Diagramu znalostí Tenký muž a Maltézský sokol — a možná k souhrnům o Lillian Helman a protikomunistických honech na čarodějnice po druhé světové válce.

Diagram znalostí nebude omezen na vyhledávání v prohlížeči: Google aktuálně zavádí výsledky vyhledávání Diagramu znalostí do většiny zařízení se systémem Android 2.2 nebo vyšším (opět pouze v angličtině v USA) v poli Rychlé vyhledávání a v prohlížeči hledači. Výsledky vyhledávání Diagramu znalostí budou také představeny v nadcházejících verzích vyhledávací aplikace Google pro zařízení iOS. Uživatelé mohou procházet informacemi v Diagramu znalostí klepnutím nebo přejížděním obsahu tam a zpět.

Je důležité si uvědomit, že toto jsou jen první místa, kde se Diagram znalostí objevuje ve službách Google. V zákulisí můžete očekávat, že výsledky vyhledávání Diagramu znalostí začnou informovat širokou škálu služeb Google, zejména s tím, jak roste jeho korpus datových sad a „faktů“. Vyhledávání v Diagramu znalostí pravděpodobně nikdy nebude nahradit Tradiční vyhledávání Google založené na klíčových slovech – sémantické vyhledávání a doslovné vyhledávání jsou jakési dva různé nástroje vhodné pro dva samostatné úkoly – ale teoreticky by nebylo překvapivé, kdyby se Diagram znalostí jednoho dne podílel až na čtvrtině interakcí Googlu s vyhledáváním. uživatelů.

Crowdsourcing...nebo kurzy v barvách Google?

Jak tedy Diagram znalostí vybírá informace pro své souhrny? Doposud se Google příliš explicitně nevyjadřoval k metodologii prezentace Knowledge Graph. V mém (omezeném) vzorkování se velká část dat, která Google upřednostňuje pro své souhrny, zdá být docela konzistentní: data, vztahy, a jediné pole „významný úspěch“ pro lidi (které by mohlo být označeno jako „Objevy“ nebo „Povolání“ nebo "Titul"). Místa získají umístění a data a výběr dalších polí, která mohou být přesně to, co někdo chce, nebo zcela nevhodné. Pokud se například díváte na The Empire State Building, zadání adresy se zdá být vhodné… ale není to tak vhodné, řekněme, pro Stonehenge. Podobné zvláštnosti se mohou stát s telefonními čísly: kolik lidí potřebuje okamžitý přístup k telefonnímu číslu pro Taj Mahal?

Google říká, že upřednostňuje informace, které prezentuje v souhrnech Diagramu znalostí pomocí „lidské moudrosti“. A tím Google ne ve skutečnosti znamenají věci, které jim říkají lidé nebo které shromažďují odborníci na předmět nebo kurátoři databází – znamená to vytváření nepřímých předpokladů o záměrech uživatelů protokolováním chování při vyhledávání a sledováním toho, na co klikají, neklikají a co hledají poté, co Vyhledávání. Stručně řečeno, Google se pomocí crowdsourcingu snaží určit, která „fakta“ je nejlepší prezentovat v souhrnu Diagramu znalostí.

Google například říká, že souhrnné informace Diagramu znalostí, které poskytuje Tom Cruise, odpovídá na 37 procent následných dotazů uživatelů vyhledávání Google na herce, když ho hledají. Toto číslo 37 procent zní znovu jistě vědecky a přesně, ale neexistuje absolutně žádný způsob, jak to posoudit zda má hodnocení Google souhrnného chování uživatelů vyhledávání něco společného s tím, co konkrétní uživatel – jako vy - chce vědět. Vzhledem k tomu, že se Google zdá být na těchto 37 procent tak hrdý, postavme to na hlavu: Google říká 63 procenta času nemůže prezentovat žádné informace o tématu, které uživatelé vyhledávají relevantní.

Pozice společnosti Google je snadno pochopitelná: Kdykoli je to možné, chce okamžitě prezentovat informace, které uživatelé hledají. Jediný způsob, jak to Google může skutečně posoudit, je podívat se na to, jak lidé používají jeho vyhledávač, a pokusit se něco odhadnout.

Crowdsourcing má svá nebezpečí. Stejně jako Google šlape v kalných vodách, když se tak rozhodne upřednostnit výsledky vyhledávání z Google+ ve službě Search Plus Your World existuje nebezpečí spoléhat se na crowdsourcing při upřednostňování prezentace informací a „faktů“. Prostě protože vyhledávací publikum Google o určitých informacích nemusí vědět (nebo je může zajímat), neznamená to, že nejsou důležité nebo relevantní. Existuje mnoho případů, kdy „dav“ vnímá fakta špatně. Většina lidí si myslí, že schizofrenie znamená mít více osobností, pít mléko nebo jíst zmrzlinu zvyšuje produkci hlenu a Marie Antoinette řekla: "Nechte je jíst koláč." Přesto žádná z těchto věcí není skutečný.

Spoléhání se na crowdsourcing při posuzování důležitosti informací také vytváří potenciál pro zneužití. Řekněme, že vláda chtěla zasít dezinformace o disidentech, politická kampaň chtěla pošpinit oponenta nebo si hackeři chtěli hrát s výsledky vyhledávání jen pro smích? Téměř stejným způsobem byly výsledky vyhledávání Google „Googlebomba,“ lze využít crowdsourcing k manipulaci s Diagramem znalostí. Rozumní lidé nebudou věřit všemu, co čtou; podobně „fakta“ prezentovaná sémantickými vyhledávači nebudou spolehlivá – a v některých případech je crowdsourcing ještě sníží.

Lepší Google

Z praktického hlediska bude mít Diagram znalostí od Googlu jeden okamžitý dopad: Výsledky vyhledávání Google budou přiléhavější. Kdykoli může Knowledge Graph poskytnout přímou odpověď na otázku uživatele vyhledávání – nebo jej nechat rychle přejít pomocí souvisejících témat – uživatelé zůstanou ve službách Google. To znamená, že Google shromažďuje více údajů o vyhledávání a chování uživatelů (bez ohledu na to, zda jsou přihlášeni k účtu Google či nikoli). To zase umožňuje Googlu dále vylepšovat svou cílenou reklamní platformu.

Znamená to také, že služby jako Wikipedie, které často odpovídají na stejné druhy znalostí dotazy, na které je Diagram znalostí zacílen, zaznamenají pokles objemu webového provozu, který přijímají Google. V případě Wikipedie to přímo odpovídá menšímu počtu příležitostí k získání podpory komunity; u jiných služeb se to přímo projeví nižším počtem zobrazení reklamy a (tedy) nižšími výnosy. Pro lidi, kteří nabízejí stránky a služby založené na poskytování diskrétních faktů a informací – a to zahrnuje vše od Wikipedie přes IMDb až po online prodejce do telefonních seznamů a obchodních adresářů, k (možná) davovým službám, jako je Yelp, a dokonce k veřejným záznamům… Graf znalostí by mohl pomalu nahlodat jejich podniky.

Doporučení redakce

Jak používat Google SGE – vyzkoušejte si generativní vyhledávání
Nemusíte používat Bing – Vyhledávání Google má nyní také AI
Jak může ChatGPT pomoci společnosti Microsoft sesadit z trůnu Vyhledávání Google
Google Chrome získává jednu z nejlepších funkcí Microsoft Edge
Nový nástroj na ochranu soukromí od Googlu vám dá vědět, zda došlo k úniku vašich osobních údajů

Inside Knowledge Graph: Hluboké sémantické vyhledávání Google

Diagram znalostí pod kapotou

Diagram znalostí na obrazovce

Crowdsourcing...nebo kurzy v barvách Google?

Lepší Google

Doporučení redakce

Kategorie

Nedávno

2 velká čísla mě zastavila v nákupu iPhone 14 Pro Max

Proč si vaše oči zaslouží iPad s obrazovkou ProMotion 120Hz

IOS 16 o dva měsíce později: mých 5 oblíbených věcí (a 1, kterou nesnáším)