Inside Knowledge Graph: hĺbkové sémantické vyhľadávanie Google

Google Knowledge Graph

Google začína sprístupňovať svoju novú technológiu Knowledge Graph svojim anglicky hovoriacim používateľom v Spojených štátoch. Hoci sa nová služba objaví skôr ako doplnok k bežným výsledkom vyhľadávania Google na webe ako samostatná služba – predstavuje zásadne odlišný spôsob prístupu Vyhľadávanie. Namiesto vrátenia hodnotených výsledkov vyhľadávania na základe doslovných hľadaných výrazov (alebo niektorých hľadaných výrazov, príp prípadne opravené verzie niektorých hľadaných výrazov), Knowledge Graph sa v podstate pokúša priradiť vyhľadávanie otázky s veci vie o: miestach, ľuďoch, knihách, filmoch, udalostiach – na čo si spomeniete. Knowledge Graph je snaha dosiahnuť sémantické vyhľadávanie, ktorá sa pokúša vrátiť výsledky založené na význame toho, čo používatelia hľadajú, namiesto doslovných zhôd.

Môže Diagram znalostí zmeniť spôsob, akým vyhľadávame? A čo to môže znamenať pre základnú činnosť spoločnosti Google – a stránky, ktoré sa spoliehajú na to, že na ich stránky privádza návštevnosť?

Odporúčané videá

Diagram znalostí pod kapotou

Google Knowledge Graph (Curie)

Aj keď je Knowledge Graph zásadne novým druhom vyhľadávacej ponuky od spoločnosti Google, ide po dobre vychodených cestách, ktorými sa spoločnosť Google uberá už roky so svojou bežnou vyhľadávacou službou. A Google je opatrný, aby ho predstavil spôsobom, ktorý veľmi nenaruší jeho vyhľadávanie, ktoré dominuje na trhu.

Súvisiace

  • Konkurent Google ChatGPT práve spustil vyhľadávanie. Tu je návod, ako to vyskúšať
  • Ups – Google Bard AI demo je vyvrátené prvým výsledkom vyhľadávania
  • Google práve odhalil, čo vás v roku 2022 najviac fascinovalo

Google už roky dokáže odpovedať na výber jednoduchých faktických otázok priamo z vyhľadávania bar, a dokonca si to spočítať – užitočné pre ľudí, ktorí majú s väčšou pravdepodobnosťou spustený webový prehliadač ako a kalkulačka. Skúste to: Google by mal poskytnúť priame odpovede na veci ako „hlavné mesto Surinamu“ alebo „druhá odmocnina 3952.”

S Diagramom znalostí Google tiež presunie vyhľadávacie dopyty do zložitých databáz vzájomne súvisiacich informácií o... veci, pre nedostatok lepších podmienok. V niektorých ohľadoch tieto databázy fungujú podobne ako tradičné vyhľadávanie: vracajú záznamy s dôležitými informáciami o konkrétnej veci. Pre osobu to môže byť niečo ako dátum narodenia (a možno dátum úmrtia), jej národnosť, tituly alebo úrady, ktoré mohli zastávať, celé meno a ďalšie.

V prípade budovy môžu tieto súbory údajov zahŕňať veci ako jej umiestnenie, kedy bola postavená, jej celková veľkosť, jej typ (povedzme pamiatka, maloobchodný priestor, obchodný priestor, rezidencia, um...vesmírna stanica?). Avšak okrem toho, čo predstavuje niekoľko holých faktov a niektoré kľúčové slová, tieto položky databázy zhromažďujú aj priame odkazy na súvisiace objekty v databáze (ktoré zase odkazujú na iné súvisiace objekty atď.). S najväčšou pravdepodobnosťou je definovaný aj charakter týchto väzieb. Napríklad záznam o osobe môže obsahovať odkazy na rodičov, manželského partnera (manželov) a deti tejto osoby a iné významné vzťahy a vedieť rozlišovať medzi členmi rodiny a inými typmi vzťahov. Databáza by nerobila svoju prácu, keby súbor údajov o Georgeovi H. W. Bush (41. prezident Spojených štátov amerických) sa neprepojil so súborom údajov o Georgovi W. Bush (43. prezident) – a obaja by sa spojili s Condoleezzou Riceovou, ale rôznymi spôsobmi. Súbor údajov o Veľkej pyramíde by mal obsahovať prepojenia na Cheopsa a Chufua a Sfingu – ale aj na mauzóleum v Halikarnase. (Môžete hádať prečo?)

Tieto súbory údajov tvoria srdce sémantického vyhľadávania – a nie sú lacné. Predovšetkým sú obrovské: Súčet ľudských vedomostí môže byť len malinkou škvrnou v tvári všetkých informácie vo vesmíre, ale len zoškrabanie služby môže ľahko vyprodukovať stovky miliónov (alebo miliárd) množín údajov. (Na porovnanie, anglická verzia Wikipédie má mizivé 4 milióny článkov.) Tieto súbory údajov nie je ľahké získať: musia byť starostlivo zostavené zo spoľahlivých zdrojov. Okrem toho musia byť usporiadané a navrhnuté takým spôsobom, aby bolo možné k informáciám pristupovať a manipulovať s nimi užitočnými spôsobmi (a v reálnom čase na účely spoločnosti Google). A súbory údajov musia byť schopné vyrovnať sa s mužskou povahou „vedomostí“. Koniec koncov, len pred niekoľkými rokmi bolo Pluto planétou a Vioxx bola liečba osteoartrózy schválená FDA.

Google zjavne buduje svoje databázy pomocou technológií a metód získaných s Metawebom v roku 2010 – hoci Metaweb Freebase sémantická databáza zostáva dostupná komukoľvek. Google používa na získavanie údajov službu Freebase spolu s informáciami získanými z Wikipédie a CIA World Factbook. Google nároky jeho databáza Knowledge Graph už obsahuje záznamy pre približne 500 miliónov objektov (upozorňujeme, že tieto objekty nemožno priamo porovnávať s články na Wikipédii) a približne 3,5 miliardy „faktov“. „Fakt“ sme dali do úvodzoviek, pretože kedysi bolo „faktom“, že Zem bola plochá a ľudia nemohol lietať. Vedomosti sú šmykľavé.

Diagram znalostí na obrazovke

Počiatočná implementácia Diagramu znalostí od spoločnosti Google je navrhnutá tak, aby rozšírila existujúce zoznamy výsledkov vyhľadávania spoločnosti, a nie ich nahradila. Podobne ako Google niekedy zobrazuje ukážky stránok na paneli na pravej strane výsledkov vyhľadávania v štandardnom okne webového prehliadača, výsledky Diagramu znalostí sa zobrazia na paneloch vedľa výsledkov vyhľadávania. Nie všetky hľadané výrazy vytvoria panely Diagramu znalostí: Dopyty sa budú musieť zhodovať s dobre definovanými objektmi v Diagrame znalostí. (Ak sa vám zatiaľ nezobrazujú výsledky Diagramu znalostí, nerobte si starosti. Google túto funkciu stále zavádza a momentálne je obmedzená na anglicky hovoriacich používateľov v Spojených štátoch.)

Panely Diagramu znalostí sa snažia zobraziť súhrn kľúčových a najvyhľadávanejších informácií o dopyte bez toho, aby používatelia museli čítať dvojriadkové súhrny webovej stránky alebo sa preklikávať na inú stránky. Pre osobu môžu tieto kľúčové fakty zahŕňať dátumy narodenia a úmrtia, významné osoby s nimi spojené a rýchle zvýraznenie titulov, úspechov alebo toho, čo ešte robí túto osobu významnou. Pre ostatné subjekty sa Google pokúsi odhaliť kľúčové informácie, štatistiky a asociácie. Panel Knowledge Graph si poradí aj s jednoznačnosťou. Ak vyhľadávaciemu dopytu zodpovedá viac ako jedna entita Diagramu znalostí, Google poskytne prístup ku všetkým.

Ešte dôležitejšie je, že keď používatelia interagujú s entitou Diagramu znalostí, môžu v rámci určitých obmedzení surfovať po prepojeniach vzťahov s týmito entitami. Napríklad vytiahnutie záznamu Diagramu znalostí na Dashiell Hammett by malo používateľom umožniť okamžite prejsť na súhrn Diagramu znalostí Tenký muž a Maltézsky sokol — a možno k súhrnom o Lillian Helman a protikomunistických honoch na čarodejnice po druhej svetovej vojne.

Diagram znalostí nebude obmedzený na vyhľadávania v prehliadači: Google momentálne sprístupňuje výsledky vyhľadávania Diagramu znalostí do väčšiny zariadení so systémom Android 2.2 alebo vyšším (opäť len v USA v angličtine) v poli Rýchle vyhľadávanie a v prehliadači pátrači. Výsledky vyhľadávania Diagramu znalostí budú predstavené aj v pripravovaných verziách vyhľadávacej aplikácie Google pre zariadenia so systémom iOS. Používatelia môžu prechádzať informáciami v Diagrame znalostí ťuknutím alebo potiahnutím tam a späť cez obsah.

Google Knowledge Graph (mobil)

Je dôležité poznamenať, že toto sú len prvé miesta, kde sa Diagram znalostí objavuje v službách Google. V zákulisí môžete očakávať, že výsledky vyhľadávania v Diagrame znalostí začnú informovať širokú škálu služieb Google, najmä keď sa rozrastá jeho korpus množín údajov a „faktov“. Vyhľadávania v Diagrame znalostí pravdepodobne nikdy nebudú nahradiť Tradičné vyhľadávanie Google založené na kľúčových slovách – sémantické vyhľadávanie a doslovné vyhľadávanie sú dva rôzne nástroje vhodné na dve samostatné úlohy – ale teoreticky by nebolo prekvapujúce, keby sa Diagram znalostí jedného dňa podieľal až na štvrtine interakcií Google s vyhľadávaním používateľov.

Crowdsourcing...alebo farebné kurzy Google?

Ako teda Diagram znalostí vyberá informácie pre svoje súhrny? Spoločnosť Google sa doteraz príliš nevyjadrovala k metodológii prezentácie Diagramu znalostí. V mojom (obmedzenom) vzorkovaní sa zdá, že veľká časť údajov, ktoré Google uprednostňuje pre svoje súhrny, je celkom konzistentná: dátumy, vzťahy, a jediné pole „významný úspech“ pre ľudí (ktoré by mohlo byť označené ako „Objavy“ alebo „Povolanie“, resp. „Názov“). Miesta získajú polohy a dátumy a výber ďalších polí, ktoré môžu byť presne to, čo niekto chce, alebo úplne nevhodné. Napríklad, ak sa pozeráte na Empire State Building, uvedenie adresy sa zdá byť vhodné... ale nie je to celkom vhodné napríklad pre Stonehenge. Podobné zvláštnosti sa môžu stať s telefónnymi číslami: koľko ľudí potrebuje okamžitý prístup k telefónnemu číslu na Taj Mahal?

Google Knowledge Graph (Taj Mahal)

Google tvrdí, že uprednostňuje informácie, ktoré prezentuje v súhrnoch Diagramu znalostí, pomocou „ľudskej múdrosti“. A tým Google nie v skutočnosti znamenajú veci, ktoré im hovoria ľudia alebo ktoré zhromažďujú odborníci na predmet alebo kurátori databáz – znamená to vytváranie nepriamych predpokladov o zámeroch používateľov zaznamenávaním správania pri vyhľadávaní a sledovaním toho, na čo klikajú, neklikajú a čo hľadajú po vykonaní Vyhľadávanie. Stručne povedané, Google používa crowdsourcing, aby sa pokúsil určiť, ktoré „fakty“ sú najlepšie na prezentovanie v súhrne Diagramu znalostí.

Google napríklad tvrdí, že súhrnné informácie z Diagramu znalostí, ktoré poskytuje pre Toma Cruisa, odpovedá na 37 percent následných otázok používateľov vyhľadávania Google o hercovi, keď ho hľadajú. Toto číslo 37 percent znie ubezpečujúco vedecky a presne, ale neexistuje žiadny spôsob, ako to posúdiť či má posúdenie Google súhrnného správania používateľov vyhľadávania niečo spoločné s tým, čo konkrétny používateľ – Páči sa mi to vy — chce vedieť. Keďže sa zdá, že Google je tak hrdý na toto číslo 37 percent, postavme to na hlavu: Google hovorí o 63 percenta času nemôže prezentovať žiadne informácie o téme, ktorú používatelia vyhľadávania nájdu relevantné.

Pozícia spoločnosti Google je ľahko pochopiteľná: Vždy, keď je to možné, chce okamžite prezentovať informácie, ktoré používatelia hľadajú. Jediný spôsob, ako to môže Google skutočne posúdiť, je pozrieť sa na to, ako ľudia používajú jeho vyhľadávací nástroj, a pokúsiť sa niečo odhadnúť.

Crowdsourcing má svoje nebezpečenstvá. Rovnako ako Google šliape v kalných vodách, keď sa tak rozhodne uprednostniť výsledky vyhľadávania z Google+ v Search Plus Your World existuje riziko spoliehania sa na crowdsourcing pri uprednostňovaní prezentácie informácií a „faktov“. Len pretože publikum vyhľadávania Google nemusí vedieť (alebo sa o určité informácie zaujímať), neznamená to, že nie sú dôležité, resp relevantné. Existuje veľa prípadov, keď „dav“ vníma fakty nesprávne. Väčšina ľudí si myslí, že schizofrénia znamená mať viacero osobností, piť mlieko alebo jesť zmrzlinu zvyšuje produkciu hlienu a Marie Antoinette povedala: "Nechajte ich jesť koláč." Žiadna z týchto vecí však nie je pravda.

Spoliehanie sa na crowdsourcing pri posudzovaní dôležitosti informácií tiež vytvára potenciál pre zneužitie. Povedzme, že vláda chcela zasiať dezinformácie o disidentoch, politická kampaň chcela pošpiniť oponenta alebo sa hackeri chceli hrať s výsledkami vyhľadávania len na smiech? Takmer rovnakým spôsobom boli výsledky vyhľadávania Google „Googlebombed,“ možno použiť crowdsourcing na manipuláciu Knowledge Graph. Rozumní ľudia neuveria všetkému, čo čítajú; podobne ani „fakty“ prezentované sémantickými vyhľadávačmi nebudú spoľahlivé – a v niektorých prípadoch ich bude crowdsourcing robiť ešte menej spoľahlivými.

Google bude lepši

Z praktickej stránky bude mať Diagram znalostí od spoločnosti Google jeden okamžitý vplyv: vďaka nemu budú výsledky vyhľadávania Google priliehavejšie. Kedykoľvek môže Diagram znalostí poskytnúť priamu odpoveď na otázku používateľa vyhľadávania – alebo mu umožní rýchlo prejsť na ňu prostredníctvom súvisiacich tém – používatelia zostanú v službách Google. To znamená, že Google zhromažďuje viac údajov o vyhľadávaniach a správaní používateľov (bez ohľadu na to, či sú alebo nie sú prihlásení do účtu Google). To zase umožňuje Googlu ďalej vylepšovať svoju cielenú reklamnú platformu.

Znamená to tiež, že služby ako Wikipedia, ktoré často odpovedajú na tie isté druhy vedomostí, špecifické dopytov, na ktoré sa zameriava Diagram znalostí, zaznamená pokles objemu webovej návštevnosti, z ktorej prichádzajú Google. V prípade Wikipédie to priamo zodpovedá menšiemu počtu príležitostí na získanie podpory komunity; v prípade iných služieb sa to priamo prejaví nižším počtom zobrazení reklamy a (teda) nižšími výnosmi. Pre ľudí, ktorí ponúkajú stránky a služby založené na poskytovaní diskrétnych faktov a informácií – a to zahŕňa všetko od Wikipédie cez IMDb až po online predajcov do telefónnych zoznamov a obchodných adresárov, k (možno) davovým službám, ako je Yelp a dokonca aj k verejným záznamom...Knowledge Graph by mohol pomaly narúšať ich podniky.

Odporúčania redaktorov

  • Ako používať Google SGE – vyskúšajte si generatívne vyhľadávanie
  • Nemusíte používať Bing – Vyhľadávanie Google má teraz aj AI
  • Ako môže ChatGPT pomôcť spoločnosti Microsoft zosadiť z trónu Vyhľadávanie Google
  • Google Chrome získava jednu z najlepších funkcií Microsoft Edge
  • Nový nástroj na ochranu osobných údajov od Googlu vám dá vedieť, či unikli vaše osobné údaje