Chytřejší vyhledávání: Proč vám „sémantické vyhledávání“ konečně umožní, aby vám Google porozuměl

Proč-sémantické-hledat'-nechá-vám-konečně-Google porozumět

Amir Efrati z Wall Street Journal zvedl obočí s článkem (vyžadováno předplatné), že Google pracuje na tom, aby si udržel náskok před svými konkurenty v internetovém vyhledávání tím, že zavádí další technologii takzvaného „sémantického vyhledávání“. Myšlenka je taková, že vyhledávací pole Google by nebylo jen místem, kde by uživatelé mohli zadávat klíčová slova nebo specificky vytvořené dotazy, ale pole, které by obsahovalo skutečný porozumění z mnoha výrazů, jmen, sloves a odkazů, které lidé zadávají – a mohli by tyto znalosti aplikovat na vyhledávání uživatelů. Teoreticky by sémantické vyhledávání mělo být schopno vrátit výsledky, které odrážejí záměr hledajícího a v některé případy zlepšují schopnost Googlu poskytnout odpověď okamžitě, aniž by uživatele odkazoval na jiného místo.

Ale počkat – je to něco nového? Ne Google již dát nějaké odpovědi přímo dopředu? A jak by mohlo sémantické vyhledávání potenciálně pomoci Googlu udržet si vedoucí postavení v podnikání na internetu?

Doporučená videa

Co je sémantické vyhledávání?

Stručně řečeno, sémantika má mnohem více společného s Watsonem, superpočítačovou aplikací IBM šikovně poražené lidi na Ohrožení! než je tomu u dialogu Najít v aplikaci Microsoft Word.

Volně řečeno, svět počítačového vyhledávání se dělí na dva typy:

Doslovné hledání (někdy nazývané navigační vyhledávání) hledá přesné shody pro některé nebo všechny zadané výrazy a vrací odpovídající položky – ať už jde o soubory, webové stránky, produkty nebo nějakou jinou samostatnou jednotku informací. Doslovné vyhledávání lze rozšířit o věci, jako je porovnávání kmenů, konjugáty a asociace, které rozšiřují nebo omezují vyhledávání užitečnými způsoby – takže hledání „fly“ může také zasáhnout „flight“. Doslovné vyhledávání je to, co dnes známe nejvíce, částečně proto, že je to nejjednodušší pro počítače provést.

Sémantické vyhledávání se od doslovného vyhledávání liší dvěma způsoby. Nejprve se o to pokusí sémantické vyhledávání rozumět na co se uživatel v dotazu ptá tím, že to umístíte do kontextu prostřednictvím analýzy výrazů a jazyka dotazu. Tato analýza se provádí na základě těsně předkompilovaných souborů znalostí, které mohou zahrnovat znalosti o uživateli. Za druhé, místo vracení sady souborů, webových stránek, produktů nebo jiných položek se sémantické vyhledávání snaží poskytnout Přímo odpověď na otázku. Pokud se zeptáte sémantického vyhledávače „Kdy bylo objeveno Pluto? mohlo by odpovědět: „Pluto objevil 18. února 1930 Clyde Tombaugh*“, kde by doslovný vyhledávač s největší pravděpodobností vrátil odkazy na webové stránky, které obsahují slova „objeveno“ a „Pluto“.

Ukázalo se, že doslovné vyhledávání a sémantické vyhledávání jsou dobré pro různé úkoly. Doslovné vyhledávání je skvělé, když uživatel hledá konkrétní věc, ať už se jedná o soubor, webovou stránku, dokument, produkt, album nebo jinou samostatnou položku. Sémantické vyhledávání se na druhou stranu ukazuje jako užitečnější, když uživatel hledá konkrétní informace — jako datum, číslo, čas, místo nebo jméno.

Částečně díky rozšíření technologie doslovného vyhledávání ve všem, od textových procesorů po webové vyhledávače, jsme nejvíce zvyklí na doslovné vyhledávání. Většina z nás již ví, jak manipulovat s doslovným vyhledáváním, abychom se na první pokus přiblížili tomu, co chceme. Podle článku WSJ společnosti Efrati však Google věří, že technologie sémantického vyhledávání by mohla poskytnout přímé odpovědi na 10 až 20 procent webových vyhledávání. Podle Comscore, Google zpracoval 11,7 miliardy vyhledávání v samotných Spojených státech v únoru 2012. Díky možnostem sémantického vyhledávání mohlo být více než 2,3 miliardy těchto vyhledávání zodpovězeno přímo, namísto toho, aby se lidé posílali na jiné webové stránky a weby.

Google to už nedělá?

Pokud jste vůbec používali vyhledávání Google na webu, pravděpodobně si říkáte: „Ale počkejte, Google už to dělá!“ Zadejte "aktuální čas v Tokiu“ nebo „jak vysoký je Mount Everest“ a Google umístí svůj nejlepší odhad přesné odpovědi do horní části svých výsledků vyhledávání. Google dokonce uvádí zdroje pro svou odpověď a některé z těchto zdrojů budou v klasických „deset modrých odkazech“ pod odpovědí. (Mimochodem, Google uvádí, že Mount Everest je vysoký 8 848 metrů.)

Abychom byli spravedliví, toto je jedna z mnoha užitečných funkcí, které Google zabudoval do svého vyhledávacího pole: Udělá (sofistikovanou) matematiku, převody jednotek a měn a vytahování věcí, jako jsou informace o letech a časy promítání místních filmů – není třeba složitě zadávat dotaz. Může také využít některé veřejné zdroje dat. Například zadáním „obyvatel Mexika” do vyhledávacího pole zobrazí údaje ze Světové banky. Dnešní odezva je 113 423 047 lidí.

Snaha společnosti Google poskytovat přímé odpovědi na některé typy otázek však velmi rychle klesá, protože tyto funkce jsou z velké části implementované jako speciální případy do doslovného vyhledávače Google, spíše než jako sémantické vyhledávání, které se snaží pochopit, co uživatel chce. Zadejte "jak vysoký je mt everest“ (všimněte si pravopisu) do vyhledávacího pole a Google se ani nepokusí poskytnout odpověď: Vyhledávání Google nezná „mt“ znamená „připojit“. Podobně, pokud Google určí, že se vaše aktuální poloha nenachází v Mexiku (a pokud Google vaši polohu nezná, uhodne podle vaší IP adresy a, ne, nemůžete se odhlásit) hledám "populace mexické město” může vrátit nějaké neočekávané výsledky. Mexico City je jistě domovem více než 10 852 lidí, že?

Jak se liší sémantické vyhledávání

Sémantické vyhledávání se snaží odstranit tyto druhy chyb dvěma způsoby. Nejprve se snaží přesněji porozumět úmysl za konkrétním dotazem. Zadruhé se pokouší porovnat prvky tohoto dotazu s předem sestavenými zásobami hlubokých znalostí, aby zjistil, zda může vypracovat smysluplnou odpověď.

Když odešlete dotaz do doslovného vyhledávače, jako je Google, neodejde okamžitě všechny stránky na internetu, prohlédněte si je a nahlaste seznam stránek, o kterých si myslí, že nejlépe odpovídají vašim podmínky. Místo toho má Google softwarové programy, které neustále hledají na internetu nové stránky a nové webové stránky, které vytvářejí index ze všech stránek, které najdou. Ačkoli se jedná o velké zjednodušení, když uživatelé zadají vyhledávací dotaz jako „konference na Jaltě,“ Google v tomto indexu hledá stránky, které odpovídají výrazům „Jalta“ i „konference“, a také stránky, které mají oba výrazy blízko sebe (řekněme do 8 nebo 10 slov). Google poté shromáždí adresy URL těchto stránek, seřadí je podle svého interního hodnocení PageRank (míra Google relativních předností stránky, která v zásadě počítá odkazy na ni jako kladné hlasy) a vrátí seznam.

Správa dat a inženýrství za takovým procesem je skličující a mamutí, a Google zaslouží pochvalu za to, že to dokázal – zejména proto, že Google to často dokáže za zlomek druhý. Podobné věci se dějí v zákulisí Microsoft Bing.

Sémantické vyhledávání by ke stejnému dotazu přistupovalo odlišně. Namísto porovnávání dotazu s předkompilovaným (a neustále aktualizovaným) indexem webových stránek, o kterých ví, sémantický vyhledávač porovnává dotaz s diskrétním, předem vyplněným sady znalostí má k dispozici. Představte si sady znalostí jako databáze: V jádru jsou plné dat, faktů a čísel o konkrétním předmětu. Existují různé druhy souborů znalostí. Pár zajímavých je ontologií (které představují formalizované informace, s nimiž lze manipulovat pomocí pravidel, funkcí a omezení) a folksonomie, které obvykle představují společně definované sady znalostí: Příkladem může být hashtagging a sociální záložky.

Google vyhledávání

Znalostní sady jsou více než jen zásobníky. Představují také vztahy mezi položkami ve znalostní bázi a umožňují smysluplné využití informací napříč násobek sady znalostí. Kromě toho jsou vztahy často vyjádřeny takovým způsobem, že lze učinit přesné logické závěry bez muset uložit všechna možná odvozená data. To je trochu antropomorfizace, ale sémantické vyhledávače mohou provádět základní úvahy a dedukce na datech, o kterých vědí. V rámci tohoto procesu jsou sémantické vyhledávače často navrženy tak, aby vyhodnotily úroveň důvěry, kterou mají ve své odvozeniny. Pokud si myslí, že nevědí, o čem mluví, mohou zůstat němí. Pokud si jsou docela jisti, vyplivnou odpověď.

Pokud tedy zadáte „Jaltská konference“ do sémantického vyhledávače, bude hledat ve svých znalostních souborech a pravděpodobně vyplivne některá základní fakta a čísla, možná "Od 4. do 11. února 1945." Mohlo by to naznačovat, že se zúčastnili Stalin, Churchill a Franklin Roosevelt, a to bylo důležité i v posledních měsících světové války. II. Docela základní věci.

Pokud se zeptáte doslovného vyhledávače “Konala se Jaltská konference během korejské války?“ pravděpodobně dostanete seznam deseti modrých odkazů. Někdo by mohl mít odpověď.

Pokud se však zeptáte sémantického vyhledávače, měli byste dostat jednoslovnou odpověď: „Ne“.

Že je sémantické vyhledávání neuvěřitelně zajímavé.

Není to Wolfram Alpha?

Pokud tyto dotazy zní jako věci, na které lidé házejí Wolfram Alpha vyhledávač, máš naprostou pravdu. Wolfram Alpha se spíše než indexem webových stránek snaží být znalostním motorem. Wolfram Alpha není o hledání věci (jako je webová stránka), ale žádá o odpověď. Wolfram Alpha se při vytváření svých výsledků spoléhá na předem připravené znalostní báze a společnost pravidelně přidává a aktualizuje nové znalostní báze. Některá jsou vysoce specializovaná technická data – jako jsou informace o chemických prvcích nebo genomu vrtule – zatímco jiná jsou spíše rozmarná. Například Wolfram Alpha toho o kočičích plemenech ví docela dost.

Dokud zůstanete v oblasti znalostí Wolframa Alpha, může provádět užitečnou analýzu dat. Například Wolfram Alpha může porovnejte skokové vzdálenosti lvů a tygrů. (Ukázalo se, že jsou srovnatelní, ale zdá se, že tygři obecně vytlačují lvy.) Ale pokud chcete vědět jak daleko mohou klokani skočit? Jejda, omlouváme se: Nejsou k dispozici žádná data.

Ale neúspěšný dotaz na klokaní chmel ukazuje trochu o tom, jak se Wolfram Alpha snaží věci porozumět. Než poskytne odpověď, motor ukáže, že předpokládá, že „klokan“ znamená „klokani, klokanů“, ale uživatelé mohou přejít na klokana antilopinského, klokana červeného nebo klokana východního. klokan. Podobně Wolfram Alpha interpretoval „jak daleko může klokan skočit“ jako dotaz na „skokovou vzdálenost“, což je specifický datový bod, který může mít o zvířatech. Ukázalo se, že Wolfram Alpha aktuálně tato data nemá, ale jeho interpretace dotazu je velmi důležitá.

Není to Siri?

Pokud tyto dotazy zní jako věci, které lidé házejí na Siri v iPhonu 4S (ale nezapomeňte, ne nový iPad debutující tento týden), máte naprostou pravdu. Je však důležité si uvědomit, že Siri řeší pouze jednu polovinu rovnice: porozumění uživatelským dotazům. Siri tak přebírá velmi náročný výpočetní problém, kterým je přesné rozpoznání řeči uživatele přes mikrofon v reálném čase. Není to maličkost, ale není to sémantický vyhledávač. V zákulisí Siri předává dotazy Wolframu Alpha, Yelpu a (pokud vše ostatní selže) uživateli preferovanému webovému vyhledávači. Pokud se zeptáte Siri: „Stala se konference v Jaltě během korejské války“, může přesně rozpoznat, co ptáte se – pro mě to bylo – ale nabídne vám to doslovné vyhledávání na webu ze staré školy vy.

siri

Co čekat

Zájem Googlu o sémantické vyhledávání je pravděpodobně dvojí. Za prvé, pravděpodobně chce použít technologii jako další bod vychloubání, který ji staví před svou konkurenci – většinou Microsoft Bing. Bing má již dlouho a partnerství s Wolfram Alpha navrženy tak, aby pomohly vyhledávači poskytovat přímé odpovědi, je-li to možné. Bing ani Google však zatím s přímými výsledky vyhledávání mezi spotřebitele výrazněji nepronikly. Koneckonců, většina uživatelů každodenního vyhledávání pravděpodobně neví, že (omezené) možnosti již existují. Dokonce i pro uživatele, kteří o nich vědí, se zdá, že i Google si myslí, že tato technologie je použitelná pouze pro 10 až 20 procent vyhledávání. To je hodně vyhledávání, ale znamená to, že většina (80 až 90 procent) vyhledávání to nepoužije.

Protože však spotřebitelé rychle opouštějí notebooky, stolní počítače a tradiční počítačové platformy, schopnost poskytovat krátké, snadno srozumitelné odpovědi na složité vyhledávací dotazy by se mohla stát velmi důležité v mobilním světě. Pro uživatele, kteří řídí auto nebo si jinak nechtějí pohrávat s klávesnicí nebo obrazovkovou klávesnicí, možnost reagovat na mluvené dotazy jako „Is Golden Gate Park větší než Central Park?" nebo "Kudy do Malcolmova bytu?" s jednoduchými odpověďmi jako „Ano“ a „Na další odbočce doleva“ by mohly být pro mobilní zařízení neocenitelným rozdílem platformy.

To je téměř jistě místo, kde společnosti jako Apple a Google chtějí tuto technologii využít.

* Tombaugh poprvé identifikoval Pluto jako pohybující se objekt 18. února 1930, ale Pluto bylo nevědomky spatřeno při několika dřívějších příležitostech. Nejstarší v současné době známý byl v roce 1909. Vidět? Znalosti jsou kluzké.

Foto prostřednictvím: Annette Shaff / Shutterstock.com

Doporučení redakce

  • Veškerý internet nyní patří AI společnosti Google
  • Nemusíte používat Bing – Vyhledávání Google má nyní také AI
  • Jejda – Google Bard AI demo je vyvráceno prvním výsledkem vyhledávání
  • Zde je návod, jak se Vyhledávání Google plánuje vypořádat s clickbaitem
  • Jak odstranit osobní údaje z vyhledávání Google