Inteligentnejšie vyhľadávanie: Prečo vám „sémantické vyhľadávanie“ umožní konečne vám porozumieť

Prečo-sémantické-hľadať'-necháme-konečne-Google-porozumieť-vám

Amir Efrati z Wall Street Journal zdvihol obočie článkom (vyžaduje sa predplatné), že Google pracuje na tom, aby si udržal náskok pred svojimi súpermi v internetovom vyhľadávaní zavedením viac takzvanej technológie „sémantického vyhľadávania“. Myšlienkou je, že vyhľadávacie pole Google by nebolo len miestom, kde by používatelia zadávali kľúčové slová alebo špecificky vytvorené dopyty, ale pole, ktoré by obsahovalo pochopenie z mnohých výrazov, mien, slovies a odkazov, ktoré ľudia zadávajú – a mohli by tieto znalosti použiť pri vyhľadávaní používateľov. Teoreticky by sémantické vyhľadávanie malo byť schopné vrátiť výsledky, ktoré odrážajú zámer hľadajúceho a v niektoré prípady zlepšujú schopnosť spoločnosti Google poskytnúť odpoveď okamžite bez toho, aby používateľov odkázala na inú stránky.

Ale počkať – je to niečo nové? Nie Google už dať nejaké odpovede priamo dopredu? A ako by mohlo sémantické vyhľadávanie potenciálne pomôcť spoločnosti Google udržať si vedúcu pozíciu v oblasti internetového vyhľadávania?

Odporúčané videá

Čo je sémantické vyhľadávanie?

Stručne povedané, sémantika má oveľa viac spoločného s Watsonom, superpočítačovou aplikáciou IBM šikovne porazených ľudí pri Nebezpečenstvo! ako je to v prípade dialógového okna Hľadať v programe Microsoft Word.

Voľne povedané, svet počítačového vyhľadávania sa delí na dva typy:

Doslovné vyhľadávanie (niekedy tzv navigačné vyhľadávanie) hľadá presné zhody pre niektoré alebo všetky zadané výrazy a vracia zodpovedajúce položky – či už ide o súbory, webové stránky, produkty alebo inú diskrétnu jednotku informácií. Doslovné vyhľadávanie môže byť rozšírené o veci, ako je porovnávanie kmeňov, konjugáty a asociácie, ktoré rozširujú alebo obmedzujú vyhľadávanie užitočnými spôsobmi – takže pri vyhľadávaní výrazu „lietať“ sa môže zobraziť aj výraz „let“. Doslovné vyhľadávanie je to, čo dnes poznáme najviac, čiastočne preto, že je to najjednoduchšie pre počítače hrať.

Sémantické vyhľadávanie sa líši od doslovného vyhľadávania dvoma spôsobmi. Najprv sa o to pokúša sémantické vyhľadávanie rozumieť to, čo sa používateľ pýta v dopyte, jeho umiestnením do kontextu prostredníctvom analýzy výrazov a jazyka dopytu. Táto analýza sa vykonáva na základe pevne predkompilovaných súborov znalostí, ktoré môžu zahŕňať znalosti o používateľovi. Po druhé, namiesto vrátenia súboru súborov, webových stránok, produktov alebo iných položiek sa sémantické vyhľadávanie pokúša poskytnúť priamy odpoveď na otázku. Ak sa sémantického vyhľadávača spýtate „Kedy bolo objavené Pluto? mohla by odpovedať „Pluto objavil 18. februára 1930 Clyde Tombaugh^*“, kde by doslovný vyhľadávací nástroj s najväčšou pravdepodobnosťou vrátil odkazy na webové stránky, ktoré obsahujú slová „objavené“ a „Pluto“.

Ukázalo sa, že doslovné vyhľadávanie a sémantické vyhľadávanie sú dobré pre rôzne úlohy. Doslovné vyhľadávanie je skvelé, keď používateľ hľadá konkrétne vec, či už ide o súbor, webovú stránku, dokument, produkt, album alebo inú samostatnú položku. Sémantické vyhľadávanie sa na druhej strane ukazuje ako užitočnejšie, keď používateľ hľadá konkrétne informácie — ako dátum, číslo, čas, miesto alebo meno.

Čiastočne vďaka rozšíreniu technológie doslovného vyhľadávania vo všetkom, od textových procesorov po webové vyhľadávače, sme najviac zvyknutí na doslovné vyhľadávanie. Väčšina z nás už vie, ako manipulovať s doslovným hľadaním, aby sme sa na prvý pokus priblížili k tomu, čo chceme. Podľa článku WSJ spoločnosti Efrati však Google verí, že technológia sémantického vyhľadávania by mohla poskytnúť priame odpovede na 10 až 20 percent webových vyhľadávaní. Podľa Comscore, Google spracovali 11,7 miliardy vyhľadávaní len v Spojených štátoch vo februári 2012. Vďaka schopnostiam sémantického vyhľadávania bolo možné priamo odpovedať na viac ako 2,3 miliardy z týchto vyhľadávaní, namiesto toho, aby sme ľudí posielali na iné webové stránky a lokality.

Google to už nerobí?

Ak ste vôbec použili vyhľadávanie Google na webe, pravdepodobne si myslíte: „Ale počkajte, Google to už robí!“ Napíšte „aktuálny čas v Tokiu“ alebo „aký vysoký je Mount Everest“ a Google umiestni svoj najlepší odhad na presnú odpoveď v hornej časti svojich výsledkov vyhľadávania. Google dokonca cituje zdroje pre svoju odpoveď a niektoré z týchto zdrojov budú v klasických „desiatich modrých odkazoch“ pod odpoveďou. (Mimochodom, Google uvádza, že Mount Everest je vysoký 8 848 metrov.)

Aby sme boli spravodliví, toto je jedna z mnohých užitočných funkcií, ktoré Google zabudoval do svojho vyhľadávacieho panela: Urobí (sofistikovanú) matematiku, prevody jednotiek a mien a vytiahnutie vecí, ako sú informácie o letoch a časy premietania miestnych filmov – nie je potrebné komplikovane zadávať dopyt. Môže tiež využiť niektoré verejné zdroje údajov. Napríklad zadaním „obyvateľov Mexika” do vyhľadávacieho poľa sa zobrazia údaje zo Svetovej banky. Dnes je odpoveď 113 423 047 ľudí.

Snaha spoločnosti Google poskytnúť priame odpovede na niektoré typy otázok však veľmi rýchlo klesá, pretože tieto funkcie sú z veľkej časti implementované ako špeciálne prípady do doslovného vyhľadávacieho nástroja Google, a nie ako sémantické vyhľadávanie, ktoré sa snaží pochopiť, čo používateľ chce. Napíšte „aký vysoký je mt everest“ (všimnite si pravopis) do vyhľadávacieho poľa a Google sa ani nepokúsi poskytnúť odpoveď: Vyhľadávanie Google nevie, že „mt“ znamená „pripojiť“. Podobne, ak Google zistí, že vaša aktuálna poloha nie je v Mexiku (a ak Google nemá vašu polohu, uhádne to podľa vašej adresy IP a nie, nemôžete sa odhlásiť) hľadanie "obyvateľstvo mexického mesta“ môže vrátiť nejaké neočakávané výsledky. Mexiko City je určite domovom viac ako 10 852 ľudí, však?

Ako je sémantické vyhľadávanie iné

Sémantické vyhľadávanie sa snaží eliminovať tieto druhy chýb dvoma spôsobmi. Po prvé, snaží sa presnejšie pochopiť zámer za konkrétnym dopytom. Po druhé, pokúša sa porovnať prvky tohto dotazu s vopred zostavenými zásobami hlbokých znalostí, aby zistil, či dokáže vypracovať zmysluplnú odpoveď.

Keď odošlete dopyt do doslovného vyhľadávacieho nástroja, ako je Google, neprejde okamžite každú stránku na internete, prezrite si ich a nahláste zoznam stránok, o ktorých si myslí, že najlepšie zodpovedajú vašim podmienky. Namiesto toho má Google softvérové programy, ktoré neustále hľadajú na internete nové stránky a nové webové stránky, ktoré vytvárajú index zo všetkých stránok, ktoré nájdu. Hoci ide o veľké zjednodušenie, keď používatelia zadajú vyhľadávací dopyt ako „Jaltská konferencia,“ Google v tomto indexe hľadá stránky, ktoré sa zhodujú s výrazmi „Jalta“ aj „konferencia“, ako aj stránky, ktoré majú oba výrazy blízko seba (povedzme v rozsahu 8 alebo 10 slov). Google potom zhromažďuje adresy URL týchto stránok, zoraďuje ich podľa svojho interného hodnotenia PageRank (miera spoločnosti Google týkajúca sa relatívnych predností stránky, ktorá v podstate počíta odkazy na stránku ako kladné hlasy) a vráti zoznam.

Správa a inžinierstvo údajov za takýmto procesom je skľučujúce a mamutie a Google si zaslúži pochvalu za to, že to dokázal – najmä preto, že Google to často dokáže za zlomok druhý. Podobné veci sa dejú v zákulisí Microsoft Bing.

Sémantické vyhľadávanie by pristupovalo k rovnakému dopytu odlišne. Namiesto porovnávania dopytu s vopred zostaveným (a neustále aktualizovaným) indexom webových stránok, o ktorých vie, sémantický vyhľadávací nástroj porovnáva dopyt s diskrétnym, vopred vyplneným vedomostné súbory má k dispozícii. Predstavte si súbory znalostí ako databázy: V podstate sú plné údajov, faktov a čísel o konkrétnom predmete. Existujú rôzne druhy súborov vedomostí. Pár zaujímavých je ontológií (ktoré predstavujú formalizované informácie, s ktorými možno manipulovať pomocou pravidiel, funkcií a obmedzení) a folksonómie, ktoré zvyčajne predstavujú spoločne definované súbory znalostí: Príkladmi môžu byť hashtagging a sociálne záložky.

Znalostné sady sú viac než len úložné priestory. Predstavujú tiež vzťahy medzi položkami v znalostnej báze a umožňujú zmysluplné využitie informácií viacnásobné vedomostné súbory. Okrem toho sú vzťahy často vyjadrené takým spôsobom, že je možné urobiť presné logické závery bez ukladať všetky možné odvodené údaje. Toto je trochu antropomorfizácia, ale sémantické vyhľadávače môžu vykonávať základné uvažovanie a dedukciu údajov, o ktorých vedia. Ako súčasť tohto procesu sú sémantické vyhľadávače často navrhnuté tak, aby zhodnotili úroveň dôvery, ktorú majú vo svoje odvodenia. Ak si myslia, že nevedia, o čom hovoria, môžu zostať nemí. Ak sú si celkom istí, vyplivnú odpoveď.

Takže ak do sémantického vyhľadávača zadáte „Jaltskú konferenciu“, pozrie sa do svojich vedomostných súborov a pravdepodobne vypľuje nejaké základné fakty a čísla. "Od 4. do 11. februára 1945." Mohlo by to naznačovať, že sa zúčastnili Stalin, Churchill a Franklin Roosevelt a bolo to dôležité aj v posledných mesiacoch svetovej vojny. II. Docela základné veci.

Ak sa spýtate doslovného vyhľadávača “Konala sa Jaltská konferencia počas kórejskej vojny?“ pravdepodobne dostanete zoznam desiatich modrých odkazov. Niekto môže mať odpoveď.

Ak sa však opýtate sémantického vyhľadávača, mali by ste dostať jednoslovnú odpoveď: „Nie.“

To je miesto, kde je sémantické vyhľadávanie neuveriteľne zaujímavé.

Nie je to Wolfram Alpha?

Ak tieto otázky znejú ako veci, na ktoré ľudia hádžu Wolfram Alpha vyhľadávač, máš úplnú pravdu. Namiesto indexu webových stránok sa Wolfram Alpha snaží byť znalostným motorom. Wolfram Alpha nie je o hľadaní veci (napríklad webovej stránky), ale o požiadaní o odpoveď. Wolfram Alpha sa pri vytváraní svojich výsledkov spolieha na vopred pripravené znalostné bázy a spoločnosť pravidelne pridáva a aktualizuje nové znalostné bázy. Niektoré sú vysoko špecializované technické údaje – napríklad informácie o chemických prvkoch alebo genóme ovocných mušiek – zatiaľ čo iné sú rozmarnejšie. Napríklad Wolfram Alpha vie veľa o plemenách mačiek.

Pokiaľ zostanete v oblasti vedomostí Wolframa Alpha, môže vykonať užitočnú analýzu údajov. Napríklad Wolfram Alpha môže porovnajte skokové vzdialenosti levov a tigrov. (Ukázalo sa, že sú porovnateľné, ale zdá sa, že tigre vo všeobecnosti vytláčajú levy.) Ale ak chcete vedieť ako ďaleko môžu klokany skočiť? Ľutujeme, nie sú k dispozícii žiadne údaje.

Ale neúspešný dotaz na klokaní chmeľ ukazuje trochu o tom, ako sa Wolfram Alpha snaží veci pochopiť. Predtým, ako motor odpovie, naznačuje, že predpokladá, že „klokan“ znamená „klokany, klokanky“, ale používatelia môžu prejsť na klokanku antilopínsku, klokanku červenú alebo klokanku východnú. klokan. Podobne Wolfram Alpha interpretoval „ako ďaleko môže klokan skočiť“ ako dopyt na „vzdialenosť na skok“, čo je špecifický údaj, ktorý môže mať o zvieratách. Ukázalo sa, že Wolfram Alpha momentálne nemá tieto údaje, ale jeho interpretácia dotazu je veľmi dôležitá.

Nie je to Siri?

Ak tieto otázky znejú ako veci, ktoré ľudia hádžu na Siri v iPhone 4S (ale nezabudnite, nie nový iPad predstavený tento týždeň), máte úplnú pravdu. Je však dôležité mať na pamäti, že Siri sa zaoberá iba jednou polovicou rovnice: porozumením dotazom používateľa. Siri tak preberá veľmi náročný výpočtový problém presného rozpoznávania reči používateľa cez mikrofón v reálnom čase. Nie je to malý výkon, ale nie je to sémantický vyhľadávací nástroj. V zákulisí Siri odovzdáva otázky Wolframovi Alpha, Yelpovi a (ak všetko ostatné zlyhá) používateľovi preferovanému webovému vyhľadávaču. Ak sa Siri spýtate: „Stala sa konferencia v Jalte počas kórejskej vojny“, môže presne rozpoznať, čo pýtate sa – mne to urobilo – ale ponúkne vám to doslovné vyhľadávanie na webe zo starej školy vy.

Čo očakávať

Záujem Googlu o sémantické vyhľadávanie je pravdepodobne dvojnásobný. Po prvé, pravdepodobne chce použiť túto technológiu ako ďalší bod vychvaľovania, ktorý ju stavia pred konkurenciu – väčšinou Microsoft Bing. Bing má už dlho a partnerstvo s Wolfram Alpha navrhnuté tak, aby pomohli vyhľadávaču poskytovať priame odpovede, keď je to možné. Bing ani Google však zatiaľ neprenikli k spotrebiteľom s priamymi výsledkami vyhľadávania. Koniec koncov, väčšina používateľov každodenného vyhľadávania pravdepodobne nevie, že (obmedzené) možnosti už existujú. Dokonca aj pre používateľov, ktorí o nich vedia, sa zdá, že dokonca aj Google si myslí, že táto technológia je použiteľná len na 10 až 20 percent vyhľadávaní. To je veľa vyhľadávaní, ale znamená to, že väčšina (80 až 90 percent) vyhľadávaní ho nepoužije.

Keďže však spotrebitelia rýchlo opúšťajú notebooky, stolné počítače a tradičné počítačové platformy, schopnosť poskytovať krátke, ľahko pochopiteľné odpovede na komplikované vyhľadávacie dopyty by sa mohla stať veľmi dôležité v mobilnom svete. Pre používateľov, ktorí šoférujú alebo z iných dôvodov nie sú ochotní hrať sa s klávesnicami alebo klávesnicami na obrazovke, možnosť odpovedať na hovorené otázky, ako napríklad „Is Golden Gate Park väčší ako Central Park?" alebo "Ktorou cestou do Malcolmovho bytu?" s jednoduchými odpoveďami ako „Áno“ a „Na ďalšej odbočke doľava“ môžu byť pre mobilné zariadenia neoceniteľné rozdiely platformy.

To je takmer určite miesto, kde spoločnosti ako Apple a Google chcú túto technológiu využiť.

* Tombaugh prvýkrát identifikoval Pluto ako pohybujúci sa objekt 18. februára 1930, ale Pluto bolo nevedomky spozorované pri niekoľkých predchádzajúcich príležitostiach. Najstaršia v súčasnosti známa bola z roku 1909. Vidíš? Vedomosti sú šmykľavé.

Foto prostredníctvom: Annette Shaff / Shutterstock.com

Odporúčania redaktorov

Celý internet teraz patrí AI spoločnosti Google
Nemusíte používať Bing – Vyhľadávanie Google má teraz aj AI
Ups – Google Bard AI demo je vyvrátené prvým výsledkom vyhľadávania
Tu je návod, ako Vyhľadávanie Google plánuje riešiť clickbait
Ako odstrániť osobné údaje z vyhľadávania Google

Inteligentnejšie vyhľadávanie: Prečo vám „sémantické vyhľadávanie“ umožní konečne vám porozumieť

Čo je sémantické vyhľadávanie?

Google to už nerobí?

Ako je sémantické vyhľadávanie iné

Nie je to Wolfram Alpha?

Nie je to Siri?

Čo očakávať

Odporúčania redaktorov

Kategórie

Nedávne

NASA používa novú techniku na nájdenie stratených satelitov a vesmírneho odpadu

Neobmedzený koncept Lexus LF-1

Prasknuté snímače obrazovky od Apple by mohli viesť k odolnejším telefónom iPhone

Inteligentnejšie vyhľadávanie: Prečo vám „sémantické vyhľadávanie“ umožní konečne vám porozumieť

Čo je sémantické vyhľadávanie?

Google to už nerobí?

Ako je sémantické vyhľadávanie iné

Nie je to Wolfram Alpha?

Nie je to Siri?

Čo očakávať

Odporúčania redaktorov

Kategórie

Nedávne

NASA používa novú techniku ​​na nájdenie stratených satelitov a vesmírneho odpadu

Neobmedzený koncept Lexus LF-1

Prasknuté snímače obrazovky od Apple by mohli viesť k odolnejším telefónom iPhone

NASA používa novú techniku na nájdenie stratených satelitov a vesmírneho odpadu