Pametnije pretraživanje: Zašto će ‘semantičko pretraživanje’ konačno dopustiti Googleu da vas razumije

Zašto-semantičko-pretraživanje-konačno-dopušta-Googleu-da-vas razumije

Amir Efrati iz Wall Street Journala podigao je obrve člankom (potrebna pretplata) rekavši da Google radi na tome da ostane ispred svojih rivala u pretraživanju interneta uvođenjem više takozvane tehnologije "semantičkog pretraživanja". Ideja je da Googleov okvir za pretraživanje ne bi bio samo mjesto gdje korisnici mogu upisivati ključne riječi ili posebno oblikovane upite, već okvir koji ima stvarnu razumijevanje mnogih izraza, imena, glagola i referenci koje ljudi upisuju - i mogli bi to znanje primijeniti na korisnička pretraživanja. U teoriji, semantičko pretraživanje trebalo bi moći vratiti rezultate koji odražavaju namjeru pretraživača, au neki slučajevi poboljšavaju Googleovu sposobnost da odmah odgovori bez upućivanja korisnika na drugu osobu mjesto.

Ali čekajte - je li ovo nešto novo? Ne Google već staviti neke odgovore odmah naprijed? I kako bi semantičko pretraživanje potencijalno moglo pomoći Googleu da zadrži vodeću poziciju u poslovanju pretraživanja interneta?

Preporučeni videozapisi

Što je semantičko pretraživanje?

Ukratko, semantika ima mnogo više zajedničkog s Watsonom, IBM-ovom superračunalnom aplikacijom koja spretno poraženi ljudi na Opasnost! nego što je to slučaj s dijaloškim okvirom Traži u programu Microsoft Word.

Lagano govoreći, svijet kompjuteriziranog pretraživanja dijeli se na dvije vrste:

Doslovna pretraga (ponekad se naziva navigacijska pretraga) traži točna podudaranja za neke ili sve unesene pojmove i vraća podudarne stavke — bilo da su to datoteke, web stranice, proizvodi ili neka druga diskretna jedinica informacija. Doslovno pretraživanje može se proširiti stvarima kao što su podudaranje korijena, konjugati i asocijacije koje proširuju ili ograničavaju pretraživanje na korisne načine - tako traženje "letjeti" također može pogoditi "let". Doslovno pretraživanje ono je što nam je danas najpoznatije, dijelom zato što je računalima najlakše izvoditi.

Semantičko pretraživanje razlikuje se od doslovnog pretraživanja na dva načina. Prvo, semantičko pretraživanje pokušava razumjeti što korisnik traži u upitu stavljajući ga u kontekst kroz analizu uvjeta i jezika upita. Ova analiza se provodi na temelju čvrsto unaprijed sastavljenih skupova znanja, koji potencijalno uključuju znanje o korisniku. Drugo, umjesto vraćanja skupa datoteka, web stranica, proizvoda ili drugih stavki, semantičko pretraživanje pokušava pružiti direktno odgovor na pitanje. Ako pitate semantičku tražilicu "Kada je otkriven Pluton?" mogao bi odgovoriti "Pluton je 18. veljače 1930. otkrio Clyde Tombaugh^*”, gdje bi doslovna tražilica najvjerojatnije vratila poveznice na web stranice koje sadrže riječi “otkriven” i “Pluton”.

Ispostavilo se da su doslovno pretraživanje i semantičko pretraživanje dobri za različite zadatke. Doslovno pretraživanje je sjajno kada korisnik traži određeno stvar, bilo da je to datoteka, web stranica, dokument, proizvod, album ili druga zasebna stavka. Semantičko pretraživanje, s druge strane, pokazuje se korisnijim kada korisnik traži specifično informacija — poput datuma, broja, vremena, mjesta ili imena.

Djelomično zahvaljujući širenju tehnologije doslovnog pretraživanja u svemu, od programa za obradu teksta do web tražilica, najviše smo navikli na doslovno pretraživanje. Većina nas već zna kako manipulirati doslovnom pretragom da bismo se približili onome što želimo iz prvog pokušaja. Međutim, prema Efratijevom članku na WSJ-u, Google vjeruje da bi tehnologija semantičkog pretraživanja mogla pružiti izravne odgovore na između 10 i 20 posto web pretraživanja. Prema Comscoreu, Google obradio 11,7 milijardi pretraživanja samo u Sjedinjenim Državama u veljači 2012. S mogućnostima semantičkog pretraživanja moglo se izravno odgovoriti na više od 2,3 milijarde tih pretraživanja, umjesto da se ljudi šalju na druge web stranice i mjesta.

Zar Google to već ne radi?

Ako ste uopće koristili Google pretraživanje weba, vjerojatno mislite "Ali čekajte, Google to već radi!" Upišite "trenutno vrijeme u Tokiju" ili "koliko je visok Mount Everest” i Google će staviti svoju najbolju pretpostavku o preciznom odgovoru na vrh svojih rezultata pretraživanja. Google čak navodi izvore za svoj odgovor, a neki od tih izvora bit će u klasičnih “deset plavih poveznica” ispod odgovora. (Uzgred, Google izvještava da je Mount Everest visok 8848 metara.)

Da budemo pošteni, ovo je samo jedna od mnogih korisnih mogućnosti koje je Google ugradio u svoju traku za pretraživanje: radit će (sofisticiranu) matematiku, izvoditi pretvorbe jedinica i valuta te povucite stvari kao što su informacije o letovima i vrijeme prikazivanja lokalnih filmova — nema potrebe za upisivanjem kompliciranog upit. Također može pristupiti nekim javnim izvorima podataka. Na primjer, upisivanjem "stanovništvo Meksika” u okvir za pretraživanje prikazat će se podaci Svjetske banke. Odaziv je danas 113.423.047 ljudi.

Međutim, Googleovi napori da pruži izravne odgovore na neke vrste pitanja padaju prilično brzo jer su te značajke u velikoj mjeri implementirano kao posebni slučajevi Googleovoj doslovnoj tražilici, a ne kao semantičko pretraživanje koje pokušava razumjeti što korisnik želi. Upišite "koliko je visok mt everest” (obratite pažnju na pravopis) u okvir za pretraživanje, a Google čak i ne pokušava dati odgovor: Google pretraživanje ne zna da “mt” znači “mount”. Slično tome, ako je Google utvrdio da vaša trenutačna lokacija nije u Meksiku (i, ako Google nema vašu lokaciju, pogodit će prema vašoj IP adresi i, ne, ne možete se isključiti) u potrazi za "stanovništvo Mexico Cityja” može dati neke neočekivane rezultate. Sigurno je da Mexico City dom za više od 10.852 ljudi, zar ne?

Kako se semantičko pretraživanje razlikuje

Semantičko pretraživanje pokušava eliminirati ove vrste gafova na dva načina. Prvo, pokušava točnije razumjeti namjera iza određenog upita. Drugo, pokušava uskladiti elemente tog upita s unaprijed sastavljenim skupovima dubokog znanja kako bi vidio može li razraditi smislen odgovor.

Kada pošaljete upit doslovnoj tražilici kao što je Google, on se ne otvara odmah svaku stranicu na Internetu, pregledajte ih i prijavite popis stranica za koje smatra da najbolje odgovaraju vašoj Pojmovi. Umjesto toga, Google ima softverske programe koji neprestano pretražuju Internet u potrazi za novim mjestima i novim web stranicama, koji stvaraju indeks sa svih stranica koje pronađu. Iako je ovo veliko pretjerano pojednostavljenje, kada korisnici upisuju upit za pretraživanje poput "Konferencija u Jalti,” Google gleda taj indeks za stranice koje odgovaraju i “Jalta” i “konferencija”, kao i stranice koje imaju oba pojma blizu jedna drugoj (recimo, unutar 8 ili 10 riječi). Google zatim prikuplja URL-ove za te stranice, razvrstava prema internom PageRank-u (Googleova mjera relativnih prednosti stranice koja u osnovi broji veze na nju kao pozitivne glasove) i vraća popis.

Upravljanje podacima i inženjering koji stoje iza takvog procesa su i zastrašujući i ogromni, a Google zaslužuje pohvale jer je to izveo — pogotovo jer Google to često može učiniti u djeliću drugi. Slične se stvari događaju iza kulisa Microsoftovog Binga.

Semantičko pretraživanje bi istom upitu pristupilo drugačije. Umjesto da uspoređuje upit s unaprijed kompajliranim (i stalno ažuriranim) indeksom web stranica za koje zna, semantička tražilica uspoređuje upit s diskretnim, unaprijed usklađenim skupovi znanja ima na raspolaganju. Zamislite skupove znanja poput baza podataka: u srcu su puni podataka, činjenica i brojki o određenoj temi. Postoje različite vrste skupova znanja. Nekoliko zanimljivih je ontologije (koje predstavljaju formalizirane informacije kojima se može manipulirati s pravilima, funkcijama i ograničenjima) i folksonomije, koji obično predstavljaju zajednički definirane skupove znanja: Primjeri bi bili hashtagovi i društvene oznake.

Skupovi znanja više su od spremnika za pohranu. Oni također predstavljaju odnose između stavki u bazi znanja i omogućuju smislenu upotrebu informacija višestruki skupovi znanja. Nadalje, odnosi se često izražavaju na takav način da se mogu napraviti točni logični zaključci bez moraju pohraniti sve moguće izvedene podatke. Ovo je malo antropomorfiziranje, ali semantičke tražilice mogu izvoditi osnovno razmišljanje i dedukciju na temelju podataka za koje znaju. Kao dio tog procesa, semantičke tražilice često su dizajnirane za procjenu razine povjerenja koje imaju u svoje derivacije. Ako misle da ne znaju o čemu govore, mogli bi ostati nijemi. Ako su prilično sigurni, izbacit će odgovor.

Dakle, ako unesete "konferencija na Jalti" u semantičku tražilicu, ona bi pogledala svoje skupove znanja i vjerojatno izbacila neke osnovne činjenice i brojke, možda “Od 4. do 11. veljače 1945.” To bi moglo značiti da su prisustvovali Staljin, Churchill i Franklin Roosevelt, a bilo je važno čak iu posljednjim mjesecima svjetskog rata II. Prilično osnovne stvari.

Ako pitate doslovnu tražilicu "Je li se konferencija u Jalti dogodila tijekom Korejskog rata?” vjerojatno ćete dobiti samo popis od deset plavih poveznica. Netko bi mogao imati odgovor.

Međutim, ako pitate semantičku tražilicu, trebali biste dobiti odgovor od jedne riječi: "Ne."

Da mjesto gdje semantičko pretraživanje postaje nevjerojatno zanimljivo.

Nije li ovo Wolfram Alpha?

Ako ti upiti zvuče kao stvari koje ljudi bacaju na Wolfram Alpha tražilicu, potpuno si u pravu. Umjesto da bude indeks web stranica, Wolfram Alpha pokušava biti motor znanja. Wolfram Alpha ne traži nešto (kao što je web stranica), već traži odgovor. Wolfram Alpha oslanja se na unaprijed usklađene baze znanja za postizanje svojih rezultata, a tvrtka redovito dodaje i ažurira nove baze znanja. Neki su visoko specijalizirani tehnički podaci - poput informacija o kemijskim elementima ili genomu vinske mušice - dok su drugi hirovitiji. Na primjer, Wolfram Alpha zna dosta o pasminama mačaka.

Sve dok ostajete unutar područja znanja Wolfram Alpha, on može izvršiti korisnu analizu podataka. Na primjer, Wolfram Alpha može usporediti daljinu skokova lavova i tigrova. (Ispostavilo se da su usporedivi, ali izgleda da su tigrovi uglavnom bolji od lavova.) Ali ako želite znati koliko daleko klokani mogu skočiti? Ups, oprostite: nema dostupnih podataka.

Ali neuspjeli upit o klokanovom hmelju pokazuje ponešto o tome kako Wolfram Alpha pokušava razumjeti stvari. Prije nego što pruži odgovor, motor pokazuje da pretpostavlja da "klokan" znači "klokani, wallabies", ali korisnici se mogu prebaciti na antilopijskog klokana, crvenog klokana ili istočnog sivog klokan. Slično, Wolfram Alpha protumačio je "koliko daleko klokan može skočiti" kao upit za "daljinu skoka", specifičnu podatkovnu točku koju bi mogao imati o životinjama. Ispostavilo se da Wolfram Alpha trenutno nema te podatke, ali je njegovo tumačenje upita vrlo važno.

Nije li ovo Siri?

Ako ovi upiti zvuče kao stvari koje ljudi bacaju na Siri u iPhoneu 4S (ali zapamtite, ne novi iPad koji debitira ovaj tjedan), potpuno ste u pravu. Međutim, važno je upamtiti da se Siri bavi samo jednom polovicom jednadžbe: razumijevanjem korisničkih upita. Čineći to, Siri preuzima vrlo težak računalni problem točnog prepoznavanja govora korisnika preko mikrofona u stvarnom vremenu. To nije mali podvig, ali nije semantička tražilica. Iza kulisa, Siri prosljeđuje upite Wolfram Alpha, Yelpu i (ako ništa drugo ne uspije) željenoj web tražilici korisnika. Ako pitate Siri "Je li se konferencija u Jalti dogodila tijekom Korejskog rata", možda će točno prepoznati što pitate - meni je uspjelo - ali samo će ponuditi staru školu doslovnog pretraživanja weba za vas.

Što očekivati

Googleov interes za semantičko pretraživanje vjerojatno je dvostruk. Prvo, vjerojatno želi upotrijebiti tehnologiju kao još jedno mjesto za hvalisanje koje ga stavlja ispred konkurencije - uglavnom Microsoft Binga. Bing već dugo ima partnerstvo s Wolfram Alpha osmišljen kako bi tražilici pružio izravne odgovore kada je to moguće. Međutim, do sada ni Bing ni Google nisu napravili veći prodor kod potrošača s izravnim rezultatima pretraživanja. Uostalom, većina svakodnevnih korisnika pretraživanja vjerojatno ne zna da (ograničene) mogućnosti već postoje. Čak i za korisnike koji su ih svjesni, čini se da čak i Google misli da je tehnologija primjenjiva samo na 10 do 20 posto pretraživanja. To je puno pretraživanja, ali znači da ga većina (80 do 90 posto) pretraživanja neće koristiti.

Međutim, kako potrošači brzo napuštaju prijenosna računala, stolna računala i tradicionalne računalne platforme, mogućnost pružanja kratkih, lako razumljivih odgovora na komplicirane upite pretraživanja mogla bi postati vrlo važno u mobilnom svijetu. Za korisnike koji voze ili iz drugih razloga ne žele petljati s tipkovnicama ili zaslonskim tipkovnicama, mogućnost odgovaranja na izgovorene upite poput "Je li Golden Gate Park veći od Central Parka?" ili "Koji put do Malcolmovog stana?" s jednostavnim odgovorima kao što su "Da" i "Skreni na sljedeću lijevo" mogli bi biti neprocjenjivi razlikovni faktori za mobilne uređaje platforme.

To je gotovo sigurno mjesto gdje tvrtke poput Applea i Googlea žele preuzeti tehnologiju.

* Tombaugh je prvi put identificirao Pluton kao pokretni objekt 18. veljače 1930., ali Pluton je nenamjerno uočen u nekoliko ranijih prilika. Najraniji za sada poznat bio je 1909. Vidjeti? Znanje je sklisko.

Fotografija putem: Annette Shaff / Shutterstock.com

Preporuke urednika

Cijeli internet sada pripada Googleovoj umjetnoj inteligenciji
Ne morate koristiti Bing – Google Search sada također ima AI
Ups — demo Google Bard AI opovrgnut je prvim rezultatom pretraživanja
Evo kako se Google Search planira uhvatiti u koštac s mamcem za klikove
Kako ukloniti osobne podatke iz Google pretraživanja

Pametnije pretraživanje: Zašto će ‘semantičko pretraživanje’ konačno dopustiti Googleu da vas razumije

Što je semantičko pretraživanje?

Zar Google to već ne radi?

Kako se semantičko pretraživanje razlikuje

Nije li ovo Wolfram Alpha?

Nije li ovo Siri?

Što očekivati

Preporuke urednika

Kategorije

Nedavno

Bendis je glavni pisac epskog besplatnog MMO-a Marvel Universe

Sen. Rockefeller štiti potrošače novim računom bez praćenja

Sirijska vlada obustavlja internet u cijeloj zemlji