Pametnejše iskanje: Zakaj bo "semantično iskanje" Googlu končno omogočilo, da vas razume

Zakaj-semantično-iskanje-bo-končno-dovolilo-Googlu-da vas bo razumel

Amir Efrati iz Wall Street Journala je dvignil obrvi s člankom (potrebna je naročnina), ki pravi, da si Google prizadeva ostati pred svojimi tekmeci pri iskanju po internetu z uvedbo več tako imenovane tehnologije »semantičnega iskanja«. Zamisel je, da Googlovo iskalno polje ne bi bilo samo mesto, kamor bi uporabniki vnašali ključne besede ali posebej oblikovane poizvedbe, ampak polje, ki bi imelo dejansko razumevanje številnih izrazov, imen, glagolov in referenc, ki jih ljudje vnašajo – in bi to znanje lahko uporabili pri iskanjih uporabnikov. V teoriji bi semantično iskanje moralo vrniti rezultate, ki odražajo iskalčev namen, in v nekateri primeri izboljšajo Googlovo zmožnost, da takoj odgovori, ne da bi uporabnike napotil k drugemu mesto.

Toda počakajte - je to kaj novega? Ne uporablja Googla že postavite nekaj odgovorov takoj spredaj? In kako bi lahko semantično iskanje potencialno pomagalo Googlu ohraniti vodilno vlogo v poslu internetnega iskanja?

Priporočeni videoposnetki

Kaj je semantično iskanje?

Na kratko, semantika ima veliko več skupnega z Watsonom, IBM-ovo superračunalniško aplikacijo, ki ročno premagali ljudi pri Nevarnost! kot v pogovornem oknu Najdi v programu Microsoft Word.

Ohlapno povedano se svet računalniškega iskanja deli na dve vrsti:

Dobesedno iskanje (včasih imenovano navigacijsko iskanje) išče natančna ujemanja za nekatere ali vse vnesene izraze in vrne ujemajoče se elemente – bodisi datoteke, spletne strani, izdelke ali kakšno drugo diskretno enoto informacij. Dobesedno iskanje je mogoče nadgraditi s stvarmi, kot so ujemanje debel, konjugati in asociacije, ki razširijo ali omejijo iskanje na uporabne načine – tako če iščete »fly«, lahko zadenete tudi »flight«. Dobesedno iskanje je tisto, kar danes najbolj poznamo, delno zato, ker ga računalniki najlažje izvajati.

Semantično iskanje se od dobesednega iskanja razlikuje na dva načina. Prvič, semantično iskanje poskuša razumeti kaj uporabnik vpraša v poizvedbi, tako da to postavi v kontekst z analizo izrazov in jezika poizvedbe. Ta analiza se izvaja glede na tesno vnaprej sestavljene zbirke znanja, ki lahko vključujejo znanje o uporabniku. Drugič, namesto vrnitve nabora datotek, spletnih strani, izdelkov ali drugih elementov poskuša semantično iskanje zagotoviti neposredno odgovor na vprašanje. Če semantični iskalnik vprašate "Kdaj je bil odkrit Pluton?" lahko odgovori: "Pluton je 18. februarja 1930 odkril Clyde Tombaugh^*,« kjer bi dobesedni iskalnik najverjetneje vrnil povezave do spletnih strani, ki vsebujejo besedi »odkrito« in »Pluton«.

Izkazalo se je, da sta dobesedno iskanje in semantično iskanje dobra za različne naloge. Dobesedno iskanje je odlično, ko uporabnik išče določeno stvar, naj bo to datoteka, spletna stran, dokument, izdelek, album ali drug ločen element. Po drugi strani pa se semantično iskanje izkaže za uporabnejše, ko uporabnik išče določeno informacije — kot je datum, številka, čas, kraj ali ime.

Delno zaradi širjenja tehnologije dobesednega iskanja v vsem, od urejevalnikov besedil do spletnih iskalnikov, smo najbolj vajeni dobesednega iskanja. Večina od nas že ve, kako manipulirati z dobesednim iskanjem, da se že v prvem poskusu približamo želenemu. Glede na Efratijev članek na WSJ pa Google meni, da bi tehnologija semantičnega iskanja lahko zagotovila neposredne odgovore na med 10 in 20 odstotkov spletnih iskanj. Glede na Comscore, Google opravili 11,7 milijarde iskanj samo v ZDA februarja 2012. Z zmožnostmi semantičnega iskanja bi lahko na več kot 2,3 milijarde teh iskanj odgovorili neposredno, namesto da bi ljudi pošiljali na druge spletne strani in mesta.

Ali Google tega že ne počne?

Če ste sploh uporabljali Googlovo spletno iskanje, verjetno mislite: "Ampak počakajte, Google to že počne!" Vnesite "trenutni čas v Tokiu« ali »kako visok je Mount Everest” in Google bo najboljšo ugibanje glede natančnega odgovora postavil na vrh rezultatov iskanja. Google celo navaja vire za svoj odgovor in nekateri od teh virov bodo v klasičnih "desetih modrih povezavah" pod odgovorom. (Mimogrede, Google poroča, da je Mount Everest visok 8848 metrov.)

Po pravici povedano je to le ena od številnih uporabnih zmožnosti, ki jih je Google vgradil v svojo iskalno vrstico: izvajal bo (sofisticirano) matematiko, izvajal pretvorbe enot in valut ter izvlečete stvari, kot so informacije o letih in ure lokalnih filmskih predstav – ni vam treba vnašati zapletenih poizvedbo. Lahko se dotakne tudi nekaterih javnih virov podatkov. Če na primer vnesete »prebivalstvo Mehike« v iskalno polje bodo prikazani podatki Svetovne banke. Odziv je danes 113.423.047 ljudi.

Vendar pa Googlova prizadevanja, da bi zagotovil neposredne odgovore na nekatere vrste vprašanj, precej hitro propadejo, saj so te funkcije v veliki meri izvajajo kot posebni primeri Googlovega dobesednega iskalnika, ne pa kot semantično iskanje, ki poskuša razumeti, kaj uporabnik želi. Vnesite "koliko je visok mt everest« (upoštevajte črkovanje) v iskalno polje, Google pa niti ne poskuša ponuditi odgovora: Iskanje Google ne ve, da »mt« pomeni »mount«. Podobno, če je Google ugotovil, da vaša trenutna lokacija ni v Mehiki (in če Google nima vaše lokacije, bo uganil po vašem naslovu IP in, ne, ne morete se odjaviti) iskati "prebivalstvo mehiškega mesta” lahko vrne nekaj nepričakovanih rezultatov. V Mexico Cityju zagotovo živi več kot 10.852 ljudi, kajne?

Kako je semantično iskanje drugačno

Semantično iskanje poskuša odpraviti tovrstne napake na dva načina. Prvič, poskuša natančneje razumeti namen za določeno poizvedbo. Drugič, poskuša primerjati elemente te poizvedbe z vnaprej zbranimi zbirkami poglobljenega znanja, da ugotovi, ali lahko izdela smiseln odgovor.

Ko pošljete poizvedbo dobesednemu iskalniku, kot je Google, se ne odpre v trenutku vsako spletno mesto na internetu, si jih ogleda in poroča o seznamu spletnih mest, ki se po njegovem mnenju najbolj ujemajo z vašim pogoji. Namesto tega ima Google programsko opremo, ki nenehno brska po internetu za novimi spletnimi mesti in spletnimi stranmi, ki ustvarjajo kazalo z vseh strani, ki jih najdejo. Čeprav gre za veliko pretirano poenostavitev, ko uporabniki vnesejo iskalno poizvedbo, kot je »konferenca v Jalti,« Google pogleda ta indeks za strani, ki se ujemajo z izrazoma »Jalta« in »konferenca«, pa tudi za strani, ki imata oba izraza v bližini drug drugemu (recimo v 8 ali 10 besedah). Google nato zbere URL-je za te strani, jih razvrsti po svojem notranjem PageRank-u (Googlovo merilo relativnih prednosti strani, ki v bistvu šteje povezave do strani kot pozitivne glasove) in vrne seznam.

Upravljanje podatkov in inženiring, ki stojita za takšnim postopkom, sta zastrašujoča in mamutska ter Google si zasluži pohvalo, ker mu je uspelo – še posebej, ker Google to pogosto zmore v delčku drugo. Podobne stvari se dogajajo v zakulisju Microsoftovega Binga.

Semantično iskanje bi se iste poizvedbe lotilo drugače. Namesto da bi primerjal poizvedbo z vnaprej prevedenim (in nenehno posodobljenim) indeksom spletnih strani, za katere ve, semantični iskalnik primerja poizvedbo z ločenimi, vnaprej pripravljenimi sklopov znanja ima na voljo. Pomislite na sklope znanja, kot so zbirke podatkov: v srcu so polni podatkov, dejstev in številk o določeni temi. Obstajajo različne vrste sklopov znanja. Par zanimivih je ontologije (ki predstavljajo formalizirane informacije, s katerimi je mogoče manipulirati s pravili, funkcijami in omejitvami) in folksonomije, ki običajno predstavljajo skupno definirane sklope znanja: Primeri bi bili hashtaging in socialni zaznamki.

Kompleti znanja so več kot le zabojniki za shranjevanje. Predstavljajo tudi razmerja med elementi v bazi znanja in omogočajo smiselno uporabo informacij večkraten sklopov znanja. Poleg tega so razmerja pogosto izražena tako, da je mogoče narediti natančne logične sklepe brez shraniti vse možne izvedene podatke. To je nekoliko antropomorfiziranje, vendar semantični iskalniki lahko izvedejo osnovno sklepanje in sklepanje na podlagi podatkov, ki jih poznajo. Kot del tega procesa so semantični iskalniki pogosto oblikovani tako, da ocenijo stopnjo zaupanja, ki jo imajo v svoje izpeljave. Če mislijo, da ne vedo, o čem govorijo, bodo morda ostali nemi. Če so precej prepričani, bodo izpljunili odgovor.

Torej, če v semantični iskalnik vnesete »konferenca v Jalti«, bi iskal v svojih naborih znanja in verjetno izpljunil nekaj osnovnih dejstev in številk, morda "Od 4. do 11. februarja 1945." Morda nakazuje, da so se ga udeležili Stalin, Churchill in Franklin Roosevelt, pomembno pa je bilo tudi v zadnjih mesecih svetovne vojne. II. Precej osnovne stvari.

Če vprašate dobesedni iskalnik "Ali se je konferenca v Jalti zgodila med korejsko vojno?« boste verjetno dobili le seznam desetih modrih povezav. Morda bi kdo imel odgovor.

Vendar, če vprašate semantični iskalnik, bi morali dobiti odgovor z eno besedo: "Ne."

to tam postane semantično iskanje neverjetno zanimivo.

Ali ni to Wolfram Alpha?

Če te poizvedbe zvenijo kot stvari, ki jih ljudje mečejo v Wolfram Alpha iskalnik, imaš čisto prav. Wolfram Alpha skuša biti namesto indeksa spletnih strani mehanizem znanja. Wolfram Alpha ne gre za iskanje stvari (na primer spletne strani), temveč za povpraševanje po odgovoru. Wolfram Alpha se pri doseganju rezultatov zanaša na vnaprej pripravljene baze znanja, podjetje pa redno dodaja in posodablja nove baze znanja. Nekateri so visoko specializirani tehnični podatki - kot so informacije o kemičnih elementih ali genomu vinske mušice - medtem ko so drugi bolj muhasti. Wolfram Alpha na primer ve precej o pasmah mačk.

Dokler ostanete znotraj področja znanja Wolfram Alpha, lahko izvede koristno analizo podatkov. Na primer, Wolfram Alpha lahko primerjaj skakalne razdalje levov in tigrov. (Izkazalo se je, da so primerljivi, vendar se zdi, da tigri na splošno premagajo leve.) Toda če želite vedeti kako daleč lahko kenguruji skočijo? Ups, žal ni na voljo podatkov.

Toda neuspešna poizvedba o kengurujskem hmelju kaže nekaj o tem, kako Wolfram Alpha poskuša razumeti stvari. Preden zagotovi odgovor, motor nakaže, da predvideva, da "kenguru" pomeni "kenguruji, wallabies,« vendar lahko uporabniki preklopijo na antilopinskega kenguruja, rdečega kenguruja ali vzhodno sivega kenguru. Podobno je Wolfram Alpha interpretiral »kako daleč lahko skoči kenguru« kot poizvedbo za »razdaljo skoka«, specifično podatkovno točko, ki bi jo lahko imel o živalih. Izkazalo se je, da Wolfram Alpha trenutno nima teh podatkov, vendar je njegova interpretacija poizvedbe zelo pomembna.

Ali ni to Siri?

Če te poizvedbe zvenijo kot stvari, ki jih ljudje vržejo Siri v iPhone 4S (vendar ne pozabite, ne novi iPad, ki bo predstavljen ta teden), imate popolnoma prav. Vendar si je pomembno zapomniti, da Siri obravnava samo polovico enačbe: razumevanje uporabnikovih poizvedb. Pri tem Siri prevzame zelo težko računalniško težavo natančnega prepoznavanja uporabnikovega govora prek mikrofona v realnem času. To ni majhen podvig, vendar ni semantični iskalnik. V zakulisju Siri posreduje poizvedbe Wolfram Alpha, Yelp in (če vse drugo odpove) uporabnikovemu priljubljenemu spletnemu iskalniku. Če vprašate Siri »Ali se je konferenca v Jalti zgodila med korejsko vojno,« bo morda natančno prepoznala, kaj sprašujete – meni je uspelo – vendar bo samo ponudil starošolsko dobesedno spletno iskanje ti.

Kaj pričakovati

Googlovo zanimanje za semantično iskanje je verjetno dvojno. Prvič, verjetno želi uporabiti tehnologijo kot še eno hvalnico, ki jo postavlja pred svojo konkurenco - večinoma Microsoft Bing. Bing že dolgo ima partnerstvo z Wolfram Alpha zasnovan tako, da pomaga iskalniku zagotoviti neposredne odgovore, kadar je to mogoče. Vendar do zdaj niti Bing niti Google nista dosegla večjega prodora pri potrošnikih z neposrednimi rezultati iskanja. Navsezadnje večina vsakodnevnih uporabnikov iskanja verjetno ne ve, da (omejene) zmogljivosti že obstajajo. Tudi za uporabnike, ki se jih zavedajo, se zdi, da celo Google meni, da je tehnologija uporabna le za 10 do 20 odstotkov iskanj. To je veliko iskanj, vendar pomeni, da ga večina (80 do 90 odstotkov) iskanj ne bo uporabljala.

Ker pa potrošniki hitro opuščajo prenosnike, namizne računalnike in tradicionalne računalniške platforme, lahko zmožnost zagotavljanja kratkih, lahko razumljivih odgovorov na zapletene iskalne poizvedbe postane zelo pomembna v mobilnem svetu. Za uporabnike, ki vozijo ali kako drugače niso pripravljeni igrati s tipkovnicami ali zaslonskimi tipkovnicami, je možnost odgovarjanja na izgovorjene poizvedbe, kot je »Je Golden Gate Park večji od Central Parka?" ali "Katera pot do Malcolmovega stanovanja?" s preprostimi odgovori, kot sta »Da« in »Zavijte na naslednjo levo«, so lahko neprecenljive razlike med mobilnimi napravami platforme.

Podjetja, kot sta Apple in Google, skoraj zagotovo želijo uporabiti tehnologijo tam.

* Tombaugh je Plutona prvič identificiral kot premikajoče se telo 18. februarja 1930, vendar je bil Pluton nevede opažen ob več prejšnjih priložnostih. Najzgodnejši trenutno znan je bil leta 1909. vidiš? Znanje je spolzko.

Fotografija prek: Annette Shaff / Shutterstock.com

Priporočila urednikov

Ves internet zdaj pripada Googlovi AI
Ni vam treba uporabljati storitve Bing – Google Search ima zdaj tudi AI
Ups – Google Bard AI demo je ovržen s prvim rezultatom iskanja
Iskanje Google se namerava spoprijeti z vabo za klike
Kako odstraniti osebne podatke iz iskanja Google

Pametnejše iskanje: Zakaj bo "semantično iskanje" Googlu končno omogočilo, da vas razume

Kaj je semantično iskanje?

Ali Google tega že ne počne?

Kako je semantično iskanje drugačno

Ali ni to Wolfram Alpha?

Ali ni to Siri?

Kaj pričakovati

Priporočila urednikov

Kategorije

Nedavno

Xitel ponuja stereo priključno postajo za iPod nano

Sony Ericsson je predstavil nove slušalke Bluetooth

EA odloži Botra do leta 2006