Älykkäämpi haku: Miksi "semanttinen haku" antaa Googlen vihdoin ymmärtää sinua

Miksi-semanttinen-haku'-antaa-vihdoin-Googlen-ymmärtää sinut

Wall Street Journalin Amir Efrati on nostanut kulmakarvojaan artikkelilla (tilaus vaaditaan) sanoen, että Google pyrkii pysymään kilpailijoidensa edellä Internet-haussa ottamalla käyttöön enemmän niin kutsuttua semanttista hakutekniikkaa. Ajatuksena on, että Googlen hakukenttä ei olisi vain paikka, jossa käyttäjät voivat kirjoittaa avainsanoja tai erityisesti muodostettuja kyselyitä, vaan kenttä, jossa on todellinen ymmärtäminen monista termeistä, nimistä, verbeistä ja viittauksista, joita ihmiset kirjoittavat – ja voisivat soveltaa tätä tietoa käyttäjien hauissa. Teoriassa semanttisen haun pitäisi pystyä palauttamaan tuloksia, jotka heijastavat hakijan tarkoitusta Jotkut tapaukset parantavat Googlen kykyä antaa vastaus heti ohjaamatta käyttäjiä toiseen sivusto.

Mutta odota - onko tämä jotain uutta? Ei Googleta jo laitat vastaukset heti alkuun? Ja kuinka semanttinen haku voisi mahdollisesti auttaa Googlea säilyttämään johtoasemansa Internet-hakuliiketoiminnassa?

Suositellut videot

Mikä on semanttinen haku?

Lyhyesti sanottuna semanttiikalla on paljon enemmän yhteistä Watsonin kanssa, IBM: n supertietokonesovelluksen kanssa, joka helposti voittaneet ihmiset klo Vaara! kuin Microsoft Wordin Etsi-valintaikkunassa.

Löyhästi ottaen tietokoneistetun haun maailma jakautuu kahteen tyyppiin:

Kirjaimellinen haku (joskus kutsutaan navigointihaku) etsii tarkan vastaavuuden joillekin tai kaikille syötetyille termeille ja palauttaa vastaavat kohteet – olivatpa ne tiedostoja, Web-sivuja, tuotteita tai jotain muuta erillistä tietoyksikköä. Kirjaimellista hakua voidaan täydentää sellaisilla asioilla, kuten kantaosat, konjugaatit ja assosiaatiot, jotka laajentavat tai rajoittavat hakua hyödyllisillä tavoilla. haku "lentää" voi myös osua "lento". Kirjaimellinen haku on meille nykyään tutuin, osittain siksi, että se on helpoin tietokoneille suorittaa.

Semanttinen haku eroaa kirjaimellisesta hausta kahdella tavalla. Ensinnäkin semanttinen haku yrittää ymmärtää mitä käyttäjä kysyy kyselyssä asettamalla sen kontekstiin analysoimalla kyselyn termejä ja kieltä. Tämä analyysi tehdään tiukasti valmiiksi koottujen tietopankkien perusteella, jotka mahdollisesti sisältävät tietoa käyttäjästä. Toiseksi, sen sijaan, että se palauttaisi joukon tiedostoja, Web-sivuja, tuotteita tai muita kohteita, semanttinen haku yrittää tarjota suoraan vastaus kysymykseen. Jos kysyt semanttiselta hakukoneelta "Milloin Pluto löydettiin?" se saattaa vastata "Clyde Tombaugh löysi Pluton 18. helmikuuta 1930*”, jossa kirjaimellinen hakukone todennäköisimmin palauttaa linkkejä Web-sivuille, jotka sisältävät sanat "löydetty" ja "Pluto".

Osoittautuu, että kirjaimellinen haku ja semanttinen haku ovat hyviä erilaisiin tehtäviin. Kirjaimellinen haku on hienoa, kun käyttäjä etsii tiettyä asia, olipa kyseessä tiedosto, Web-sivu, asiakirja, tuote, albumi tai muu erillinen kohde. Semanttinen haku sen sijaan osoittautuu hyödyllisemmäksi, kun käyttäjä etsii tiettyä tiedot - kuten päivämäärä, numero, aika, paikka tai nimi.

Osittain kirjaimellisen hakutekniikan yleistymisen ansiosta tekstinkäsittelyohjelmista verkkohakukoneisiin olemme tottuneet eniten kirjaimelliseen hakuun. Useimmat meistä osaavat jo manipuloida kirjaimellista hakua saadakseen meidät lähemmäksi haluamaamme ensi yrittämällä. Efratin WSJ-artikkelin mukaan Google kuitenkin uskoo, että semanttinen hakutekniikka voi tarjota suoria vastauksia 10-20 prosenttiin verkkohauista. Comscoren, Googlen mukaan käsitteli 11,7 miljardia hakua yksin Yhdysvalloissa helmikuussa 2012. Semanttisten hakutoimintojen avulla yli 2,3 miljardiin näistä hauista olisi voitu vastata suoraan sen sijaan, että ihmiset olisivat lähettäneet muille web-sivuille ja sivustoille.

Eikö Google jo tee tätä?

Jos olet käyttänyt Google-verkkohakua, ajattelet todennäköisesti "Mutta odota, Google tekee jo tämän!" Kirjoita "nykyinen aika Tokiossa" tai "kuinka korkea Mount Everest on” ja Google arvaa parhaansa tarkan vastauksen hakutulosten yläreunaan. Google jopa mainitsee lähteitä vastauksessaan, ja jotkin näistä lähteistä ovat perinteisessä "kymmenessä sinisessä linkissä" vastauksen alla. (Google raportoi, että Mount Everest on muuten 8 848 metriä korkea.)

Ollakseni rehellinen, tämä on yksi monista hyödyllisistä ominaisuuksista, jotka Google on rakentanut hakupalkkiinsa: Se tekee (kehittynyttä) matematiikkaa, suorittaa yksikkö- ja valuuttamuunnokset ja hae esimerkiksi lentotiedot ja paikallisten elokuvien esitysajat – ei tarvitse kirjoittaa monimutkaista kysely. Se voi myös hyödyntää joitain julkisia tietolähteitä. Esimerkiksi kirjoittamalla "väestö Meksikossa" hakukenttään näyttää tietoja Maailmanpankista. Vastaus on tänään 113 423 047 henkilöä.

Googlen pyrkimykset tarjota suoria vastauksia tietyntyyppisiin kysymyksiin putoavat kuitenkin melko nopeasti, koska nämä ominaisuudet ovat suurelta osin toteutetaan erikoistapauksina Googlen kirjaimelliseen hakukoneeseen sen sijaan, että se olisi semanttinen haku, joka yrittää ymmärtää, mitä käyttäjä haluaa. Kirjoita "kuinka pitkä on mt everest" (huomaa oikeinkirjoitus) hakukenttään, eikä Google edes yritä antaa vastausta: Google-haku ei tiedä, että "mt" tarkoittaa "mount". Vastaavasti, jos Google on määrittänyt nykyisen sijaintisi muualla kuin Meksikossa (ja jos Googlella ei ole sijaintiasi, se arvaa IP-osoitteesi perusteella ja, ei, et voi kieltäytyä) etsimässä "asukasluku mexico city" saattaa tuottaa odottamattomia tuloksia. Mexico Cityssä asuu varmasti yli 10 852 ihmistä, eikö niin?

Kuinka semanttinen haku eroaa

Semanttinen haku yrittää poistaa tällaiset hämmennykset kahdella tavalla. Ensinnäkin se yrittää ymmärtää tarkemmin tahallisuus tietyn kyselyn takana. Toiseksi se yrittää kohdistaa kyselyn elementtejä ennalta koottuihin syvän tiedon ryhmiin nähdäkseen, voiko se löytää merkityksellisen vastauksen.

Kun lähetät kyselyn kirjaimelliseen hakukoneeseen, kuten Google, se ei heti purkautu jokainen Internetin sivusto, katso ne ja raportoi luettelo sivustoista, jotka sen mielestä parhaiten vastaavat sinua ehdot. Sen sijaan Googlella on ohjelmistoja, jotka etsivät jatkuvasti Internetistä uusia sivustoja ja Web-sivuja, jotka luovat indeksi kaikilta sivuilta, jotka he löytävät. Vaikka tämä on valtava yksinkertaistus, kun käyttäjät kirjoittavat hakulausekkeen, kuten "Jaltan konferenssi”, Google etsii hakemistosta sivuja, jotka vastaavat sekä sanaa "Jalta" että "konferenssi", sekä sivuja, joilla molemmat termit ovat lähellä toisiaan (esim. 8 tai 10 sanan sisällä). Google kerää sitten näiden sivujen URL-osoitteet, lajittelee sisäisen PageRank-arvonsa mukaan (Googlen sivun suhteellisten ansioiden mitta, joka laskee sivulle johtavat linkit periaatteessa positiivisiksi ääniksi) ja palauttaa luettelon.

Tietojen hallinta ja suunnittelu tällaisen prosessin takana on sekä pelottavaa että mammuttia, ja Google ansaitsee kiitosta onnistumisesta – varsinkin kun Google pystyy usein tekemään tämän murto-osassa toinen. Samanlaisia ​​asioita tapahtuu kulissien takana Microsoftin Bingissä.

Semanttinen haku lähestyisi samaa kyselyä eri tavalla. Sen sijaan, että se vertaisi kyselyä ennalta laadittuun (ja jatkuvasti päivittyvään) Web-sivujen hakemistoon, josta se tietää, semanttinen hakukone vertaa kyselyä erilliseen, valmiiksi noudatettuun hakemistoon. tietokokonaisuuksia se on saatavilla. Ajattele tietokokonaisuuksia, kuten tietokantoja: pohjimmiltaan ne ovat täynnä tietoja, faktoja ja lukuja tietystä aiheesta. Tietokokonaisuuksia on erilaisia. Pari mielenkiintoista on ontologioita (jotka edustavat formalisoitua tietoa, jota voidaan käsitellä säännöillä, funktioilla ja rajoituksilla) ja folksonomiat, jotka yleensä edustavat yhteistyössä määriteltyjä tietojoukkoja: Esimerkkejä ovat hashtagging ja sosiaaliset kirjanmerkit.

Google haku

Tietosarjat ovat enemmän kuin vain säilytysastioita. Ne edustavat myös tietokannan kohteiden välisiä suhteita ja mahdollistavat tiedon tarkoituksenmukaisen käytön useita tietokokonaisuuksia. Lisäksi suhteet ilmaistaan ​​usein siten, että niistä voidaan tehdä tarkkoja loogisia päätelmiä ilman täytyy tallentaa kaikki mahdolliset johdannaistiedot. Tämä on vähän antropomorfoimista, mutta semanttiset hakukoneet voivat tehdä perusperusteluja ja päätelmiä tiedoistaan. Osana tätä prosessia semanttiset hakukoneet on usein suunniteltu arvioimaan luotettavuutta, joka niillä on johdannaisiinsa. Jos he eivät usko tietävänsä mistä puhuvat, he saattavat pysyä mykkäinä. Jos he ovat melko varmoja, he sylkevät vastauksen.

Joten jos syötät sanan "Jaltan konferenssi" semanttiseen hakukoneeseen, se katsoisi tietokokonaisuuksistaan ​​ja todennäköisesti sylkisi joitakin perustietoja ja lukuja, ehkä "4. - 11. helmikuuta 1945." Se saattaa viitata Stalinin, Churchillin ja Franklin Rooseveltin osallistumiseen, ja se oli tärkeä jopa maailmansodan loppukuukausina. II. Ihan perusjuttuja.

Jos kysyt kirjaimellisesti hakukoneelta "Tapahtuiko Jaltan konferenssi Korean sodan aikana?"Saat luultavasti vain kymmenen sinisen linkin luettelon. Jollakin voi olla vastaus.

Jos kuitenkin kysyt semanttiselta hakukoneelta, sinun pitäisi saada yksisanainen vastaus: "Ei".

Että Siellä semanttinen haku tulee uskomattoman mielenkiintoiseksi.

Eikö tämä ole Wolfram Alpha?

Jos nämä kyselyt kuulostavat sellaisilta asioilta, joita ihmiset esittävät Wolfram Alpha hakukone, olet aivan oikeassa. Sen sijaan, että se olisi Web-sivujen hakemisto, Wolfram Alpha yrittää olla tietomoottori. Wolfram Alpha ei tarkoita asian (kuten Web-sivun) etsimistä, vaan vastauksen pyytämistä. Wolfram Alpha luottaa tulosten tuottamiseen ennalta laadittuihin tietokantoihin, ja yritys lisää ja päivittää uusia tietokantoja säännöllisesti. Jotkut ovat erittäin erikoistuneita teknisiä tietoja, kuten tietoja kemiallisista alkuaineista tai hedelmäkärpäsen genomista, kun taas toiset ovat hassumpia. Esimerkiksi Wolfram Alpha tietää melko paljon kissaroduista.

Niin kauan kuin pysyt Wolfram Alphan tiedon rajoissa, se voi suorittaa hyödyllistä datan analysointia. Esimerkiksi Wolfram Alpha voi vertailla leijonien ja tiikerien hyppymatkoja. (Osoitti, että ne ovat vertailukelpoisia, mutta tiikerit näyttävät yleensä syrjäyttävän leijonat.) Mutta jos haluat tietää kuinka pitkälle kengurut voivat hypätä? Hups, anteeksi: tietoja ei ole saatavilla.

Mutta epäonnistunut kysely kenguruhumalasta näyttää hieman siitä, kuinka Wolfram Alpha yrittää ymmärtää asioita. Ennen kuin se antaa vastauksen, moottori ilmaisee, että se olettaa, että "kenguru" tarkoittaa "kenguruja, wallabies”, mutta käyttäjät voivat vaihtaa antilopiinikenguruun, punaiseen kenguruun tai itäharmaaseen kenguru. Samoin Wolfram Alpha on tulkinnut "kuinka pitkälle kenguru voi hypätä" kyselyksi "hyppyetäisyydelle", tietylle datapisteelle, joka sillä voi olla eläimistä. Osoittautuu, että Wolfram Alphalla ei tällä hetkellä ole näitä tietoja, mutta sen tulkinta kyselystä on erittäin tärkeä.

Eikö tämä ole Siri?

Jos nämä kyselyt kuulostavat sellaisilta asioilta, joita ihmiset heittävät Sirille iPhone 4S: ssä (mutta muista, ei uusi iPad, joka debytoi tällä viikolla), olet aivan oikeassa. On kuitenkin tärkeää muistaa, että Siri käsittelee vain yhtä puolta: käyttäjien kyselyjen ymmärtämistä. Näin tehdessään Siri ottaa vastaan ​​erittäin vaikean laskentaongelman, joka on käyttäjän puheen tarkka tunnistaminen mikrofonin kautta reaaliajassa. Se ei ole pieni saavutus, mutta se ei ole semanttinen hakukone. Kulissien takana Siri välittää kyselyitä Wolfram Alphalle, Yelpille ja (jos kaikki muu epäonnistuu) käyttäjän haluamalle Web-hakukoneelle. Jos kysyt Siriltä "Tapahtuiko Jaltan konferenssi Korean sodan aikana", se voi tunnistaa tarkasti, mitä kysyt – se teki minulle – mutta se vain tarjoaa vanhan koulun kirjaimellisen verkkohaun sinä.

siri

Mitä odottaa

Googlen kiinnostus semanttiseen hakuun on todennäköisesti kaksinkertainen. Ensinnäkin se todennäköisesti haluaa käyttää tekniikkaa toisena kerskauskohtana, joka asettaa sen kilpailijoidensa - enimmäkseen Microsoft Bing - edelle. Bingillä on ollut pitkään yhteistyössä Wolfram Alphan kanssa suunniteltu auttamaan hakukonetta antamaan suoria vastauksia mahdollisuuksien mukaan. Kuitenkaan toistaiseksi Bing tai Google eivät ole ottaneet suuria valtavia valtavia kuluttajia suorilla hakutuloksilla. Loppujen lopuksi useimmat arkipäivän haun käyttäjät eivät luultavasti tiedä, että (rajoitetut) ominaisuudet ovat jo olemassa. Jopa käyttäjille, jotka ovat niistä tietoisia, jopa Google näyttää ajattelevan, että tekniikkaa voidaan soveltaa vain 10-20 prosentissa hauista. Se on paljon hakuja, mutta se tarkoittaa, että suurin osa (80–90 prosenttia) hauista ei käytä sitä.

Kuitenkin, kun kuluttajat hylkäävät nopeasti kannettavat tietokoneet, pöytäkoneet ja perinteiset tietokonealustot, kyky tarjota lyhyitä, helposti ymmärrettäviä vastauksia monimutkaisiin hakukyselyihin saattaa tulla erittäin tärkeä mobiilimaailmassa. Käyttäjille, jotka ajavat autoa tai eivät muuten halua hehkuttaa näppäimistöjä tai näyttönäppäimistöjä, mahdollisuus vastata puhuttuihin kyselyihin, kuten "On Golden Gate Park suurempi kuin Central Park?" tai "Mihin suuntaan Malcolmin asuntoon?" Yksinkertaiset vastaukset, kuten "Kyllä" ja "Käänny seuraavaksi vasemmalle", voivat olla korvaamattomia mobiililaitteiden erottajia alustat.

Applen ja Googlen kaltaiset yritykset haluavat melkein varmasti omaksua teknologian.

* Tombaugh tunnisti Pluton ensimmäisen kerran liikkuvaksi esineeksi 18. helmikuuta 1930, mutta Pluto oli havaittu tahattomasti useaan otteeseen. Varhaisin tällä hetkellä tiedossa oli vuodelta 1909. Näetkö? Tieto on liukasta.

Kuva: Annette Shaff / Shutterstock.com

Toimittajien suositukset

  • Kaikki internet kuuluu nyt Googlen tekoälylle
  • Sinun ei tarvitse käyttää Bingiä – Google-haussa on nyt myös tekoäly
  • Hups – Google Bard AI -demo on kumottu ensimmäisellä hakutuloksella
  • Näin Google-haku aikoo torjua napsautussyöttiä
  • Kuinka poistaa henkilökohtaisia ​​tietoja Google-hausta