Wall Street Journals Amir Efrati har hevet øyenbrynene med en artikkel (abonnement kreves) og sier at Google jobber for å ligge i forkant av sine rivaler innen internettsøk ved å introdusere mer såkalt «semantisk søk»-teknologi. Tanken er at Googles søkeboks ikke bare vil være et sted for brukere å skrive inn søkeord eller spesifikt utformede søk, men en boks som har en faktisk forståelse av mange av termene, navnene, verbene og referansene folk skriver inn - og kan bruke den kunnskapen til brukernes søk. I teorien skal semantisk søk være i stand til å returnere resultater som gjenspeiler en søkers hensikt, og i noen tilfeller forbedrer Googles evne til å gi et svar med en gang uten å henvise brukere til en annen nettstedet.
Men vent – er dette noe nytt? Googler ikke allerede sette noen svar rett foran? Og hvordan kan semantisk søk potensielt hjelpe Google med å opprettholde ledelsen i Internett-søkebransjen?
Anbefalte videoer
Hva er semantisk søk?
I et nøtteskall har semantikk mye mer til felles med Watson, IBMs superdatabehandlingsapplikasjon
beseiret mennesker på Fare! enn det gjør med Finn-dialogboksen i Microsoft Word.Løst sett deler verden av datastyrt søk inn i to typer:
Bokstavelig søk (noen ganger kalt navigasjonssøk) ser etter eksakte treff for noen eller alle vilkårene som er angitt, og returnerer samsvarende elementer - enten filer, nettsider, produkter eller en annen diskret informasjonsenhet. Bokstavelig søk kan utvides med ting som stammematching, konjugater og assosiasjoner som utvider eller begrenser søket på nyttige måter – så søk etter "fly" kan også trykke "flight". Bokstavelig søk er det vi er mest kjent med i dag, delvis fordi det er det enkleste for datamaskiner å utføre.
Semantisk søk skiller seg fra bokstavelig søk på to måter. Først prøver semantisk søk å forstå hva en bruker spør om i en spørring ved å sette den i kontekst gjennom analyse av søkets termer og språk. Denne analysen er utført mot tett forhåndskompilerte kunnskapspooler, potensielt inkludert kunnskap om brukeren. For det andre, i stedet for å returnere et sett med filer, nettsider, produkter eller andre elementer, prøver semantisk søk å gi en direkte svar på et spørsmål. Hvis du spør en semantisk søkemotor "Når ble Pluto oppdaget?" det kan svare "Pluto ble oppdaget 18. februar 1930 av Clyde Tombaugh*," der en bokstavelig søkemotor mest sannsynlig vil returnere lenker til nettsider som inneholder ordene "oppdaget" og "Pluto."
Det viser seg at bokstavelig søk og semantisk søk er bra for forskjellige oppgaver. Bokstavelig søk er flott når en bruker leter etter en bestemt ting, enten det er en fil, nettside, dokument, produkt, album eller annet diskret element. Semantisk søk, derimot, viser seg å være mer nyttig når en bruker leter etter spesifikke informasjon – som en dato, nummer, tid, sted eller navn.
Delvis takket være spredningen av bokstavelig søketeknologi i alt fra tekstbehandlere til nettsøkemotorer, er vi mest vant til bokstavelig søk. De fleste av oss vet allerede hvordan vi skal manipulere bokstavelig søk for å komme oss nærmere det vi ønsker på første forsøk. Imidlertid, ifølge Efratis WSJ-artikkel, mener Google semantisk søketeknologi kan gi direkte svar på mellom 10 og 20 prosent av nettsøkene. Ifølge Comscore, Google håndterte 11,7 milliarder søk i USA alene i februar 2012. Med semantiske søkefunksjoner kunne mer enn 2,3 milliarder av disse søkene blitt besvart direkte, i stedet for å sende folk til andre nettsider og nettsteder.
Gjør ikke Google dette allerede?
Hvis du i det hele tatt har brukt Google Nettsøk, tenker du sannsynligvis "Men vent, Google gjør allerede dette!" Skriv inn "nåværende tid i Tokyo" eller "hvor høy er Mount Everest” og Google vil gi sitt beste bud på et presist svar øverst i søkeresultatene. Google siterer til og med kilder for sitt svar, og noen av disse kildene vil være i de klassiske "ti blå lenkene" under svaret. (Google rapporterer at Mount Everest er 8 848 meter høy, forresten.)
For å være rettferdig er dette en av bare mange nyttige funksjoner Google har bygget inn i søkefeltet: Det vil gjøre (sofistikert) matematikk, utføre enhets- og valutaomregninger, og hente opp ting som flyinformasjon og lokale filmvisningstider – du trenger ikke å skrive ut en komplisert spørsmål. Den kan også benytte seg av noen offentlige datakilder. For eksempel å skrive "befolkning Mexico” i søkeboksen vil vise data fra Verdensbanken. Svaret i dag er 113 423 047 personer.
Googles innsats for å gi direkte svar på noen typer spørsmål faller imidlertid ganske raskt, fordi disse funksjonene stort sett er implementert som spesielle tilfeller til Googles bokstavelige søkemotor, snarere enn som et semantisk søk som prøver å forstå hva brukeren ønsker. Skriv inn "hvor høy er mt everest” (merk stavemåten) i søkeboksen, og Google prøver ikke engang å gi et svar: Google-søk vet ikke at “mt” betyr “montering”. På samme måte, hvis Google har fastslått at din nåværende posisjon ikke er i Mexico (og hvis Google ikke har posisjonen din, gjettes den etter IP-adressen din og, nei, du kan ikke velge bort) Leter etter "befolkning i Mexico by" kan gi noen uventede resultater. Mexico by er sikkert hjemsted for mer enn 10 852 mennesker, ikke sant?
Hvor forskjellig er semantisk søk
Semantisk søk prøver å eliminere denne typen feil på to måter. Først prøver den å forstå mer nøyaktig hensikt bak et bestemt søk. For det andre prøver den å matche elementene i den spørringen mot forhåndskompilerte samlinger av dyp kunnskap for å se om den kan finne et meningsfylt svar.
Når du sender et søk til en bokstavelig søkemotor som Google, zippes den ikke umiddelbart til hvert nettsted på Internett, se dem over, og rapporter tilbake en liste over nettsteder den mener passer best til ditt vilkår. I stedet har Google programmer som hele tiden leter etter nye nettsteder og nye nettsider, som skaper en indeks fra alle sidene de finner. Selv om dette er en enorm forenkling, når brukere skriver inn et søk som "Yalta-konferansen," Google ser på den indeksen for sider som samsvarer med både "Yalta" og "konferanse", så vel som sider som har begge termene i nærheten av hverandre (f.eks. innen 8 eller 10 ord). Google samler deretter inn nettadressene for disse sidene, sorterer etter dens interne PageRank (Googles mål for en sides relative fordeler som i utgangspunktet teller koblinger til den som positive stemmer), og returnerer en liste.
Databehandlingen og ingeniørarbeidet bak en slik prosess er både skremmende og gigantisk, og Google fortjener ros for å ha klart det - spesielt siden Google ofte er i stand til å gjøre dette på en brøkdel av en sekund. Lignende ting skjer bak kulissene hos Microsofts Bing.
Et semantisk søk vil nærme seg det samme søket annerledes. I stedet for å sammenligne et søk med en forhåndskompilert (og stadig oppdatert) indeks over nettsider den kjenner til, sammenligner en semantisk søkemotor søket med diskrete, forhåndsoppfylte kunnskapssett den har tilgjengelig. Tenk på kunnskapssett som databaser: Innerst inne er de fulle av data, fakta og tall om et bestemt emne. Det finnes ulike typer kunnskapssett. Et par interessante er ontologier (som representerer formalisert informasjon som kan manipuleres med regler, funksjoner og begrensninger) og folkesonomier, som vanligvis representerer samarbeidsdefinerte kunnskapssett: Eksempler vil være hashtagging og sosiale bokmerker.
Kunnskapssett er mer enn bare oppbevaringskasser. De representerer også relasjoner mellom elementer i kunnskapsbasen, og gjør at informasjon kan brukes meningsfullt på tvers flere kunnskapssett. Videre uttrykkes relasjoner ofte på en slik måte at nøyaktige logiske slutninger kan trekkes uten måtte lagre alle mulige avledede data. Dette er litt antropomorfiserende, men semantiske søkemotorer kan utføre grunnleggende resonnement og deduksjon på dataene de vet om. Som en del av denne prosessen er semantiske søkemotorer ofte utformet for å vurdere et nivå av tillit de har til deres avledninger. Hvis de ikke tror de vet hva de snakker om, kan de forbli stumme. Hvis de er ganske sikre, spytter de opp et svar.
Så hvis du legger inn "Yalta-konferanse" i en semantisk søkemotor, vil den se i kunnskapssettene og sannsynligvis spytte opp noen grunnleggende fakta og tall, kanskje "4. til 11. februar 1945." Det kan tyde på at Stalin, Churchill og Franklin Roosevelt deltok, og det var en viktig selv i de siste månedene av verdenskrigen II. Ganske grunnleggende greier.
Hvis du spør en bokstavelig søkemotor "Fant Jalta-konferansen sted under Korea-krigen?" vil du sannsynligvis bare få en liste med ti blå lenker. En kan ha et svar.
Men hvis du spør en semantisk søkemotor, bør du få et svar på ett ord: "Nei."
At er der semantisk søk blir utrolig interessant.
Er ikke dette Wolfram Alpha?
Hvis disse spørringene høres ut som den slags ting folk kaster på Wolfram Alpha søkemotor, du har helt rett. I stedet for å være en indeks over nettsider, prøver Wolfram Alpha å være en kunnskapsmotor. Wolfram Alpha handler ikke om å søke etter en ting (som en webside), men å be om et svar. Wolfram Alpha er avhengig av forhåndsoppfylte kunnskapsbaser for å produsere sine resultater, og selskapet legger til og oppdaterer nye kunnskapsbaser regelmessig. Noen er høyt spesialiserte tekniske data - som informasjon om kjemiske elementer eller genomet til fruktfluen - mens andre er mer lunefulle. For eksempel vet Wolfram Alpha ganske mye om katteraser.
Så lenge du holder deg innenfor kunnskapsområdet til Wolfram Alpha, kan det utføre nyttig analyse av dataene. For eksempel kan Wolfram Alpha sammenligne hoppedistansene til løver og tigre. (Det viser seg at de er sammenlignbare, men tigre ser ut til generelt å skille ut løver.) Men hvis du vil vite hvor langt kenguruer kan hoppe? Beklager: Ingen data tilgjengelig.
Men den mislykkede spørringen på kenguruhumle viser litt om hvordan Wolfram Alpha prøver å forstå ting. Før den gir et svar, indikerer motoren at den antar "kenguru" betyr "kenguruer, wallabies», men brukere kan bytte til antilopin kenguru, rød kenguru eller østgrå kenguru. På samme måte har Wolfram Alpha tolket «hvor langt kan en kenguru hoppe» til å være et spørsmål om «hoppeavstand», et spesifikt datapunkt den kan ha om dyr. Det viser seg at Wolfram Alpha for øyeblikket ikke har disse dataene, men tolkningen av spørringen er veldig viktig.
Er ikke dette Siri?
Hvis disse spørsmålene høres ut som den slags ting folk kaster på Siri i iPhone 4S (men husk, ikke den nye iPaden som debuterer denne uken), har du helt rett. Det er imidlertid viktig å huske at Siri bare takler halvparten av ligningen: forstå brukerens spørsmål. Ved å gjøre det tar Siri på seg det svært tøffe dataproblemet med å gjenkjenne en brukers tale nøyaktig over en mikrofon i sanntid. Det er ingen liten prestasjon, men det er ikke en semantisk søkemotor. Bak kulissene leverer Siri forespørsler til Wolfram Alpha, Yelp og (hvis alt annet feiler) brukerens foretrukne nettsøkemotor. Hvis du spør Siri «Har Yalta-konferansen skjedd under Korea-krigen», kan den nøyaktig gjenkjenne hva du spør - det gjorde det for meg - men det kommer bare til å tilby å gjøre et gammeldags nettsøk etter du.
Hva å forvente
Googles interesse for semantisk søk er sannsynligvis todelt. For det første ønsker den sannsynligvis å bruke teknologien som et annet skrytepunkt som setter den foran konkurrentene - for det meste Microsoft Bing. Bing har lenge hatt en samarbeid med Wolfram Alpha designet for å hjelpe søkemotoren med å levere direkte svar når det er mulig. Så langt har imidlertid verken Bing eller Google gjort store inngrep hos forbrukere med direkte søkeresultater. Tross alt vet de fleste daglige søkebrukere sannsynligvis ikke at de (begrensede) mulighetene allerede eksisterer. Selv for brukere som er klar over dem, ser til og med Google ut til å tro at teknologien bare er anvendelig for 10 til 20 prosent av søkene. Det er mange søk, men betyr at flertallet (80 til 90 prosent) av søkene ikke vil bruke det.
Men ettersom forbrukere raskt forlater bærbare datamaskiner, stasjonære datamaskiner og tradisjonelle dataplattformer, kan muligheten til å gi korte, lett forståelige svar på kompliserte søk bli veldig viktig i mobilverdenen. For brukere som kjører bil eller på annen måte ikke er villige til å fikle med tastaturer eller skjermtastaturer, muligheten til å svare på talte spørsmål som «Er Golden Gate Park større enn Central Park?» eller "Hvilken vei til Malcolms leilighet?" med enkle svar som "Ja" og "Ta neste venstre" kan være uvurderlige differensiatorer for mobil plattformer.
Det er nesten helt sikkert der selskaper som Apple og Google ønsker å ta teknologien.
* Tombaugh identifiserte først Pluto som et objekt i bevegelse 18. februar 1930, men Pluto hadde blitt oppdaget ved flere tidligere anledninger. Den tidligste kjente var i 1909. Se? Kunnskap er glatt.
Foto via: Annette Shaff / Shutterstock.com
Redaktørenes anbefalinger
- Alt internett tilhører nå Googles AI
- Du trenger ikke å bruke Bing – Google Søk har AI nå også
- Oops – Google Bard AI-demoen motbevises av det første søkeresultatet
- Her er hvordan Google Søk planlegger å takle clickbait
- Slik fjerner du personlig informasjon fra Google-søk