Smartere søgning: Hvorfor 'semantisk søgning' endelig vil lade Google forstå dig

Hvorfor-semantisk-søgning'-vil-endelig-lade-Google-forstå-dig

Wall Street Journals Amir Efrati har løftet øjenbrynene med en artikel (abonnement påkrævet) siger, at Google arbejder på at være foran sine konkurrenter inden for internetsøgning ved at introducere mere såkaldt "semantisk søgning"-teknologi. Ideen er, at Googles søgefelt ikke kun ville være et sted for brugere at skrive søgeord eller specifikt udformede forespørgsler, men et felt, der havde en faktisk forståelse af mange af de termer, navne, verber og referencer, folk indtaster - og kunne anvende den viden på brugernes søgninger. I teorien burde semantisk søgning være i stand til at returnere resultater, der afspejler en søgers hensigt, og i nogle tilfælde forbedrer Googles evne til at give et svar med det samme uden at henvise brugere til en anden websted.

Men vent - er det noget nyt? Googler ikke allerede sætte nogle svar lige foran? Og hvordan kan semantisk søgning potentielt hjælpe Google med at fastholde sit forspring inden for internetsøgningsbranchen?

Anbefalede videoer

Hvad er semantisk søgning?

I en nøddeskal har semantik meget mere til fælles med Watson, IBM's supercomputing-applikation let besejrede menneskerFare! end det gør med dialogboksen Find i Microsoft Word.

Løst sagt opdeles verden af ​​computeriseret søgning i to typer:

Bogstavelig søgning (kaldes nogle gange navigationssøgning) søger efter eksakte matches for nogle eller alle de indtastede termer og returnerer matchende elementer - uanset om det er filer, websider, produkter eller en anden diskret informationsenhed. Bogstavelig søgning kan udvides med ting som stam-matching, konjugater og association, der udvider eller begrænser søgningen på nyttige måder - så søgning efter "flyve" kan også ramme "flyvning". Bogstavelig søgning er det, vi er mest bekendt med i dag, til dels fordi det er det nemmeste for computere at udføre.

Semantisk søgning adskiller sig fra bogstavelig søgning på to måder. For det første forsøger semantisk søgning at forstå hvad en bruger spørger om i en forespørgsel ved at placere den i kontekst gennem analyse af forespørgslens termer og sprog. Denne analyse udføres på baggrund af stramt prækompilerede videnspuljer, der potentielt omfatter viden om brugeren. For det andet, i stedet for at returnere et sæt filer, websider, produkter eller andre elementer, forsøger semantisk søgning at give en direkte svar på et spørgsmål. Hvis du spørger en semantisk søgemaskine "Hvornår blev Pluto opdaget?" det kan svare "Pluto blev opdaget den 18. februar 1930 af Clyde Tombaugh*," hvor en bogstavelig søgemaskine højst sandsynligt ville returnere links til websider, der indeholder ordene "opdaget" og "Pluto."

Det viser sig, at bogstavelig søgning og semantisk søgning er gode til forskellige opgaver. Bogstavelig søgning er fantastisk, når en bruger leder efter en bestemt ting, uanset om det er en fil, webside, dokument, produkt, album eller anden diskret genstand. Semantisk søgning viser sig på den anden side at være mere nyttig, når en bruger leder efter specifikke Information - som en dato, nummer, tid, sted eller navn.

Til dels takket være udbredelsen af ​​bogstavelig søgeteknologi i alt fra tekstbehandlingsprogrammer til websøgemaskiner, er vi mest vant til bogstavelig søgning. De fleste af os ved allerede, hvordan man manipulerer bogstavelig søgning for at bringe os tættere på det, vi ønsker, i første forsøg. Ifølge Efratis WSJ-artikel mener Google dog, at semantisk søgeteknologi kan give direkte svar på mellem 10 og 20 procent af websøgningerne. Ifølge Comscore, Google håndterede 11,7 milliarder søgninger alene i USA i februar 2012. Med semantiske søgefunktioner kunne mere end 2,3 milliarder af disse søgninger være blevet besvaret direkte i stedet for at sende folk til andre websider og websteder.

Gør Google ikke allerede dette?

Hvis du overhovedet har brugt Google Websøgning, tænker du sandsynligvis "Men vent, Google gør allerede dette!" Skriv "nuværende tid i Tokyo" eller "hvor høj er Mount Everest” og Google vil lægge sit bedste bud på et præcist svar øverst i sine søgeresultater. Google citerer endda kilder for sit svar, og nogle af disse kilder vil være i de klassiske "ti blå links" under svaret. (Google rapporterer, at Mount Everest i øvrigt er 8.848 meter høj.)

For at være retfærdig er dette en af ​​blot mange nyttige funktioner, som Google har indbygget i sin søgelinje: Det vil lave (sofistikeret) matematik, udføre enheds- og valutaomregninger og hente ting som flyoplysninger og lokale filmvisningstider - ingen grund til at skrive en kompliceret forespørgsel. Det kan også benytte nogle offentlige datakilder. For eksempel at skrive "befolkning Mexico” i søgefeltet vil vise data fra Verdensbanken. Svaret i dag er 113.423.047 personer.

Googles bestræbelser på at give direkte svar på nogle typer spørgsmål falder dog ret hurtigt, fordi disse funktioner stort set er implementeret som særlige tilfælde til Googles bogstavelige søgemaskine, snarere end som en semantisk søgning, der forsøger at forstå, hvad brugeren har lyst. Skriv "hvor høj er mt everest" (bemærk stavningen) i søgefeltet, og Google forsøger ikke engang at give et svar: Google-søgning ved ikke, at "mt" betyder "mount." På samme måde, hvis Google har fastslået, at din nuværende placering ikke er i Mexico (og hvis Google ikke har din placering, gættes den ud fra din IP-adresse og, nej, du kan ikke fravælge) leder efter "befolkning mexico by” kan returnere nogle uventede resultater. Mexico City er sikkert hjemsted for mere end 10.852 mennesker, ikke?

Hvordan semantisk søgning er anderledes

Semantisk søgning forsøger at eliminere disse former for svindel på to måder. For det første forsøger den at forstå mere præcist hensigt bag en bestemt forespørgsel. For det andet forsøger den at matche elementerne i den forespørgsel med prækompilerede puljer af dyb viden for at se, om den kan finde et meningsfuldt svar.

Når du sender en forespørgsel til en bogstavelig søgemaskine som Google, lyner den ikke øjeblikkeligt ud til hvert websted på internettet, se dem igennem, og rapporter tilbage en liste over websteder, som den mener passer bedst til din betingelser. I stedet har Google softwareprogrammer, der konstant gennemsøger internettet efter nye websteder og nye websider, som skaber en indeks fra alle de sider, de finder. Selvom dette er en stor forenkling, når brugere indtaster en søgeforespørgsel som "Yalta konference," Google ser på det indeks for sider, der matcher både "Yalta" og "konference", såvel som sider, der har begge termer i nærheden af ​​hinanden (f.eks. inden for 8 eller 10 ord). Google indsamler derefter URL'erne for disse sider, sorterer efter dens interne PageRank (Googles mål for en sides relative fordele, der grundlæggende tæller links til den som positive stemmer), og returnerer en liste.

Datastyringen og teknikken bag sådan en proces er både skræmmende og kolossal, og Google fortjener ros for at klare det - især da Google ofte er i stand til at gøre dette på en brøkdel af en anden. Lignende ting sker bag kulisserne hos Microsofts Bing.

En semantisk søgning ville nærme den samme forespørgsel anderledes. I stedet for at sammenligne en forespørgsel med et forudkompileret (og konstant opdateret) indeks over websider, den kender til, sammenligner en semantisk søgemaskine forespørgslen med diskrete, forudopfyldte vidensæt den har til rådighed. Tænk på vidensæt som databaser: Inderst inde er de fulde af data, fakta og tal om et bestemt emne. Der er forskellige slags vidensæt. Et par interessante er ontologier (som repræsenterer formaliseret information, der kan manipuleres med regler, funktioner og begrænsninger) og folkesonomier, som normalt repræsenterer fælles definerede vidensæt: Eksempler ville være hashtagging og sociale bogmærker.

Google søgning

Videnssæt er mere end blot opbevaringsspande. De repræsenterer også relationer mellem elementer i videnbasen og gør det muligt at bruge information meningsfuldt på tværs mange vidensæt. Desuden udtrykkes relationer ofte på en sådan måde, at der kan drages nøjagtige logiske slutninger uden at skulle gemme alle mulige afledte data. Dette er antropomorfiserende en smule, men semantiske søgemaskiner kan udføre grundlæggende ræsonnementer og deduktion på de data, de kender til. Som en del af denne proces er semantiske søgemaskiner ofte designet til at vurdere et niveau af tillid, de har til deres afledninger. Hvis de ikke tror, ​​de ved, hvad de taler om, kan de forblive tamme. Hvis de er ret sikre, spytter de et svar op.

Så hvis du indtaster "Yalta-konference" i en semantisk søgemaskine, ville den kigge i dens vidensæt og sandsynligvis spytte nogle grundlæggende fakta og tal op, måske "4. til 11. februar 1945." Det kunne tyde på, at Stalin, Churchill og Franklin Roosevelt deltog, og det var en vigtig selv i de sidste måneder af verdenskrigen II. Ret grundlæggende ting.

Hvis du spørger en bogstavelig søgemaskine "Forekom Jalta-konferencen under Koreakrigen?” får du sikkert lige en liste med ti blå links. Man har måske et svar.

Men hvis du spørger en semantisk søgemaskine, bør du få et svar på ét ord: "Nej."

At er, hvor semantisk søgning bliver utrolig interessant.

Er dette ikke Wolfram Alpha?

Hvis disse forespørgsler lyder som den slags ting, folk kaster efter Wolfram Alpha søgemaskine, du har helt ret. I stedet for at være et indeks over websider, forsøger Wolfram Alpha at være en videnmotor. Wolfram Alpha handler ikke om at søge efter en ting (som en webside), men at bede om et svar. Wolfram Alpha er afhængig af forudopfyldte videnbaser for at producere sine resultater, og virksomheden tilføjer og opdaterer løbende nye videnbaser. Nogle er højt specialiserede tekniske data - som information om kemiske elementer eller frugtfluens genom - mens andre er mere finurlige. For eksempel ved Wolfram Alpha ret meget om katteracer.

Så længe du holder dig inden for rammerne af Wolfram Alphas viden, kan den udføre nyttig analyse af dataene. Det kan Wolfram Alpha f.eks sammenligne løver og tigres springdistancer. (Det viser sig, at de er sammenlignelige, men tigre ser ud til generelt at udelukke løver.) Men hvis du vil vide hvor langt kænguruer kan springe? Ups, undskyld: Ingen tilgængelige data.

Men den mislykkede forespørgsel på kænguruhumle viser lidt om, hvordan Wolfram Alpha forsøger at forstå tingene. Før den giver et svar, indikerer motoren, at den antager, at "kænguru" betyder "kænguruer, wallabies, men brugere kan skifte til antilopin kænguru, rød kænguru eller østgrå kænguru. På samme måde har Wolfram Alpha fortolket "hvor langt kan en kænguru hoppe" til at være en forespørgsel efter "springafstand", et specifikt datapunkt, den kan have om dyr. Det viser sig, at Wolfram Alpha i øjeblikket ikke har disse data, men dens fortolkning af forespørgslen er meget vigtig.

Er det ikke Siri?

Hvis disse forespørgsler lyder som den slags ting, folk kaster efter Siri i iPhone 4S (men husk, ikke den nye iPad, der debuterer i denne uge), har du helt ret. Det er dog vigtigt at huske, at Siri kun tackler den ene halvdel af ligningen: at forstå brugerens forespørgsler. Dermed påtager Siri det meget svære computerproblem med nøjagtigt at genkende en brugers tale over en mikrofon i realtid. Det er ikke en lille bedrift, men det er ikke en semantisk søgemaskine. Bag kulisserne afleverer Siri forespørgsler til Wolfram Alpha, Yelp og (hvis alt andet fejler) brugerens foretrukne websøgemaskine. Hvis du spørger Siri "Forekom Yalta-konferencen under Koreakrigen", kan den præcist genkende hvad du spørger - det gjorde det for mig - men det vil bare tilbyde at lave en gammeldags bogstavelig websøgning efter du.

siri

Hvad kan man forvente

Googles interesse for semantisk søgning er sandsynligvis dobbelt. For det første vil det sandsynligvis bruge teknologien som et andet pralepunkt, der sætter den foran sine konkurrenter - mest Microsoft Bing. Bing har længe haft en partnerskab med Wolfram Alpha designet til at hjælpe søgemaskinen med at levere direkte svar, når det er muligt. Indtil videre har hverken Bing eller Google dog gjort større indtog hos forbrugere med direkte søgeresultater. Når alt kommer til alt, ved de fleste daglige søgebrugere sandsynligvis ikke, at de (begrænsede) muligheder allerede eksisterer. Selv for brugere, der er opmærksomme på dem, synes selv Google at tro, at teknologien kun er anvendelig til 10 til 20 procent af søgningerne. Det er mange søgninger, men det betyder, at størstedelen (80 til 90 procent) af søgningerne ikke vil bruge det.

Men efterhånden som forbrugerne hurtigt forlader notebooks, desktops og traditionelle computerplatforme, kan evnen til at give korte, letforståelige svar på komplicerede søgeforespørgsler blive meget vigtigt i den mobile verden. For brugere, der kører bil eller på anden måde ikke er villige til at fifle med tastaturer eller skærmtastaturer, er muligheden for at svare på talte forespørgsler som "Er Golden Gate Park større end Central Park?” eller "Hvilken vej til Malcolms lejlighed?" med enkle svar som "Ja" og "Tag den næste til venstre" kunne være uvurderlige differentiatorer for mobil platforme.

Det er næsten helt sikkert, hvor virksomheder som Apple og Google søger at tage teknologien.

* Tombaugh identificerede først Pluto som et objekt i bevægelse den 18. februar 1930, men Pluto var uforvarende blevet set ved flere tidligere lejligheder. Den tidligste kendte var i 1909. Se? Viden er glat.

Foto via: Annette Shaff / Shutterstock.com

Redaktørens anbefalinger

  • Alt internettet tilhører nu Googles AI
  • Du behøver ikke bruge Bing – Google Search har også AI nu
  • Ups – Google Bard AI-demoen modbevises af det første søgeresultat
  • Her er, hvordan Google Søgning planlægger at tackle clickbait
  • Sådan fjerner du personlige oplysninger fra Google-søgning