Smartare sökning: Varför "semantisk sökning" äntligen låter Google förstå dig

Varför-semantisk-sökning'-kommer-äntligen-låta-Google-förstå-dig

Wall Street Journals Amir Efrati har höjt på ögonbrynen med en artikel (abonnemang krävs) och säger att Google arbetar för att ligga före sina konkurrenter inom internetsökning genom att introducera mer så kallad "semantisk sökning"-teknik. Tanken är att Googles sökruta inte bara skulle vara en plats för användare att skriva sökord eller specifikt utformade frågor, utan en ruta som hade en faktisk förståelse av många av termerna, namnen, verben och referenserna som folk skriver in – och kan tillämpa den kunskapen på användarnas sökningar. I teorin bör semantisk sökning kunna returnera resultat som återspeglar en sökares avsikt, och i vissa fall förbättrar Googles förmåga att ge ett svar direkt utan att hänvisa användare till en annan webbplats.

Men vänta - är detta något nytt? Googlar inte redan lägga några svar direkt? Och hur kan semantisk sökning eventuellt hjälpa Google att behålla sin ledning inom sökbranschen på Internet?

Rekommenderade videor

Vad är semantisk sökning?

I ett nötskal, semantik har mycket mer gemensamt med Watson, IBMs superdatorapplikation

praktiskt besegrade människor på Jeopardy! än vad det gör med dialogrutan Sök i Microsoft Word.

Löst sett delas världen av datoriserat sökning upp i två typer:

Bokstavlig sökning (kallas ibland navigeringssökning) letar efter exakta matchningar för några eller alla de angivna termerna och returnerar matchande objekt – oavsett om det är filer, webbsidor, produkter eller någon annan diskret informationsenhet. Bokstavlig sökning kan utökas med saker som stammatchning, konjugat och association som utökar eller begränsar sökningen på användbara sätt – så Om du söker efter "flyga" kan du också trycka på "flyg". Bokstavlig sökning är det vi är mest bekanta med idag, delvis för att det är det enklaste för datorer att prestera.

Semantisk sökning skiljer sig från bokstavlig sökning på två sätt. Först försöker semantisk sökning förstå vad en användare frågar i en fråga genom att placera den i sitt sammanhang genom analys av frågans termer och språk. Denna analys utförs mot noggrant förkompilerade kunskapspooler, potentiellt inklusive kunskap om användaren. För det andra, istället för att returnera en uppsättning filer, webbsidor, produkter eller andra objekt, försöker semantisk sökning tillhandahålla en direkt svar på en fråga. Om du frågar en semantisk sökmotor "När upptäcktes Pluto?" det kan svara "Pluto upptäcktes den 18 februari 1930 av Clyde Tombaugh^*," där en bokstavlig sökmotor med största sannolikhet skulle returnera länkar till webbsidor som innehåller orden "upptäckt" och "Pluto."

Det visar sig att bokstavlig sökning och semantisk sökning är bra för olika uppgifter. Bokstavlig sökning är bra när en användare letar efter en specifik sak, oavsett om det är en fil, webbsida, dokument, produkt, album eller annat diskret föremål. Semantisk sökning, å andra sidan, visar sig vara mer användbar när en användare letar efter specifikt information – som ett datum, nummer, tid, plats eller namn.

Delvis tack vare spridningen av bokstavlig sökteknik i allt från ordbehandlare till webbsökmotorer, är vi mest vana vid bokstavlig sökning. De flesta av oss vet redan hur man manipulerar bokstavlig sökning för att komma oss närmare vad vi vill vid första försöket. Enligt Efratis WSJ-artikel tror Google dock att semantisk sökteknik kan ge direkta svar på mellan 10 och 20 procent av webbsökningarna. Enligt Comscore, Google hanterade 11,7 miljarder sökningar bara i USA i februari 2012. Med semantiska sökmöjligheter kunde mer än 2,3 miljarder av dessa sökningar ha besvarats direkt, istället för att skicka folk till andra webbsidor och webbplatser.

Gör inte Google redan detta?

Om du överhuvudtaget har använt Googles webbsökning tänker du förmodligen "Men vänta, Google gör redan det här!" Skriv "aktuell tid i Tokyo" eller "hur högt är Mount Everest” och Google kommer att göra sin bästa gissning på ett exakt svar överst i sina sökresultat. Google citerar till och med källor för sitt svar, och några av dessa källor kommer att finnas i de klassiska "tio blå länkarna" under svaret. (Google rapporterar att Mount Everest är 8 848 meter högt, förresten.)

För att vara rättvis är detta en av bara många användbara funktioner som Google har byggt in i sitt sökfält: Det kommer att göra (sofistikerad) matematik, utföra enhets- och valutaomvandlingar, och hämta saker som flyginformation och lokala filmvisningstider – du behöver inte skriva in en komplicerad fråga. Det kan också utnyttja vissa offentliga datakällor. Till exempel att skriva "befolkning Mexiko” i sökrutan kommer att visa data från Världsbanken. Svaret idag är 113 423 047 personer.

Men Googles ansträngningar att ge direkta svar på vissa typer av frågor faller ganska snabbt, eftersom dessa funktioner till stor del är implementeras som specialfall till Googles bokstavliga sökmotor, snarare än som en semantisk sökning som försöker förstå vad användaren vill ha. Skriv "hur hög är mt everest” (observera stavningen) i sökrutan, och Google försöker inte ens ge ett svar: Googles sökning vet inte att ”mt” betyder ”montera”. På samma sätt, om Google har fastställt att din nuvarande plats inte är i Mexiko (och om Google inte har din plats, gissar den utifrån din IP-adress och, nej, du kan inte välja bort det) söker efter "befolkning Mexiko stad” kan ge några oväntade resultat. Visst har Mexico City mer än 10 852 människor, eller hur?

Hur semantisk sökning är annorlunda

Semantisk sökning försöker eliminera den här typen av misstag på två sätt. Först försöker den att mer exakt förstå avsikt bakom en viss fråga. För det andra försöker den matcha elementen i den frågan mot förkompilerade pooler av djup kunskap för att se om den kan få fram ett meningsfullt svar.

När du skickar en fråga till en bokstavlig sökmotor som Google, zippar den inte omedelbart till varje webbplats på Internet, titta på dem och rapportera tillbaka en lista över webbplatser som den tror bäst matchar din villkor. Istället har Google programvaror som ständigt letar igenom Internet efter nya webbplatser och nya webbsidor, vilket skapar en index från alla sidor de hittar. Även om detta är en enorm förenkling, när användare skriver in en sökfråga som "Jalta konferens," Google tittar på det indexet för sidor som matchar både "Yalta" och "konferens", samt sidor som har båda termerna i närheten av varandra (säg inom 8 eller 10 ord). Google samlar sedan in webbadresserna för dessa sidor, sorterar efter dess interna PageRank (Googles mått på en sidas relativa meriter som i princip räknar länkar till den som positiva röster) och returnerar en lista.

Datahanteringen och tekniken bakom en sådan process är både skrämmande och mastodont, och Google förtjänar beröm för att ha lyckats med det - särskilt eftersom Google ofta kan göra detta på en bråkdel av en andra. Liknande saker händer bakom kulisserna på Microsofts Bing.

En semantisk sökning skulle närma sig samma fråga på olika sätt. I stället för att jämföra en fråga med ett förkompilerat (och ständigt uppdaterat) index över webbsidor den känner till, jämför en semantisk sökmotor frågan med diskreta, föruppfyllda kunskapsuppsättningar den har tillgänglig. Tänk på kunskapsuppsättningar som databaser: i grunden är de fulla av data, fakta och siffror om ett visst ämne. Det finns olika typer av kunskapsuppsättningar. Ett par intressanta är ontologier (som representerar formaliserad information som kan manipuleras med regler, funktioner och begränsningar) och folksonomier, som vanligtvis representerar gemensamt definierade kunskapsuppsättningar: Exempel skulle vara hashtaggning och sociala bokmärken.

Kunskapsuppsättningar är mer än bara förvaringskärl. De representerar också relationer mellan objekt i kunskapsbasen och gör att information kan användas på ett meningsfullt sätt flera olika kunskapsuppsättningar. Dessutom uttrycks relationer ofta på ett sådant sätt att korrekta logiska slutsatser kan göras utan måste lagra alla möjliga härledda data. Detta antropomorfiserar lite, men semantiska sökmotorer kan utföra grundläggande resonemang och slutledning på den data de känner till. Som en del av den processen är semantiska sökmotorer ofta utformade för att bedöma en nivå av förtroende de har för sina härledningar. Om de inte tror att de vet vad de pratar om kan de vara tysta. Om de är ganska säkra kommer de att spotta upp ett svar.

Så om du matar in "Yalta-konferens" i en semantisk sökmotor, skulle den leta i sina kunskapsuppsättningar och förmodligen spotta upp några grundläggande fakta och siffror, kanske "4 till 11 februari 1945." Det kan tyda på att Stalin, Churchill och Franklin Roosevelt deltog, och det var en viktig även under de sista månaderna av världskriget II. Ganska grundläggande grejer.

Om du frågar en bokstavlig sökmotor "Händes Jaltakonferensen under Koreakriget?” du får förmodligen bara en lista med tio blå länkar. Man kanske har ett svar.

Men om du frågar en semantisk sökmotor bör du få ett ettordssvar: "Nej."

Den där är där semantisk sökning blir otroligt intressant.

Är inte detta Wolfram Alpha?

Om dessa frågor låter som den sortens saker folk kastar på Wolfram Alpha sökmotor, du har helt rätt. Istället för att vara ett index över webbsidor försöker Wolfram Alpha vara en kunskapsmotor. Wolfram Alpha handlar inte om att söka efter en sak (som en webbsida), utan att be om ett svar. Wolfram Alpha förlitar sig på i förväg uppfyllda kunskapsbaser för att producera sina resultat, och företaget lägger till och uppdaterar nya kunskapsbaser regelbundet. Vissa är mycket specialiserade tekniska data - som information om kemiska grundämnen eller fruktflugans genom - medan andra är mer nyckfulla. Till exempel kan Wolfram Alpha ganska mycket om kattraser.

Så länge du håller dig inom Wolfram Alphas kunskapsområden kan den utföra användbar analys av data. Till exempel kan Wolfram Alpha jämför hoppsträckorna för lejon och tigrar. (Visar sig att de är jämförbara, men tigrarna verkar generellt utmana lejon.) Men om du vill veta hur långt kängurur kan hoppa? Hoppsan, tyvärr: Ingen data tillgänglig.

Men den misslyckade frågan om känguruhumle visar lite om hur Wolfram Alpha försöker förstå saker och ting. Innan den ger ett svar indikerar motorn att den antar att "känguru" betyder "kängurur, wallabies", men användare kan byta till antilopinkängurun, den röda kängurun eller den östra grå känguru. På liknande sätt har Wolfram Alpha tolkat "hur långt kan en känguru hoppa" som en fråga om "hoppavstånd", en specifik datapunkt den kan ha om djur. Det visar sig att Wolfram Alpha för närvarande inte har den informationen, men dess tolkning av frågan är mycket viktig.

Är inte detta Siri?

Om dessa frågor låter som den sortens saker folk kastar på Siri i iPhone 4S (men kom ihåg, inte den nya iPad som debuterar den här veckan), har du helt rätt. Det är dock viktigt att komma ihåg att Siri bara hanterar ena hälften av ekvationen: förstå användarens frågor. Genom att göra det tar Siri sig an det mycket tuffa datorproblemet att korrekt känna igen en användares tal över en mikrofon i realtid. Det är ingen liten bedrift, men det är inte en semantisk sökmotor. Bakom kulisserna lämnar Siri frågor till Wolfram Alpha, Yelp och (om allt annat misslyckas) användarens föredragna webbsökmotor. Om du frågar Siri "hände Jalta-konferensen under Koreakriget", kanske den känner igen vad du frågar – det gjorde det för mig – men det kommer bara att erbjuda dig att göra en gammaldags webbsökning efter du.

Vad du kan förvänta

Googles intresse för semantisk sökning är troligen dubbelt. För det första vill den troligen använda tekniken som en annan skrytpunkt som sätter den före sina konkurrenter - mest Microsoft Bing. Bing har länge haft en samarbete med Wolfram Alpha utformad för att hjälpa sökmotorn att leverera direkta svar när det är möjligt. Hittills har dock varken Bing eller Google gjort stora inhopp hos konsumenter med direkta sökresultat. När allt kommer omkring vet de flesta vanliga sökanvändare förmodligen inte att de (begränsade) funktionerna redan finns. Även för användare som är medvetna om dem verkar till och med Google tro att tekniken bara är tillämplig på 10 till 20 procent av sökningarna. Det är många sökningar, men det betyder att majoriteten (80 till 90 procent) av sökningarna inte kommer att använda det.

Men eftersom konsumenter snabbt överger bärbara datorer, stationära datorer och traditionella datorplattformar, kan möjligheten att ge korta, lättförståeliga svar på komplicerade sökfrågor bli mycket viktigt i den mobila världen. För användare som kör bil eller på annat sätt inte är villiga att pilla med knappsatser eller skärmtangentbord, möjligheten att svara på talade frågor som "Är Golden Gate Park större än Central Park?” eller "Vilken väg till Malcolms lägenhet?" med enkla svar som "Ja" och "Ta nästa vänster" kan vara ovärderliga skillnader för mobiler plattformar.

Det är nästan säkert där företag som Apple och Google vill ta tekniken.

* Tombaugh identifierade först Pluto som ett rörligt föremål den 18 februari 1930, men Pluto hade omedvetet setts vid flera tidigare tillfällen. Den tidigaste kända för närvarande var 1909. Ser? Kunskap är halt.

Foto via: Annette Shaff / Shutterstock.com

Redaktörens rekommendationer

Allt internet tillhör nu Googles AI
Du behöver inte använda Bing – Google Sök har AI nu också
Hoppsan – Google Bard AI-demo motbevisas av det första sökresultatet
Så här planerar Google Sök att ta itu med clickbait
Hur man tar bort personlig information från Google-sökning

Smartare sökning: Varför "semantisk sökning" äntligen låter Google förstå dig

Vad är semantisk sökning?

Gör inte Google redan detta?

Hur semantisk sökning är annorlunda

Är inte detta Wolfram Alpha?

Är inte detta Siri?

Vad du kan förvänta

Redaktörens rekommendationer

Kategorier

Nyligen

TabletTV Plus slår samman gratis OTA TV med streamingtjänster

Monster slår sin moderiktiga trumma med nya Sound Machine-hörlurar

V-Moda erbjuder nu 3-D-tryckta sköldar för sina hörlurar