Inside Knowledge Graph: Googles djupgående semantiska sökning

Google börjar rulla ut sin nya Knowledge Graph-teknik till sina engelsktalande användare i USA. Även om den nya tjänsten kommer att dyka upp som ett komplement till Googles vanliga sökresultat på webben - snarare än en separat tjänst i sin egen rätt — den representerar ett fundamentalt annorlunda sätt att närma sig Sök. Istället för att returnera rankade sökresultat baserat på bokstavliga söktermer (eller vissa söktermer, eller eventuellt korrigerade versioner av vissa söktermer), försöker Knowledge Graph i huvudsak associera sökning frågor med grejer den känner till: platser, människor, böcker, filmer, evenemang — you name it. Knowledge Graph är ett försök att uppnå semantisk sökning, försöker returnera resultat baserat på innebörden av vad användare söker efter, istället för bara bokstavliga matchningar.

Kan kunskapsdiagrammet förändra hur vi söker? Och vad kan det betyda för Googles grundläggande verksamhet – och webbplatser som förlitar sig på Google för att få trafik till sina webbplatser?

Rekommenderade videor

Kunskapsdiagram under huven

Även om Knowledge Graph är en fundamentalt ny typ av sökerbjudande från Google, följer den väl upptrampade vägar som Google har följt i flera år med sin vanliga söktjänst. Och Google är noga med att introducera det på ett sätt som inte är särskilt störande för dess marknadsdominerande sökning.

Relaterad

Googles ChatGPT-konkurrent har precis lanserats i sökningen. Så här provar du
Hoppsan – Google Bard AI-demo motbevisas av det första sökresultatet
Google avslöjade precis vad du tyckte var mest fascinerande 2022

I flera år har Google kunnat svara på ett urval av enkla faktafrågor direkt från sökningen bar, och till och med göra lite matematik — praktiskt för personer som är mer benägna att ha en webbläsare igång än en kalkylator. Prova det: Google bör ge direkta svar på saker som "huvudstad i surinam" eller "kvadratrot 3952.”

Med Knowledge Graph kommer Google också att släppa sökfrågor i komplexa databaser med inbördes relaterad information om … ja, saker, i brist på bättre villkor. På vissa sätt fungerar dessa databaser ungefär som en traditionell uppslagning: de returnerar poster med viktig information om en viss sak. För en person kan det vara något som deras födelsedatum (och kanske dödsdatum), deras nationaliteter, titlar eller ämbeten de kan ha haft, fullständigt juridiskt namn och mer.

För en byggnad kan dessa datauppsättningar innehålla saker som dess plats, när den byggdes, dess totala storlek, dess typ (säg, monument, butiksyta, kommersiella lokaler, bostad, um...rymdstation?). Men förutom vad som motsvarar några blotta fakta och några nyckelord, samlar dessa databasposter också direktlänkar till relaterad objekt i databasen (som i sin tur länkar till andra relaterade objekt, och så vidare). Med all sannolikhet definieras även dessa länkars natur. Till exempel kan ett inlägg kring en person innehålla länkar till den personens föräldrar, make/maka(r) och barn, och andra betydelsefulla relationer och kunna skilja mellan familjemedlemmar och andra typer av relationer. Databasen skulle inte göra sitt jobb om en datauppsättning på George H. W. Bush (USA: s 41:e president) länkade inte till dataset på George W. Bush (den 43:e presidenten) – och båda skulle länka till Condoleezza Rice, men på olika sätt. En datauppsättning om den stora pyramiden bör innehålla länkar till Cheops och Khufu, och Sfinxen – men också till mausoleet vid Halikarnassus. (Kan du gissa Varför?)

Dessa datamängder utgör hjärtat av semantisk sökning - och de är inte billiga. Först och främst är de enorma: summan av mänsklig kunskap kan bara vara en liten fläck i ansiktet av alla information i universum, men bara att skrapa tjänsten kan lätt producera hundratals miljoner (eller miljarder) av datamängder. (I jämförelse har den engelska versionen av Wikipedia knappa fyra miljoner artiklar.) Dessa datauppsättningar är inte lätta att få tag på: de måste noggrant sammanställas från tillförlitliga källor. Dessutom måste de vara organiserade och utformade på ett sådant sätt att informationen kan nås och manipuleras på användbara sätt (och i realtid, för Googles syften). Och datamängderna måste kunna hantera "kunskapens manliga natur". För bara några år sedan var Pluto en planet och Vioxx var en FDA-godkänd artrosbehandling.

Google bygger uppenbarligen sina databaser med hjälp av teknologier och metoder som förvärvades med Metaweb redan 2010 – även om Metawebs Freebase semantisk databas förblir tillgänglig för alla. Google använder Freebase för data, tillsammans med information hämtad från Wikipedia och CIA World Factbook. Google påståenden dess Knowledge Graph-databas har redan poster för cirka 500 miljoner objekt (observera att objekten inte kan jämföras direkt med Wikipedia-artiklar) och cirka 3,5 miljarder "fakta". Vi sätter "faktum" inom citattecken eftersom det en gång var ett "faktum" att jorden var platt och människor kunde inte flyga. Kunskap är halt.

Kunskapsdiagram på skärmen

Googles initiala implementering av Knowledge Graph är utformad för att utöka företagets befintliga sökresultat, snarare än att ersätta dem. På samma sätt som Google ibland visar förhandsvisningar av sidor i en panel till höger om sökresultaten i ett vanligt webbläsarfönster, kommer resultat från Knowledge Graph att visas i paneler bredvid sökresultaten. Alla söktermer kommer inte att producera paneler med kunskapsdiagram: Frågor måste matcha väldefinierade objekt i kunskapsdiagrammet. (Oroa dig inte om du inte ser resultat från Knowledge Graph ännu; Google rullar fortfarande ut funktionen och just nu är den begränsad till engelsktalande användare i USA.)

Panelerna i Knowledge Graph försöker visa en sammanfattning av viktig och mest eftersökt information om en fråga utan att användarna behöver läsa igenom två raders sammanfattningar av en webbsida eller klicka sig vidare till en annan webbplats. För en person kan dessa nyckelfakta inkludera födelse- och dödsdatum, betydelsefulla personer som är associerade med dem och snabba höjdpunkter av titlar, prestationer eller vad annat som gör den personen betydelsefull. För andra enheter kommer Google att försöka få fram nyckelinformation, statistik och associationer. Panelen Knowledge Graph kommer också att hantera disambiguering. Om mer än en Knowledge Graph-entitet matchar en sökfråga ger Google åtkomst till dem alla.

Kanske ännu viktigare, när användare väl interagerar med en Kunskapsgraf-enhet kan de, inom vissa gränser, surfa på länkarna för relationer till dessa enheter. Att till exempel dra upp en kunskapsdiagram-post på Dashiell Hammett borde låta användare omedelbart hoppa till en kunskapsdiagram-sammanfattning av Den smala mannen och Malteserfalken — och kanske till sammanfattningar om Lillian Helman och antikommunistiska häxjakter efter andra världskriget.

Knowledge Graph kommer inte att begränsas till webbläsarbaserade sökningar: Google lanserar för närvarande Knowledge Graph sökresultat till de flesta enheter som kör Android 2.2 eller senare (igen, endast i USA på engelska) i snabbsökningsrutan och webbläsarbaserad sökare. Sökresultat från Knowledge Graph kommer också att introduceras till kommande versioner av Googles sökapp för iOS-enheter. Användare kan navigera genom information i Knowledge Graph genom att knacka eller svepa fram och tillbaka genom innehållet.

Det är viktigt att notera att detta bara är de första platserna som Knowledge Graph dyker upp i Googles tjänster. Bakom kulisserna kan du förvänta dig att sökresultaten från Knowledge Graph börjar informera ett brett utbud av Google-tjänster, särskilt när dess samling av datamängder och "fakta" växer. Knowledge Graph-sökningar kommer sannolikt aldrig byta ut Googles traditionella sökordsbaserade sökning – semantisk sökning och bokstavlig sökning är typ två olika verktyg som är bra på två separata uppgifter – men i teorin skulle det inte vara förvånande om Knowledge Graph en dag bidrog till så mycket som en fjärdedel av Googles interaktioner med sökning användare.

Crowdsourcing... eller Google-färgade klasser?

Så, hur väljer Knowledge Graph information för sina sammanfattningar? Hittills har Google inte varit särskilt tydlig om metodiken bakom Knowledge Graphs presentation. I mitt (begränsade) urval verkar en stor del av den data som Google prioriterar för sina sammanfattningar vara ganska konsekventa: datum, relationer, och ett enda "betydande prestation"-fält för människor (som kan märkas något som "Upptäckter" eller "Yrke" eller "Titel"). Platser får platser och datum, och ett urval av andra fält som kan vara precis vad någon vill ha eller helt olämpliga. Om du till exempel tittar på Empire State Building verkar det lämpligt att ange gatuadressen... men det är inte riktigt lika lämpligt för till exempel Stonehenge. Liknande konstigheter kan hända med telefonnummer: hur många människor behöver omedelbar tillgång till ett telefonnummer till Taj Mahal?

Google säger att de prioriterar informationen som presenteras i sammanfattningar av kunskapsdiagram med hjälp av "mänsklig visdom". Och det gör inte Google menar faktiskt saker som människor berättar för dem eller som ämnesexperter eller databaskuratorer samlar in - det betyder att göra indirekta antaganden om användarnas avsikter genom att logga sökbeteenden och hålla koll på vad de klickar, inte klickar på och letar efter efter att ha gjort en Sök. I ett nötskal, Google använder crowdsourcing för att försöka avgöra vilka "fakta" som är de bästa att presentera i en kunskapsdiagram.

Till exempel säger Google att den sammanfattande informationen i Knowledge Graph som den presenterar för Tom Cruise svarar på 37 procent av Googles sökanvändares uppföljningsfrågor om skådespelaren när de söker efter honom. Den siffran på 37 procent låter övertygande vetenskapligt och exakt, men det finns absolut inget sätt att bedöma om Googles bedömning av sökanvändarnas sammanlagda beteende har något att göra med vad en viss användare — tycka om du - vill veta. Eftersom Google verkar så stolt över den siffran på 37 procent, låt oss vända på det: Google säger 63 procent av tiden kan den inte presentera någon information om ett ämne som dess sökanvändare hittar relevant.

Googles position är lätt att förstå: närhelst det är möjligt vill det omedelbart presentera den information som användarna söker. Det enda sättet Google verkligen kan bedöma det är genom att titta på hur folk använder sin sökmotor och försöka gissa.

Crowdsourcing har sina faror. Precis som Google trampar i grumligt vatten när det väljer att göra det prioritera sökresultat från Google+ i Search Plus Your World finns det risker med att förlita sig på crowdsourcing för att prioritera presentationen av information och "fakta". Bara eftersom Googles sökpublik kanske inte känner till (eller särskilt bryr sig) om viss information betyder det inte att den inte är viktig eller relevant. Det finns gott om fall där "publikens" uppfattning om fakta är felaktig. De flesta tror att schizofreni innebär att ha flera personligheter, dricka mjölk eller äta glass ökar slemproduktionen, och Marie Antoinette sa "Låt dem äta tårta." Men ingen av dessa saker är det Sann.

Att förlita sig på crowdsourcing för att bedöma vikten av information skapar också risk för missbruk. Säg att en regering ville sådd desinformation om dissidenter, en politisk kampanj ville smutskasta en motståndare eller hackare ville leka med sökresultat bara för att skratta? På ungefär samma sätt som Googles sökresultat har varit "Googlebombat, kan crowdsourcing användas för att manipulera Knowledge Graph. Förnuftiga människor kommer inte att tro på allt de läser; På samma sätt kommer "fakta" som presenteras av semantiska sökmotorer inte att vara tillförlitliga - och i vissa fall kommer crowdsourcing att göra dem ännu mindre.

Gör Google klibbigare

På den praktiska sidan kommer Googles kunskapsdiagram att ha en omedelbar effekt: Det kommer att göra Googles sökresultat klibbigare. Närhelst Knowledge Graph kan ge ett direkt svar på en sökanvändares fråga – eller låta dem navigera till det snabbt via relaterade ämnen – kommer användarna att stanna kvar på Googles tjänster. Det innebär att Google samlar in mer data om användares sökningar och beteenden (oavsett om de är inloggade på ett Google-konto eller inte). Det i sin tur låter Google förfina sin riktade annonsplattform ytterligare.

Det betyder också att tjänster som Wikipedia som ofta svarar på samma slags kunskapsspecifika frågor som är inriktade på Knowledge Graph kommer att se en minskning av mängden webbtrafik de får från Google. I Wikipedias fall motsvarar det direkt färre möjligheter att be om stöd från samhället; för andra tjänster leder det direkt till ett lägre antal annonsvisningar och (därav) lägre intäkter. För personer som erbjuder webbplatser och tjänster baserade på att tillhandahålla diskret fakta och information - och det inkluderar allt från Wikipedia till IMDb till onlineåterförsäljare till telefonböcker och företagskataloger till (tänkbart) publikbaserade tjänster som Yelp och till och med offentliga register...Knowledge Graph kan sakta urholka deras företag.

Redaktörens rekommendationer

Så här använder du Google SGE – prova den generativa sökupplevelsen själv
Du behöver inte använda Bing – Google Sök har AI nu också
Hur ChatGPT kan hjälpa Microsoft att avsätta Google Sök
Google Chrome får en av Microsoft Edges bästa funktioner
Googles nya sekretessverktyg låter dig veta om din personliga information har läckt

Inside Knowledge Graph: Googles djupgående semantiska sökning

Kunskapsdiagram under huven

Kunskapsdiagram på skärmen

Crowdsourcing... eller Google-färgade klasser?

Gör Google klibbigare

Redaktörens rekommendationer

Kategorier

Nyligen

Är Nvidia DLSS på väg att bli föråldrad? Här är beviset

Watchmen: Allt från serierna du behöver veta innan du tittar

FSR 2.0 är den fullständiga omstarten av AMD: s uppskalning som behövs