Inside Knowledge Graph: de diepgaande semantische zoektocht van Google

Google begint zijn nieuwe Knowledge Graph-technologie uit te rollen naar zijn Engelssprekende gebruikers in de Verenigde Staten. Hoewel de nieuwe dienst zal verschijnen als aanvulling op de normale zoekresultaten van Google dan een afzonderlijke dienst op zichzelf – het vertegenwoordigt een fundamenteel andere manier van benaderen zoekopdracht. In plaats van gerangschikte zoekresultaten te retourneren op basis van letterlijke zoektermen (of sommige zoektermen, of mogelijk gecorrigeerde versies van enkele zoektermen), probeert Knowledge Graph in essentie zoekopdrachten te associëren vragen met spullen het weet over: plaatsen, mensen, boeken, films, evenementen - noem maar op. Knowledge Graph is een inspanning om te bereiken semantisch zoeken, waarbij wordt geprobeerd resultaten te retourneren op basis van de betekenis van waar gebruikers naar zoeken, in plaats van alleen letterlijke overeenkomsten.

Kan de Kenniskaart de manier waarop we zoeken veranderen? En wat zou dit kunnen betekenen voor de fundamentele activiteiten van Google – en voor sites die afhankelijk zijn van Google om verkeer naar hun sites te halen?

Aanbevolen video's

Kennisgrafiek onder de motorkap

Hoewel Knowledge Graph een fundamenteel nieuw soort zoekaanbod van Google is, volgt het de platgetreden paden die Google al jaren bewandelt met zijn reguliere zoekdienst. En Google zorgt ervoor dat het op een manier wordt geïntroduceerd die de marktdominante zoektocht niet erg verstoort.

Verwant

De ChatGPT-rivaal van Google is zojuist gelanceerd in de zoekresultaten. Hier leest u hoe u het kunt proberen
Oeps - Google Bard AI-demo wordt weerlegd door het eerste zoekresultaat
Google heeft zojuist onthuld wat jij het meest fascinerend vond in 2022

Google kan al jaren een selectie van eenvoudige feitelijke vragen rechtstreeks vanuit de zoekopdracht beantwoorden bar, en zelfs wat wiskunde doen - handig voor mensen die eerder een webbrowser hebben dan een rekenmachine. Probeer het eens: Google zou directe antwoorden moeten geven op zaken als “hoofdstad van suriname" of "wortel 3952.”

Met Knowledge Graph zal Google ook zoekopdrachten plaatsen in complexe databases met onderling gerelateerde informatie over...nou ja, dingen, bij gebrek aan betere voorwaarden. In sommige opzichten functioneren deze databases ongeveer als een traditionele opzoekopdracht: ze retourneren records met belangrijke stukjes informatie over een bepaald onderwerp. Voor een persoon kan dat zoiets zijn als zijn geboortedatum (en misschien zijn overlijdensdatum), zijn nationaliteit, titels of ambten die hij heeft bekleed, zijn volledige wettelijke naam en meer.

Voor een gebouw kunnen deze datasets zaken omvatten als de locatie, het tijdstip waarop het werd gebouwd, de totale omvang en het type (bijvoorbeeld monument, winkelruimte, commerciële ruimte, woning, eh...ruimtestation?). Naast enkele naakte feiten en enkele trefwoorden verzamelen deze database-items echter ook directe links naar verwant objecten in de database (die op hun beurt linken naar andere gerelateerde objecten, enzovoort). Naar alle waarschijnlijkheid wordt ook de aard van die links gedefinieerd. Een vermelding rondom een persoon kan bijvoorbeeld links bevatten naar de ouders, partner(s) en kinderen van die persoon andere belangrijke relaties en onderscheid kunnen maken tussen familieleden en andere soorten relaties. De database zou zijn werk niet doen als een dataset over George H. W. Bush (de 41e president van de Verenigde Staten) heeft geen link gelegd naar de dataset over George W. Bush (de 43e president) – en beide zouden verband houden met Condoleezza Rice, maar op verschillende manieren. Een dataset over de Grote Piramide zou links moeten bevatten naar Cheops en Khufu, en naar de Sfinx – maar ook naar het Mausoleum in Halicarnassus. (Kan je raden Waarom?)

Deze datasets vormen het hart van semantisch zoeken – en ze zijn niet goedkoop. In de eerste plaats zijn ze enorm: de som van de menselijke kennis is misschien maar een klein stipje in het licht van alle informatie in het universum, maar alleen al het schrappen van de dienst kan gemakkelijk honderden miljoenen (of miljarden) opleveren van datasets. (Ter vergelijking: de Engelse versie van Wikipedia bevat een schamele 4 miljoen artikelen.) Deze datasets zijn niet gemakkelijk te verkrijgen: ze moeten nauwgezet worden samengesteld uit betrouwbare bronnen. Bovendien moeten ze zo worden georganiseerd en ontworpen dat de informatie op nuttige manieren kan worden geraadpleegd en gemanipuleerd (en in realtime, voor de doeleinden van Google). En de datasets moeten in staat zijn om te gaan met de maakbare aard van ‘kennis’. Nog maar een paar jaar geleden was Pluto immers een planeet en was Vioxx een door de FDA goedgekeurde behandeling voor artrose.

Google bouwt zijn databases blijkbaar met behulp van technologieën en methoden die in 2010 met Metaweb zijn verworven – hoewel Metaweb’s Vrije basis semantische database blijft voor iedereen beschikbaar. Google gebruikt Freebase voor gegevens, samen met informatie afkomstig van Wikipedia en de CIA Wereld Factbook. Googlen beweringen de Knowledge Graph-database bevat al vermeldingen voor zo'n 500 miljoen objecten (houd er rekening mee dat deze objecten niet direct kunnen worden vergeleken met Wikipedia-artikelen) en zo’n 3,5 miljard ‘feiten’. We zetten ‘feit’ tussen aanhalingstekens omdat het ooit een ‘feit’ was dat de aarde plat was en mensen kon niet vliegen. Kennis is glibberig.

Kennisgrafiek op het scherm

De eerste implementatie van Google Knowledge Graph is bedoeld om de bestaande zoekresultaten van het bedrijf uit te breiden, in plaats van deze te vervangen. Net zoals Google soms voorbeelden van pagina's toont in een paneel aan de rechterkant van de zoekresultaten in een standaard webbrowservenster, verschijnen de resultaten van Kennisgrafieken in panelen naast de zoekresultaten. Niet alle zoektermen leveren Kennisgrafiekpanelen op: Zoekopdrachten moeten overeenkomen met goed gedefinieerde objecten in de Kennisgrafiek. (Maak je geen zorgen als je nog geen Kenniskaartresultaten ziet; Google is de functie nog steeds aan het uitrollen, en op dit moment is deze beperkt tot Engelssprekende gebruikers in de Verenigde Staten.)

De Kennisgrafiekpanelen proberen een samenvatting weer te geven van de belangrijkste en meest gezochte informatie over een zoekopdracht zonder dat gebruikers samenvattingen van twee regels van een webpagina hoeven te lezen of door te klikken naar een andere plaats. Voor een persoon kunnen deze belangrijke feiten geboorte- en overlijdensdata omvatten, belangrijke mensen die met hem verbonden zijn, en korte hoogtepunten van titels, prestaties of wat die persoon nog meer belangrijk maakt. Voor andere entiteiten probeert Google belangrijke informatie, statistieken en associaties naar boven te halen. Het Knowledge Graph-paneel behandelt ook ondubbelzinnigheid. Als meer dan één Kenniskaart-entiteit overeenkomt met een zoekopdracht, biedt Google toegang tot deze allemaal.

Misschien nog belangrijker: zodra gebruikers interactie hebben met een Kenniskaart-entiteit, kunnen ze, binnen bepaalde grenzen, surfen op de koppelingen van relaties met die entiteiten. Als u bijvoorbeeld een Kenniskaart-item op Dashiell Hammett oproept, zouden gebruikers onmiddellijk naar een Kenniskaart-samenvatting moeten kunnen gaan De dunne man En De Maltese Valk – en misschien naar samenvattingen over Lillian Helman en de anticommunistische heksenjachten na de Tweede Wereldoorlog.

Knowledge Graph zal niet beperkt zijn tot browsergebaseerde zoekopdrachten: Google introduceert momenteel Knowledge Graph-zoekresultaten naar de meeste apparaten met Android 2.2 of hoger (opnieuw alleen in de VS in het Engels) in het snelzoekvak en in een browser zoekers. De zoekresultaten van Knowledge Graph zullen ook worden geïntroduceerd in toekomstige versies van de zoekapp van Google voor iOS-apparaten. Gebruikers kunnen door de informatie in Knowledge Graph navigeren door op de inhoud te tikken of heen en weer te vegen.

Het is belangrijk op te merken dat dit slechts de eerste plaatsen zijn waar Knowledge Graph opduikt in de services van Google. Achter de schermen kun je verwachten dat de zoekresultaten van Knowledge Graph een breed scala aan Google-services zullen gaan informeren, vooral naarmate het corpus aan datasets en ‘feiten’ groeit. Zoeken naar Kenniskaarten zal waarschijnlijk nooit gebeuren vervangen De traditionele, op trefwoorden gebaseerde zoekopdracht van Google – semantisch zoeken en letterlijk zoeken zijn eigenlijk twee verschillende tools die goed zijn in twee afzonderlijke taken – maar in theorie zou het niet verrassend zijn als Knowledge Graph op een dag zou bijdragen aan maar liefst een kwart van de interacties van Google met zoekopdrachten gebruikers.

Crowdsourcing... of Google-gekleurde lessen?

Hoe kiest Knowledge Graph informatie voor zijn samenvattingen? Tot nu toe is Google niet erg expliciet geweest over de methodologie achter de presentatie van Knowledge Graph. Uit mijn (beperkte) steekproef blijkt dat een groot deel van de gegevens die Google prioriteit geeft voor zijn samenvattingen behoorlijk consistent zijn: datums, relaties, en een enkel ‘significante prestatie’-veld voor mensen (dat zoiets zou kunnen worden gelabeld als ‘Ontdekkingen’ of ‘Beroep’ of "Titel"). Plaatsen krijgen locaties en datums, en een selectie van andere velden die precies kunnen zijn wat iemand wil of volledig ongepast zijn. Als je bijvoorbeeld naar het Empire State Building kijkt, lijkt het opgeven van het adres gepast... maar het is niet zo gepast voor bijvoorbeeld Stonehenge. Soortgelijke eigenaardigheden kunnen zich voordoen met telefoonnummers: hoeveel mensen hebben direct toegang nodig tot een telefoonnummer voor de Taj Mahal?

Google zegt dat het prioriteit geeft aan de informatie die het presenteert in Knowledge Graph-samenvattingen met behulp van ‘menselijke wijsheid’. En daarmee doet Google dat niet eigenlijk dingen betekenen die mensen hen vertellen of die vakdeskundigen of database-curatoren verzamelen – het betekent dat er indirecte aannames worden gedaan over de bedoelingen van gebruikers door zoekgedrag vast te leggen en bij te houden waar ze op klikken, waar ze niet op klikken en waar ze op letten nadat ze een zoekopdracht. Kort gezegd gebruikt Google crowdsourcing om te proberen te bepalen welke ‘feiten’ het beste kunnen worden gepresenteerd in een Kennisgrafiek-samenvatting.

Google zegt bijvoorbeeld dat de samenvattende Knowledge Graph-informatie die het voor Tom Cruise presenteert, 37 procent van de vervolgvragen van Google-zoekgebruikers over de acteur beantwoordt wanneer ze naar hem zoeken. Dat getal van 37 procent klinkt geruststellend wetenschappelijk en nauwkeurig, maar er is absoluut geen manier om dit te beoordelen of de beoordeling door Google van het totale gedrag van zoekgebruikers iets te maken heeft met wat een bepaalde gebruiker: leuk vinden Jij - wil weten. Omdat Google zo trots lijkt op dat cijfer van 37 procent, laten we het op zijn kop zetten: Google zegt 63 procent procent van de tijd kan het geen informatie presenteren over een onderwerp dat de zoekgebruikers vinden relevant.

Het standpunt van Google is gemakkelijk te begrijpen: waar mogelijk wil het bedrijf onmiddellijk de informatie presenteren waar zijn gebruikers naar op zoek zijn. De enige manier waarop Google dat echt kan beoordelen, is door te kijken naar hoe mensen de zoekmachine gebruiken en te proberen wat giswerk te doen.

Crowdsourcing kent zijn gevaren. Net zoals Google zich in troebel water begeeft als het dat wil prioriteit geven aan zoekresultaten van Google+ in Search Plus Your World zijn er gevaren verbonden aan het vertrouwen op crowdsourcing om prioriteit te geven aan de presentatie van informatie en ‘feiten’. Zojuist Het feit dat het zoekpubliek van Google bepaalde informatie mogelijk niet kent (of er vooral niet om geeft), betekent niet dat deze niet belangrijk is relevant. Er zijn genoeg gevallen waarin de perceptie van de feiten door ‘de menigte’ verkeerd is. De meeste mensen denken dat schizofrenie betekent dat je meerdere persoonlijkheden hebt, melk drinkt of ijs eet verhoogt de slijmproductie, en Marie Antoinette zei: "Laat ze cake eten." Toch is geen van deze dingen dat WAAR.

Het vertrouwen op crowdsourcing om het belang van informatie te beoordelen creëert ook potentieel voor misbruik. Stel dat een regering desinformatie over dissidenten wilde verspreiden, dat een politieke campagne een tegenstander zwart wilde maken, of dat hackers alleen maar voor de lol met de zoekresultaten wilden spelen? Op vrijwel dezelfde manier waarop de zoekresultaten van Google zijn “Google gebombardeerd”, zou crowdsourcing kunnen worden gebruikt om Knowledge Graph te manipuleren. Verstandige mensen zullen niet alles geloven wat ze lezen; Op dezelfde manier zullen ‘feiten’ die door semantische zoekmachines worden gepresenteerd niet betrouwbaar zijn – en in sommige gevallen zal crowdsourcing ze zelfs nog minder betrouwbaar maken.

Google plakkeriger maken

Aan de praktische kant zal de Knowledge Graph van Google één onmiddellijke impact hebben: het zal de zoekresultaten van Google plakkeriger maken. Wanneer Knowledge Graph een direct antwoord kan geven op de vraag van een zoekgebruiker – of hem er snel naartoe kan laten navigeren via gerelateerde onderwerpen – zullen gebruikers op Google-services blijven. Dat betekent dat Google meer gegevens verzamelt over de zoekopdrachten en het gedrag van gebruikers (ongeacht of ze zijn ingelogd op een Google-account of niet). Hierdoor kan Google zijn gerichte advertentieplatform verder verfijnen.

Het betekent ook dat diensten als Wikipedia vaak dezelfde soort kennisspecifiek beantwoorden Bij zoekopdrachten die door Knowledge Graph worden getarget, zal de hoeveelheid webverkeer die ze ontvangen afnemen Googlen. In het geval van Wikipedia komt dat direct overeen met minder mogelijkheden om steun van de gemeenschap te vragen; voor andere diensten zal dat zich direct vertalen in een lager aantal advertentievertoningen en (dus) lagere inkomsten. Voor mensen die sites en diensten aanbieden op basis van het verstrekken van discrete feiten en informatie - en dat omvat alles van Wikipedia tot IMDb tot online retailers om telefoonboeken en bedrijvengidsen te bellen naar (mogelijk) crowdsourceddiensten zoals Yelp en zelfs openbare archieven...Knowledge Graph zou hun positie langzaam kunnen uithollen ondernemingen.

Aanbevelingen van de redactie

Hoe u Google SGE gebruikt: probeer zelf de generatieve zoekervaring
U hoeft Bing niet te gebruiken: Google Search beschikt nu ook over AI
Hoe ChatGPT Microsoft kan helpen Google Search van de troon te stoten
Google Chrome krijgt een van de beste functies van Microsoft Edge
De nieuwe privacytool van Google laat u weten of uw persoonlijke gegevens zijn gelekt

Inside Knowledge Graph: de diepgaande semantische zoektocht van Google

Kennisgrafiek onder de motorkap

Kennisgrafiek op het scherm

Crowdsourcing... of Google-gekleurde lessen?

Google plakkeriger maken

Aanbevelingen van de redactie

Categorieën

Recente

EV's worden pas mainstream als er een Kia Seltos van EV's is

4 manieren waarop de best verkochte PHEV in 2024 nog beter is geworden

Star Wars: wat we zouden willen zien in Andor seizoen 2