Inside Knowledge Graph: Googlen syvällinen semanttinen haku

Google alkaa tuoda uutta Knowledge Graph -tekniikkaansa englanninkielisille käyttäjilleen Yhdysvalloissa. Vaikka uusi palvelu tulee esiin Googlen tavallisten verkkohakutulosten lisänä - pikemminkin kuin erillinen palvelu sinänsä – se edustaa olennaisesti erilaista lähestymistapaa Hae. Sen sijaan, että palautat sijoittuneet hakutulokset kirjaimellisten hakutermien (tai joidenkin hakutermien tai mahdollisesti korjatut versiot joistakin hakutermeistä), Knowledge Graph yrittää olennaisesti yhdistää haun kyselyt kanssa tavaraa se tietää: paikoista, ihmisistä, kirjoista, elokuvista, tapahtumista – voit nimetä sen. Knowledge Graph on pyrkimys saavuttaa semanttinen haku, joka yrittää palauttaa tuloksia käyttäjien haun merkityksen perusteella pelkkien kirjaimellisten osumien sijaan.

Voiko Knowledge Graph muuttaa hakutapaamme? Ja mitä se voisi tarkoittaa Googlen perusliiketoiminnalle – ja sivustoille, jotka luottavat siihen, että Google tuo liikennettä sivustoilleen?

Suositellut videot

Tietograafi konepellin alla

Vaikka Knowledge Graph on pohjimmiltaan uudenlainen Googlen hakutarjonta, se noudattaa vapaita polkuja, joita Google on kulkenut vuosia valtavirran hakupalvelullaan. Ja Google on varovainen esittelemään sen tavalla, joka ei hirveästi häiritse sen markkinoita hallitsevaa hakua.

Liittyvät

Googlen ChatGPT-kilpailija julkaisi juuri haun. Näin voit kokeilla sitä
Hups – Google Bard AI -demo on kumottu ensimmäisellä hakutuloksella
Google paljasti juuri sen, mikä oli kiehtovinta vuonna 2022

Google on vuosien ajan pystynyt vastaamaan valikoimaan yksinkertaisia faktakysymyksiä suoraan hausta palkkia ja jopa laskea – kätevä ihmisille, joilla on todennäköisemmin verkkoselain käynnissä kuin a laskin. Kokeile: Googlen pitäisi tarjota suoria vastauksia esimerkiksi "surinamen pääkaupunki" tai "neliöjuuri 3952.”

Knowledge Graphin avulla Google myös pudottaa hakukyselyt monimutkaisiin tietokantoihin, jotka sisältävät toisiinsa liittyviä tietoja… asioita, parempien ehtojen puutteessa. Joillakin tavoilla nämä tietokannat toimivat aivan kuten perinteinen haku: ne palauttavat tietueita, joissa on tärkeitä tietoja tietystä asiasta. Henkilölle se voi olla esimerkiksi hänen syntymäaikansa (ja ehkä kuolinpäivänsä), heidän kansallisuutensa, tittelinsä tai virkaansa, jotka heillä on mahdollisesti ollut, koko virallinen nimi ja paljon muuta.

Rakennuksen osalta nämä tietojoukot voivat sisältää esimerkiksi sen sijaintia, rakennusaikaa, kokonaiskokoa ja tyyppiä (esimerkiksi muistomerkki, liiketila, liiketila, asuinpaikka, hm…avaruusasema?). Muutaman paljaan faktan ja joidenkin avainsanojen lisäksi nämä tietokantamerkinnät keräävät kuitenkin myös suoria linkkejä liittyvät tietokannan objekteja (jotka puolestaan linkittävät muihin liittyviin objekteihin ja niin edelleen). Todennäköisesti myös näiden linkkien luonne on määritelty. Esimerkiksi henkilöä koskeva merkintä voi sisältää linkkejä kyseisen henkilön vanhemmille, puolisoille ja lapsille ja muita merkittäviä ihmissuhteita ja pystyä erottamaan perheenjäsenet muuntyyppisistä ihmissuhteista. Tietokanta ei tekisi tehtäväänsä, jos tietojoukko George H. W. Bush (Yhdysvaltojen 41. presidentti) ei linkittänyt tietojoukkoon George W. Bush (43. presidentti) – ja molemmat yhdistäisivät Condoleezza Riceen, mutta eri tavoin. Suuren pyramidin tietojoukon tulisi sisältää linkkejä Cheopsiin ja Khufuun ja Sfinksiin – mutta myös Halikarnassoksen mausoleumiin. (Arvaatko miksi?)

Nämä tietojoukot muodostavat semanttisen haun ytimen – eivätkä ne ole halpoja. Ensinnäkin ne ovat valtavia: ihmisten tiedon summa voi olla vain pieni täplä kaiken edessä. tietoa maailmankaikkeudessa, mutta pelkkä palvelun kaapiminen voi helposti tuottaa satoja miljoonia (tai miljardeja) tietojoukoista. (Vertailuksi Wikipedian englanninkielisessä versiossa on noin 4 miljoonaa artikkelia.) Näitä aineistoja ei ole helppo saada: ne on koottava huolella luotettavista lähteistä. Lisäksi ne on järjestettävä ja suunniteltava siten, että tiedot ovat käytettävissä ja niitä voidaan käsitellä hyödyllisillä tavoilla (ja reaaliajassa Googlen tarkoituksiin). Ja tietojoukkojen on kyettävä selviytymään "tiedon" miehittävän luonteen kanssa. Loppujen lopuksi vain muutama vuosi sitten Pluto oli planeetta ja Vioxx oli FDA: n hyväksymä nivelrikon hoito.

Google ilmeisesti rakentaa tietokantojaan käyttämällä Metawebin kanssa vuonna 2010 hankittuja teknologioita ja menetelmiä – vaikka Metawebin Freebase semanttinen tietokanta on kaikkien saatavilla. Google käyttää Freebasea dataan sekä Wikipediasta poimittuja tietoja CIA World Factbook. Google väitteet sen Knowledge Graph -tietokannassa on jo merkintöjä noin 500 miljoonasta objektista (huomaa, että objekteja ei voi verrata suoraan Wikipedian artikkelit) ja noin 3,5 miljardia "faktaa". Laitoimme sanan "fakta" lainausmerkkeihin, koska se oli kerran "fakta", että maapallo oli litteä ja ihmiset ei voinut lentää. Tieto on liukasta.

Tietograafi näytöllä

Googlen Knowledge Graphin alkuperäinen käyttöönotto on suunniteltu lisäämään yrityksen olemassa olevia hakutulosluetteloita sen sijaan, että se korvaa ne. Aivan kuten Google näyttää joskus sivujen esikatselut paneelissa hakutulosten oikealla puolella tavallisessa verkkoselainikkunassa, Knowledge Graph -tulokset näkyvät paneeleissa hakutulosten vieressä. Kaikki hakutermit eivät tuota Knowledge Graph -paneeleja: Kyselyjen on vastattava hyvin määriteltyjä objekteja Knowledge Graphissa. (Älä huoli, jos et vielä näe Knowledge Graph -tuloksia. Google ottaa edelleen käyttöön ominaisuuden, ja tällä hetkellä se on rajoitettu englanninkielisiin käyttäjiin Yhdysvalloissa.)

Knowledge Graph -paneelit pyrkivät näyttämään yhteenvedon kyselyn tärkeimmistä ja halutuimmista tiedoista ilman, että käyttäjät lukevat Web-sivun kaksirivisiä yhteenvetoja tai napsauttavat toiselle sivusto. Henkilölle näitä keskeisiä faktoja voivat olla syntymä- ja kuolinpäivät, heihin liittyvät merkittävät henkilöt ja nopeat kohokohdat titteleistä, saavutuksista tai siitä, mikä tekee kyseisestä henkilöstä merkittävän. Muiden tahojen osalta Google yrittää tuoda esiin tärkeitä tietoja, tilastoja ja yhteyksiä. Knowledge Graph -paneeli käsittelee myös yksiselitteisyyden. Jos useampi kuin yksi Knowledge Graph -entiteetti vastaa hakukyselyä, Google tarjoaa pääsyn niihin kaikkiin.

Ehkä vielä tärkeämpää on, että kun käyttäjät ovat vuorovaikutuksessa Knowledge Graph -yksikön kanssa, he voivat joissakin rajoissa selata suhteiden linkkejä näihin entiteeteihin. Jos esimerkiksi vedät esiin tietograafin merkinnän Dashiell Hammettista, käyttäjien pitäisi heti siirtyä tietograafin yhteenvetoon Ohut Mies ja Maltan haukka - ja ehkä yhteenvetoja Lillian Helmanista ja toisen maailmansodan jälkeisistä antikommunistisista noitametsästäjistä.

Knowledge Graph ei rajoitu selainpohjaisiin hakuihin: Google julkaisee parhaillaan Knowledge Graph -hakutuloksia useimmille laitteille, joissa on Android 2.2 tai uudempi (jälleen vain Yhdysvalloissa englanniksi) Pikahakukentässä ja selainpohjaisessa etsijät. Knowledge Graph -hakutulokset esitellään myös Googlen iOS-laitteiden hakusovelluksen tulevissa versioissa. Käyttäjät voivat selata Tietograafin tietoja napauttamalla tai pyyhkäisemällä edestakaisin sisällön läpi.

On tärkeää huomata, että nämä ovat vain ensimmäisiä paikkoja, jotka Knowledge Graph tulee esiin Googlen palveluissa. Kulissien takana voit odottaa Knowledge Graph -hakutulosten alkavan kertoa monenlaisille Google-palveluille, etenkin kun sen tietojoukkojen ja "faktien" määrä kasvaa. Knowledge Graph -hakuja ei todennäköisesti koskaan tehdä korvata Googlen perinteinen avainsanapohjainen haku – semanttinen haku ja kirjaimellinen haku ovat kaksi erilaista työkalua, jotka sopivat kahteen eri tehtävään. mutta teoriassa ei olisi yllättävää, jos Knowledge Graph jonain päivänä vaikuttaisi jopa neljännekseen Googlen vuorovaikutuksista haun kanssa käyttäjiä.

Crowdsourcing… vai Googlen värisiä kursseja?

Joten miten Knowledge Graph poimii tiedot yhteenvedoilleen? Toistaiseksi Google ei ole kertonut kovin yksiselitteisesti Knowledge Graphin esityksen taustalla olevaa metodologiaa. Minun (rajoitetun) otokseni mukaan suuri osa tiedoista, jotka Google priorisoi yhteenvedoissaan, näyttää olevan melko johdonmukaisia: päivämäärät, suhteet, ja yksi "merkittävä saavutus" -kenttä ihmisille (joka voisi olla esimerkiksi "löydöt" tai "ammatti" tai "Otsikko"). Paikat saavat paikat ja päivämäärät sekä valikoiman muita kenttiä, jotka voivat olla juuri sitä, mitä joku haluaa tai täysin sopimattomia. Jos esimerkiksi katsot The Empire State Buildingia, katuosoitteen ilmoittaminen näyttää sopivalta… mutta se ei ole aivan yhtä sopiva esimerkiksi Stonehengelle. Samanlaisia kummallisuuksia voi tapahtua puhelinnumeroiden kanssa: kuinka moni tarvitsee välittömän pääsyn Taj Mahalin puhelinnumeroon?

Google sanoo priorisoivansa Knowledge Graph -yhteenvedoissa esittämänsä tiedot "inhimillisen viisauden" avulla. Ja siksi Google ei todella tarkoittavat asioita, joita ihmiset kertovat heille tai joita aiheasiantuntijat tai tietokannan kuraattorit keräävät – se tarkoittaa epäsuorien oletusten tekemistä tietoja käyttäjien aikeista kirjaamalla hakukäyttäytymistä ja seuraamalla, mitä he napsauttavat, eivät klikkaa ja mitä he etsivät Hae. Lyhyesti sanottuna Google käyttää joukkohankintaa selvittääkseen, mitkä "faktat" ovat parhaita esitettäväksi Knowledge Graph -yhteenvedossa.

Esimerkiksi Google sanoo, että sen Tom Cruiselle esittämät Knowledge Graph -yhteenvetotiedot vastaavat 37 prosenttiin Google-haun käyttäjien näyttelijää koskevista jatkokyselyistä, kun he etsivät häntä. Tuo 37 prosentin luku kuulostaa vakuuttavan tieteelliseltä ja täsmälliseltä, mutta sitä ei voi mitenkään arvioida. onko Googlen arviolla hakukäyttäjien kokonaiskäyttäytymisestä mitään tekemistä sen kanssa, mitä tietty käyttäjä – Kuten sinä - haluaa tietää. Koska Google näyttää niin ylpeältä tuosta 37 prosentin luvusta, käännetään se päälaelleen: Google sanoo 63 prosenttia ajasta, se ei voi esittää mitään tietoa aiheesta, jonka sen hakukäyttäjät löytävät asiaankuuluvaa.

Googlen kanta on helppo ymmärtää: Aina kun mahdollista, se haluaa heti esittää käyttäjiensä etsimät tiedot. Ainoa tapa, jolla Google voi todella arvioida sen, on tarkastella, kuinka ihmiset käyttävät sen hakukonetta ja yrittää tehdä arvauksia.

Joukkohankinnassa on omat vaaransa. Aivan kuten Google tallaa hämärillä vesillä halutessaan priorisoi hakutuloksia Google+ -palvelusta Search Plus Your World -sovelluksessa on riskejä luottaa joukkolähteeseen tiedon ja "faktojen" esittämisen priorisoinnissa. Vain koska Googlen hakuyleisö ei ehkä tiedä (tai välitä erityisen paljon) tietyistä tiedoista, se ei tarkoita, että ne eivät olisi tärkeitä tai asiaankuuluvaa. On monia tapauksia, joissa "yleisön" käsitys tosiasioista on väärä. Useimmat ihmiset ajattelevat, että skitsofrenia tarkoittaa useita persoonallisuuksia, maidon juomista tai jäätelön syömistä lisää liman tuotantoa, ja Marie Antoinette sanoi: "Anna heidän syödä kakkua." Mikään näistä asioista ei kuitenkaan ole totta.

Joukkohankinnan luottaminen tiedon tärkeyden arvioinnissa luo myös mahdollisia väärinkäytöksiä. Sanotaanko, että hallitus halusi kylvää väärää tietoa toisinajattelijoista, poliittinen kampanja halusi tahrata vastustajaa tai hakkerit halusivat leikkiä hakutuloksilla vain naurun vuoksi? Samalla tavalla Googlen hakutulokset ovat olleetGooglepommitti”, joukkohankintaa voitaisiin käyttää Knowledge Graphin manipuloimiseen. Järkevät ihmiset eivät usko kaikkea lukemaansa; Samoin semanttisten hakukoneiden esittämät "faktat" eivät ole luotettavia - ja joissakin tapauksissa joukkolähde tekee niistä vieläkin vähemmän luotettavia.

Googlen tekeminen tarttuvammaksi

Käytännön puolella Googlen Knowledge Graphilla on yksi välitön vaikutus: se tekee Googlen hakutuloksista tahmeampia. Aina kun Knowledge Graph voi tarjota suoran vastauksen haun käyttäjän kysymykseen – tai antaa heidän siirtyä siihen nopeasti aiheeseen liittyvien aiheiden kautta – käyttäjät pysyvät Googlen palveluissa. Tämä tarkoittaa, että Google kerää enemmän tietoa käyttäjien hauista ja käyttäytymisestä (riippumatta siitä, ovatko he kirjautuneita Google-tilille vai eivät). Tämä puolestaan antaa Googlelle mahdollisuuden tarkentaa kohdennettua mainonta-alustaa.

Se tarkoittaa myös sitä, että Wikipedian kaltaiset palvelut vastaavat usein samanlaisiin tietokohtaisiin kysymyksiin Knowledge Graphin kohdistamien kyselyiden saama verkkoliikenteen määrä vähenee Google. Wikipedian tapauksessa tämä vastaa suoraan vähemmän mahdollisuuksia pyytää yhteisön tukea; muiden palvelujen osalta, mikä merkitsee suoraan pienempiä mainosten näyttökertoja ja (siis) pienempiä tuloja. Ihmisille, jotka tarjoavat sivustoja ja palveluita, jotka perustuvat erillisten faktojen ja tietojen tarjoamiseen – ja se sisältää kaiken Wikipediasta IMDb: hen ja verkkokauppiaisiin puhelinluetteloihin ja yrityshakemistoihin (mahdollisesti) joukkolähteisiin palveluihin, kuten Yelpiin, ja jopa julkisiin tietueisiin… Knowledge Graph saattaa hitaasti murentaa heidän yrityksille.

Toimittajien suositukset

Kuinka käyttää Google SGE: tä – kokeile itse hakujen luovaa kokemusta
Sinun ei tarvitse käyttää Bingiä – Google-haussa on nyt myös tekoäly
Kuinka ChatGPT voisi auttaa Microsoftia syrjäyttämään Google-haun
Google Chrome saa yhden Microsoft Edgen parhaista ominaisuuksista
Googlen uusi tietosuojatyökalu ilmoittaa, jos henkilötietosi ovat vuotaneet

Inside Knowledge Graph: Googlen syvällinen semanttinen haku

Tietograafi konepellin alla

Tietograafi näytöllä

Crowdsourcing… vai Googlen värisiä kursseja?

Googlen tekeminen tarttuvammaksi

Toimittajien suositukset

Luokat

Viimeaikaiset

Kun koronavirus sulkee kuntosalit, on aika aloittaa kotikuntosali

Way Beyond Kellot: Mitä uutta Wearable Techin maailmassa

Uusi RAZR on siistiä, mutta emme voi unohtaa Motorolan suurimpia floppeja