Inside Knowledge Graph: Googlovo globoko semantično iskanje

Google Knowledge Graph

Google začenja uvajati svojo novo tehnologijo Knowledge Graph svojim angleško govorečim uporabnikom v Združenih državah. Čeprav se bo nova storitev pojavila kot dodatek Googlovim običajnim rezultatom spletnega iskanja - raje kot ločena storitev sama po sebi – predstavlja bistveno drugačen način pristopa Iskanje. Namesto da bi vrnili razvrščene rezultate iskanja na podlagi dobesednih iskalnih izrazov (ali nekaterih iskalnih izrazov oz morda popravljene različice nekaterih iskalnih izrazov), Knowledge Graph v bistvu poskuša povezati iskanje poizvedbe z stvari ve o: krajih, ljudeh, knjigah, filmih, dogodkih – če želite. Graf znanja je prizadevanje za dosego pomensko iskanje, ki poskuša vrniti rezultate na podlagi pomena tega, kar uporabniki iščejo, namesto le dobesednih ujemanj.

Ali lahko grafikon znanja spremeni način iskanja? In kaj bi to lahko pomenilo za Googlovo temeljno dejavnost – in spletna mesta, ki se zanašajo na Google, da pripelje promet na svoja spletna mesta?

Priporočeni videoposnetki

Grafikon znanja pod pokrovom

Google Knowledge Graph (Curie)

Čeprav je Knowledge Graph bistveno nova Googlova iskalna ponudba, sledi dobro uhojeni poti, ki jo Google že leta ubira s svojo glavno iskalno storitvijo. In Google pazi, da ga uvede na način, ki ni zelo moteč za njegovo iskanje, ki prevladuje na trgu.

Povezano

  • Googlov tekmec ChatGPT je pravkar začel iskati. Evo, kako to poskusiti
  • Ups – Google Bard AI demo je ovržen s prvim rezultatom iskanja
  • Google je pravkar razkril, kaj vas je v letu 2022 zdelo najbolj fascinantno

Google že leta lahko odgovori na izbor preprostih dejanskih poizvedb neposredno iz iskanja bar in celo nekaj izračunajte – priročno za ljudi, za katere je bolj verjetno, da imajo nameščen spletni brskalnik kot a kalkulator. Poskusite: Google bi moral zagotoviti neposredne odgovore na stvari, kot je »glavno mesto surinama« ali »kvadratni koren 3952.”

Z Grafikom znanja bo Google tudi spustil iskalne poizvedbe v zapletene podatkovne zbirke medsebojno povezanih informacij o... no, stvari, zaradi pomanjkanja boljših pogojev. Na nek način te zbirke podatkov delujejo podobno kot tradicionalno iskanje: vrnejo zapise s pomembnimi informacijami o določeni stvari. Za osebo je to lahko nekaj takega kot datum rojstva (in morda datum smrti), državljanstvo, naslovi ali funkcije, ki jih je morda imela, polno uradno ime in drugo.

Za stavbo lahko ti nabori podatkov vključujejo stvari, kot so njena lokacija, kdaj je bila zgrajena, njena skupna velikost, njen tip (recimo spomenik, maloprodajni prostor, komercialni prostor, bivališče, hm … vesoljska postaja?). Vendar poleg nekaj golih dejstev in nekaterih ključnih besed ti vnosi v bazo podatkov zbirajo tudi neposredne povezave do povezano objektov v bazi podatkov (ki se nato povezujejo z drugimi povezanimi objekti itd.). Po vsej verjetnosti je opredeljena tudi narava teh povezav. Na primer, vnos okoli osebe lahko vsebuje povezave do staršev, zakonca(-ov) in otrok te osebe ter druge pomembne odnose in biti sposoben razlikovati med družinskimi člani in drugimi vrstami odnosov. Baza podatkov ne bi opravljala svojega dela, če bi nabor podatkov o Georgeu H. W. Bush (41. predsednik Združenih držav) se ni povezal z naborom podatkov o Georgeu W. Bush (43. predsednik) - in oba bi se povezala s Condoleezzo Rice, vendar na različne načine. Nabor podatkov o Veliki piramidi bi moral vključevati povezave do Keopsa in Keopsa ter Sfinge - pa tudi do mavzoleja v Halikarnasu. (Ali lahko uganeš zakaj?)

Ti nabori podatkov sestavljajo srce semantičnega iskanja - in niso poceni. Prvič, ogromna so: vsota človeškega znanja je morda le majhen madež v obrazu vsega informacij v vesolju, vendar lahko samo strganje storitve zlahka ustvari na stotine milijonov (ali milijard) naborov podatkov. (Za primerjavo, angleška različica Wikipedije ima pičle 4 milijone ali več člankov.) Do teh naborov podatkov ni lahko priti: skrbno jih je treba sestaviti iz zanesljivih virov. Poleg tega morajo biti organizirani in oblikovani tako, da je mogoče dostopati do informacij in jih manipulirati na uporabne načine (in v realnem času, za Googlove namene). in nabori podatkov morajo biti sposobni obvladati moško naravo »znanja«. Navsezadnje je bil še pred nekaj leti Pluton planet in Vioxx zdravilo za osteoartritis, ki ga je odobrila FDA.

Google očitno gradi svoje baze podatkov s tehnologijami in metodami, pridobljenimi z Metawebom leta 2010 - čeprav Metaweb Freebase semantična zbirka podatkov ostane na voljo vsem. Google uporablja Freebase za podatke, skupaj z informacijami, pridobljenimi iz Wikipedije in CIA World Factbook. Google terjatve njegova podatkovna zbirka Knowledge Graph že vsebuje vnose za približno 500 milijonov predmetov (upoštevajte, da predmetov ni mogoče neposredno primerjati z članki v Wikipediji) in približno 3,5 milijarde »dejstev«. »Dejstvo« smo dali v narekovaje, ker je bilo nekoč »dejstvo«, da je Zemlja ploščata in ljudje ni mogel leteti. Znanje je spolzko.

Grafikon znanja na zaslonu

Googlova začetna implementacija Knowledge Graph je zasnovana tako, da razširi obstoječe sezname rezultatov iskanja podjetja, namesto da jih nadomesti. Podobno kot Google včasih prikaže predoglede strani v plošči na desni strani rezultatov iskanja v standardnem oknu spletnega brskalnika, bodo rezultati Grafa znanja prikazani v ploščah poleg rezultatov iskanja. Vsi iskalni izrazi ne bodo ustvarili plošč grafikona znanja: poizvedbe se bodo morale ujemati z dobro definiranimi predmeti v grafikonu znanja. (Ne skrbite, če še ne vidite rezultatov grafikona znanja; Google še vedno uvaja to funkcijo in trenutno je omejena na angleško govoreče uporabnike v Združenih državah.)

Plošče grafikona znanja si prizadevajo prikazati povzetek ključnih in najbolj iskanih informacij o poizvedbi ne da bi od uporabnikov zahtevali, da preberejo dvovrstične povzetke spletne strani ali kliknejo na drugo mesto. Za osebo lahko ta ključna dejstva vključujejo datume rojstva in smrti, pomembne osebe, povezane z njo, in kratke poudarke naslovov, dosežkov ali česa drugega naredi to osebo pomembno. Za druge subjekte bo Google poskušal razkriti ključne informacije, statistiko in povezave. Plošča Grafikon znanja bo obravnavala tudi razločitev. Če se več kot ena entiteta Grafa znanja ujema z iskalno poizvedbo, Google omogoči dostop do vseh.

Morda še pomembneje, ko uporabniki komunicirajo z entiteto grafikona znanja, lahko v določenih mejah brskajo po povezavah odnosov do teh entitet. Če na primer potegnete vnos v grafikon znanja o Dashiellu Hammettu, bi morali uporabniki takoj skočiti na povzetek grafikona znanja o Tanek človek in Malteški sokol — in morda na povzetke o Lillian Helman in protikomunističnem lovu na čarovnice po drugi svetovni vojni.

Grafikon znanja ne bo omejen na iskanja v brskalniku: Google trenutno uvaja rezultate iskanja Grafikona znanja večini naprav s sistemom Android 2.2 ali novejšim (spet samo v ZDA v angleščini) v polju za hitro iskanje in v brskalniku iskalcev. Rezultati iskanja Knowledge Graph bodo predstavljeni tudi v prihodnjih različicah Googlove iskalne aplikacije za naprave iOS. Uporabniki lahko krmarijo po informacijah v Knowledge Graphu tako, da se dotikajo ali povlečejo naprej in nazaj po vsebini.

Google Knowledge Graph (mobilno)

Pomembno je omeniti, da so to le prva mesta, ki se Knowledge Graph prikažejo v Googlovih storitvah. V zakulisju lahko pričakujete, da bodo rezultati iskanja Knowledge Graph začeli obveščati o široki paleti Googlovih storitev, zlasti ko se bo povečal njegov korpus naborov podatkov in »dejstev«. Iskanje po grafikonu znanja verjetno nikoli ne bo zamenjati Googlovo tradicionalno iskanje na podlagi ključnih besed – semantično iskanje in dobesedno iskanje sta dve različni orodji, ki sta dobri za dve ločeni nalogi – vendar teoretično ne bi bilo presenetljivo, če bi Knowledge Graph nekega dne prispeval k kar četrtini Googlovih interakcij z iskanjem uporabniki.

Crowdsourcing... ali tečaji, obarvani z Googlom?

Torej, kako Graf znanja izbere informacije za svoje povzetke? Google doslej ni bil zelo jasen glede metodologije za predstavitvijo Grafa znanja. V mojem (omejenem) vzorčenju se zdi, da je dober del podatkov, ki jim Google daje prednost za svoje povzetke, precej dosleden: datumi, odnosi, in eno samo polje »pomemben dosežek« za ljudi (ki bi ga lahko označili kot »Odkritja« ali »Poklic« oz. "Naslov"). Kraji dobijo lokacije in datume ter izbor drugih polj, ki so lahko natanko tisto, kar nekdo želi ali popolnoma neprimerno. Na primer, če gledate Empire State Building, se zdi navedba uličnega naslova ustrezna... ni pa povsem primerna za, recimo, Stonehenge. Podobne nenavadnosti se lahko zgodijo s telefonskimi številkami: koliko ljudi potrebuje takojšen dostop do telefonske številke za Taj Mahal?

Google Knowledge Graph (Tadž Mahal)

Google pravi, da daje prednost informacijam, ki jih predstavlja v povzetkih Knowledge Graph, z uporabo "človeške modrosti". In s tem Google ne dejansko pomenijo stvari, ki jim jih povedo ljudje ali ki jih zbirajo strokovnjaki ali skrbniki baz podatkov – to pomeni ustvarjanje posrednih predpostavk o namerah uporabnikov tako, da beležijo vedenje pri iskanju in spremljajo, kaj kliknejo, kaj ne kliknejo in kaj iščejo, potem ko naredijo Iskanje. Na kratko, Google uporablja množično iskanje, da bi ugotovil, katera »dejstva« so najboljša za predstavitev v povzetku grafikona znanja.

Google na primer pravi, da povzetek informacij Grafa znanja, ki jih predstavlja za Toma Cruisa, odgovarja na 37 odstotkov nadaljnjih poizvedb uporabnikov iskalnika Google o igralcu, ko ga iščejo. Ta 37-odstotna številka zveni prepričljivo znanstveno in natančno, vendar ni nobenega načina za oceno ali ima Googlova ocena skupnega vedenja uporabnikov iskanja kaj skupnega s tem, kaj določen uporabnik – kot ti — želi vedeti. Ker se zdi, da je Google tako ponosen na teh 37 odstotkov, obrnimo zadevo na glavo: Google pravi, da 63 odstotkov časa ne more predstaviti nobenih informacij o temi, ki jo najdejo uporabniki njegovega iskanja ustrezen.

Googlovo stališče je lahko razumljivo: kadar koli je to mogoče, želi takoj predstaviti informacije, ki jih njegovi uporabniki iščejo. Edini način, da Google to resnično oceni, je, da pogleda, kako ljudje uporabljajo njegov iskalnik, in poskuša ugibati.

Crowdsourcing ima svoje nevarnosti. Tako kot Google stopa v motnih vodah, ko se tako odloči dajte prednost rezultatom iskanja iz storitve Google+ v storitvi Search Plus Your World obstaja nevarnost zanašanja na zbiranje množic, da bi dali prednost predstavitvi informacij in »dejstev«. Samo ker Googlovo iskalno občinstvo morda ne pozna (ali posebej ne zanima) določenih informacij, to ne pomeni, da niso pomembne oz ustrezen. Veliko je primerov, ko »množica« dojema dejstva napačno. Večina ljudi misli, da shizofrenija pomeni imeti več osebnosti, piti mleko ali jesti sladoled poveča proizvodnjo sluzi in Marie Antoinette je rekla: "Naj jedo torto." Vendar nobena od teh stvari ni prav.

Zanašanje na zbiranje podatkov pri ocenjevanju pomembnosti informacij prav tako ustvarja možnost zlorabe. Recimo, da je vlada želela sejati napačne informacije o disidentih, politična kampanja je želela blatiti nasprotnika ali pa so se hekerji želeli igrati z rezultati iskanja samo za smeh? Na skoraj enak način so bili Googlovi rezultati iskanja »Google bombardiran,« bi se množično iskanje lahko uporabilo za manipulacijo Knowledge Graph. Razumni ljudje ne bodo verjeli vsemu, kar preberejo; podobno "dejstva", ki jih predstavijo semantični iskalniki, ne bodo zanesljiva - v nekaterih primerih pa jih bo zaradi množičnega izvajanja še manj.

Naredite Google lepši

S praktične strani bo imel Googlov grafikon znanja takojšen učinek: naredil bo Googlove rezultate iskanja bolj lepljive. Kadarkoli lahko Knowledge Graph zagotovi neposreden odgovor na vprašanje iskalnega uporabnika – ali jim omogoči hitro navigacijo do njega prek sorodnih tem – bodo uporabniki ostali na Googlovih storitvah. To pomeni, da Google zbira več podatkov o iskanjih in vedenju uporabnikov (ne glede na to, ali so prijavljeni v Google Račun ali ne). To pa Googlu omogoča, da dodatno izboljša svojo ciljano oglaševalsko platformo.

Pomeni tudi, da storitve, kot je Wikipedia, pogosto odgovarjajo na iste vrste vprašanj, specifičnih za znanje poizvedbe, na katere cilja Grafikon znanja, bodo opazile upad količine spletnega prometa, ki ga prejmejo Google. V primeru Wikipedije to neposredno ustreza manj priložnostim za pridobitev podpore skupnosti; za druge storitve, kar bo pomenilo neposredno manjše število prikazov oglasov in (s tem) nižje prihodke. Za ljudi, ki ponujajo spletna mesta in storitve, ki temeljijo na zagotavljanju diskretnih dejstev in informacij – in to vključuje vse od Wikipedije do IMDb do spletnih prodajalcev telefonskih imenikov in poslovnih imenikov do (verjetno) množičnih storitev, kot je Yelp, in celo javnih evidenc... Knowledge Graph bi lahko počasi oslabil njihove podjetja.

Priporočila urednikov

  • Kako uporabljati Google SGE — sami preizkusite generativno izkušnjo iskanja
  • Ni vam treba uporabljati storitve Bing – Google Search ima zdaj tudi AI
  • Kako lahko ChatGPT pomaga Microsoftu odstraniti Google Iskanje
  • Google Chrome dobi eno najboljših funkcij Microsoft Edge
  • Googlovo novo orodje za zasebnost vas obvesti, če so vaši osebni podatki ušli