Inside Knowledge Graph: Googleovo dubinsko semantičko pretraživanje

Google počinje uvoditi svoju novu tehnologiju Knowledge Graph svojim korisnicima koji govore engleski u Sjedinjenim Državama. Iako će se nova usluga pojaviti kao dodatak Googleovim normalnim rezultatima pretraživanja weba - radije nego zasebna usluga sama po sebi — predstavlja bitno drugačiji način pristupa traži. Umjesto vraćanja rangiranih rezultata pretraživanja na temelju doslovnih pojmova za pretraživanje (ili nekih pojmova za pretraživanje, ili moguće ispravljene verzije nekih pojmova za pretraživanje), Knowledge Graph u biti pokušava povezati pretraživanje upiti sa stvari zna o: mjestima, ljudima, knjigama, filmovima, događajima - što god želite. Knowledge Graph je pokušaj da se postigne semantičko pretraživanje, pokušavajući vratiti rezultate na temelju značenja onoga što korisnici traže, umjesto samo doslovnih podudaranja.

Može li Grafikon znanja promijeniti način na koji pretražujemo? I što bi to moglo značiti za Googleovo temeljno poslovanje - i web-lokacije koje se oslanjaju na Google da dovede promet na svoje web-lokacije?

Preporučeni videozapisi

Grafikon znanja ispod haube

Iako je Knowledge Graph temeljno nova vrsta Googleove ponude za pretraživanje, ona slijedi dobro utabane staze koje Google slijedi godinama sa svojom glavnom uslugom pretraživanja. A Google pazi da ga predstavi na način koji ne ometa njegovo pretraživanje koje dominira tržištem.

Povezano

Googleov rival ChatGPT upravo je pokrenut u pretraživanju. Evo kako to isprobati
Ups — demo Google Bard AI opovrgnut je prvim rezultatom pretraživanja
Google je upravo otkrio što vam je bilo najfascinantnije u 2022

Godinama je Google mogao odgovoriti na izbor jednostavnih činjeničnih upita izravno iz pretraživanja traku, pa čak i malo izračunati — zgodno za ljude za koje je vjerojatnije da imaju pokrenut web preglednik nego a kalkulator. Isprobajte: Google bi trebao pružiti izravne odgovore na stvari poput "glavni grad surinama" ili "kvadratni korijen 3952.”

Uz Knowledge Graph, Google će također ispuštati upite za pretraživanje u složene baze podataka međusobno povezanih informacija o... pa, stvari, u nedostatku boljih uvjeta. Na neki način te baze podataka funkcioniraju poput tradicionalnog pretraživanja: vraćaju zapise s važnim dijelovima informacija o određenoj stvari. Za osobu to može biti nešto poput datuma rođenja (a možda i datuma smrti), nacionalnosti, titule ili dužnosti koje je možda obnašala, punog službenog imena i više.

Za zgradu, ovi skupovi podataka mogu uključivati stvari kao što su njezina lokacija, kada je izgrađena, njezina ukupna veličina, njezina vrsta (recimo, spomenik, maloprodajni prostor, poslovni prostor, prebivalište, hm... svemirska postaja?). Međutim, uz ono što iznosi nekoliko golih činjenica i nekih ključnih riječi, ovi unosi u bazu podataka također skupljaju izravne veze na srodni objekte u bazi podataka (koji se zauzvrat povezuju s drugim povezanim objektima i tako dalje). Po svoj prilici, definirana je i priroda tih veza. Na primjer, unos oko osobe može sadržavati poveznice na roditelje, supružnike i djecu te osobe, i druge značajne odnose i biti u stanju razlikovati članove obitelji od drugih vrsta odnosa. Baza podataka ne bi radila svoj posao da skup podataka o Georgeu H. W. Bush (41. predsjednik Sjedinjenih Država) nije povezao skup podataka o Georgeu W. Bush (43. predsjednik) — i oboje bi se povezali s Condoleezzom Rice, ali na različite načine. Skup podataka o Velikoj piramidi trebao bi uključivati poveznice na Keopsa i Khufua i Sfingu - ali i na Mauzolej u Halikarnasu. (Možete li pogoditi zašto?)

Ovi skupovi podataka čine srce semantičkog pretraživanja - i nisu jeftini. Prije svega, oni su golemi: zbroj ljudskog znanja može biti tek mrvica naspram svih informacija u svemiru, ali samo izvlačenje usluge može lako proizvesti stotine milijuna (ili milijardi) skupova podataka. (Za usporedbu, engleska verzija Wikipedije ima oko 4 milijuna članaka.) Do ovih skupova podataka nije lako doći: moraju se mukotrpno prikupljati iz pouzdanih izvora. Nadalje, moraju biti organizirani i dizajnirani na takav način da se informacijama može pristupiti i manipulirati njima na korisne načine (iu stvarnom vremenu, za potrebe Googlea). I skupovi podataka moraju biti u stanju nositi se s podložnom prirodom "znanja". Uostalom, prije samo nekoliko godina, Pluton je bio planet, a Vioxx je bio lijek za osteoartritis koji je odobrila FDA.

Google očito gradi svoje baze podataka koristeći tehnologije i metode stečene s Metawebom još 2010. godine — iako je Metaweb Freebase semantička baza podataka ostaje dostupna svima. Google koristi Freebase za podatke, zajedno s informacijama iz Wikipedije i CIA Svjetska knjiga činjenica. Google zahtjevi njegova baza podataka Grafikona znanja već ima unose za oko 500 milijuna objekata (napominjemo da se objekti ne mogu izravno usporediti s članci na Wikipediji) i oko 3,5 milijardi “činjenica”. “Činjenicu” stavljamo pod navodnike jer je nekad bila “činjenica” da je Zemlja ravna i da su ljudi nije mogao letjeti. Znanje je sklisko.

Grafikon znanja na ekranu

Googleova početna implementacija Knowledge Grapha osmišljena je da proširi postojeće popise rezultata pretraživanja tvrtke, umjesto da ih zamijeni. Kao što Google ponekad prikazuje preglede stranica na ploči s desne strane rezultata pretraživanja u standardnom prozoru web-preglednika, rezultati Grafikona znanja pojavit će se na pločama pored rezultata pretraživanja. Neće svi pojmovi za pretraživanje proizvesti ploče Grafikona znanja: Upiti će se morati podudarati s dobro definiranim objektima na Grafikonu znanja. (Ne brinite ako još ne vidite rezultate Grafikona znanja; Google još uvijek uvodi tu značajku i trenutno je ograničena na korisnike koji govore engleski u Sjedinjenim Državama.)

Ploče Grafikona znanja nastoje prikazati sažetak ključnih i najtraženijih informacija o upitu bez potrebe da korisnici čitaju sažetke web-stranice u dva retka ili kliknu na drugu mjesto. Za osobu te ključne činjenice mogu uključivati datume rođenja i smrti, značajne osobe povezane s njom i kratke naglaske titula, postignuća ili onoga što tu osobu čini značajnom. Za druge subjekte Google će pokušati otkriti ključne informacije, statistike i povezanosti. Ploča Grafikona znanja također će rješavati višeznačne odrednice. Ako više od jednog entiteta Grafikona znanja odgovara upitu pretraživanja, Google omogućuje pristup svima njima.

Možda još značajnije, kada korisnici stupe u interakciju s entitetom Grafa znanja, mogu, unutar nekih ograničenja, surfati vezama odnosa s tim entitetima. Na primjer, povlačenje unosa Grafikona znanja o Dashiellu Hammettu trebalo bi omogućiti korisnicima da odmah skoče na sažetak Grafikona znanja o Mršavi čovjek i Malteški sokol — i možda na sažetke o Lillian Helman i antikomunističkom lovu na vještice nakon Drugog svjetskog rata.

Grafikon znanja neće biti ograničen na pretraživanja temeljena na pregledniku: Google trenutno uvodi rezultate pretraživanja Grafikona znanja na većinu uređaja sa sustavom Android 2.2 ili novijim (opet, samo za SAD na engleskom) u okvir za brzo pretraživanje i na temelju preglednika tragači. Rezultati pretraživanja Grafikona znanja također će biti uvedeni u nadolazeće verzije Googleove aplikacije za pretraživanje za iOS uređaje. Korisnici se mogu kretati informacijama u Knowledge Graphu dodirivanjem ili pomicanjem naprijed-natrag kroz sadržaj.

Važno je napomenuti da su ovo samo prva mjesta na kojima se Knowledge Graph pojavljuje u Googleovim uslugama. Iza kulisa, možete očekivati da će rezultati pretraživanja Grafikona znanja početi informirati široku paletu Googleovih usluga, osobito kako njegov korpus skupova podataka i "činjenica" raste. Pretraživanja Grafikona znanja vjerojatno nikada neće zamijeniti Googleovo tradicionalno pretraživanje temeljeno na ključnim riječima — semantičko pretraživanje i doslovno pretraživanje dva su različita alata dobra za dva odvojena zadatka — ali, u teoriji, ne bi bilo iznenađujuće da je Knowledge Graph jednog dana doprinio čak četvrtini Googleovih interakcija s pretraživanjem korisnika.

Crowdsourcing… ili nastava u boji Googlea?

Dakle, kako Grafikon znanja bira informacije za svoje sažetke? Do sada Google nije bio vrlo eksplicitan o metodologiji koja stoji iza prezentacije Grafa znanja. U mom (ograničenom) uzorku, čini se da je dobar dio podataka kojima Google daje prioritet za svoje sažetke prilično dosljedan: datumi, odnosi, i jedno polje "značajno postignuće" za ljude (koje bi moglo biti označeno nešto poput "Otkrića" ili "Zanimanje" ili "Titula"). Mjesta dobivaju lokacije i datume, te izbor drugih polja koja bi mogla biti točno ono što netko želi ili potpuno neprikladna. Na primjer, ako gledate Empire State Building, navođenje adrese ulice čini se prikladnim... ali nije baš prikladno za, recimo, Stonehenge. Slične se neobičnosti mogu dogoditi s telefonskim brojevima: koliko ljudi treba trenutni pristup telefonskom broju za Taj Mahal?

Google kaže da daje prioritet informacijama koje predstavlja u sažecima Knowledge Grapha koristeći "ljudsku mudrost". A samim tim, Google to ne čini zapravo znače stvari koje im ljudi govore ili koje prikupljaju predmetni stručnjaci ili kustosi baza podataka — to znači stvaranje neizravnih pretpostavki o namjerama korisnika bilježenjem ponašanja pretraživanja i praćenjem onoga što kliknu, ne kliknu i traže nakon što izvrše traži. Ukratko, Google koristi crowdsourcing kako bi pokušao odrediti koje su "činjenice" najbolje prikazati u sažetku Grafikona znanja.

Na primjer, Google kaže da sažetak informacija Grafikona znanja koje predstavlja za Toma Cruisea odgovara na 37 posto naknadnih upita korisnika Google pretraživanja o glumcu kada ga traže. Taj broj od 37 posto zvuči uvjerljivo znanstveno i precizno, ali ne postoji apsolutno nikakav način da se procijeni ima li Googleova procjena ukupnog ponašanja korisnika pretraživanja ikakve veze s onim što određeni korisnik — Kao vas — želi znati. Budući da se Google čini tako ponosan na brojku od 37 posto, okrenimo to naopako: Google kaže 63 posto vremena, ne može predstaviti nikakve informacije o temi koju pronađu korisnici pretraživanja relevantan.

Googleov stav je lako razumjeti: kad god je to moguće, želi odmah predstaviti informacije koje njegovi korisnici traže. Jedini način na koji Google to može stvarno procijeniti je gledajući kako ljudi koriste njegovu tražilicu i pokušavajući nagađati.

Crowdsourcing ima svoje opasnosti. Baš kao što Google korača u mutnim vodama kad to želi dati prioritet rezultatima pretraživanja s Google+ u Search Plus Your World, postoje opasnosti od oslanjanja na crowdsourcing za davanje prioriteta prezentaciji informacija i "činjenica". Samo budući da Googleova pretraživačka publika možda ne zna (ili joj je osobito stalo) za određene informacije, ne znači da nisu važne ili relevantan. Postoji mnogo slučajeva u kojima je percepcija činjenica u "mnoštvu" pogrešna. Većina ljudi misli da shizofrenija znači imati višestruke osobnosti, piti mlijeko ili jesti sladoled povećava proizvodnju sluzi, a Marija Antoaneta je rekla "Neka jedu kolače." Ipak, nijedna od ovih stvari nije pravi.

Oslanjanje na crowdsourcing za procjenu važnosti informacija također stvara potencijal za zlouporabu. Recimo da je vlada htjela sijati dezinformacije o disidentima, politička kampanja je htjela ocrniti protivnika ili su se hakeri htjeli igrati s rezultatima pretraživanja samo da bi se nasmijali? Na otprilike isti način rezultati Google pretraživanja bili su "Google bombardiran”, crowdsourcing bi se mogao koristiti za manipuliranje Knowledge Graphom. Razumni ljudi neće vjerovati svemu što pročitaju; slično, "činjenice" koje prezentiraju semantičke tražilice neće biti pouzdane - a u nekim će ih slučajevima crowdsourcing učiniti još manje pouzdanima.

Činimo Google ljepšim

S praktične strane, Googleov Knowledge Graph će imati jedan neposredan učinak: učinit će Googleove rezultate pretraživanja ljepljivijima. Kad god Knowledge Graph može dati izravan odgovor na pitanje korisnika pretraživanja - ili im omogućiti brzu navigaciju do njega putem povezanih tema - korisnici će ostati na Googleovim uslugama. To znači da Google prikuplja više podataka o pretraživanjima i ponašanju korisnika (bez obzira na to jesu li prijavljeni na Google račun ili ne). To zauzvrat omogućuje Googleu da dodatno poboljša svoju ciljanu platformu za oglašavanje.

To također znači da usluge poput Wikipedije koje često odgovaraju na ista pitanja vezana uz znanje upiti koje cilja Grafikon znanja zabilježit će pad u količini web prometa s kojega primaju Google. U slučaju Wikipedije, to izravno odgovara manje mogućnosti za traženje podrške zajednice; za druge usluge, to će se izravno prevesti u manji broj pojavljivanja oglasa i (prema tome) manje prihode. Za ljude koji nude stranice i usluge temeljene na pružanju diskretnih činjenica i informacija — a to uključuje sve, od Wikipedije do IMDb-a do online trgovaca do telefonskih imenika i poslovnih imenika do (vjerojatno) masovnih servisa kao što je Yelp, pa čak i javnih zapisa... Knowledge Graph mogao bi polako narušiti njihovu poduzeća.

Preporuke urednika

Kako koristiti Google SGE — isprobajte sami generativno iskustvo pretraživanja
Ne morate koristiti Bing – Google Search sada također ima AI
Kako bi ChatGPT mogao pomoći Microsoftu da skine s trona Google Search
Google Chrome dobiva jednu od najboljih značajki Microsoft Edgea
Googleov novi alat za privatnost obavještava vas jesu li vaši osobni podaci procurili

Inside Knowledge Graph: Googleovo dubinsko semantičko pretraživanje

Grafikon znanja ispod haube

Grafikon znanja na ekranu

Crowdsourcing… ili nastava u boji Googlea?

Činimo Google ljepšim

Preporuke urednika

Kategorije

Nedavno

Fujifilmova Interactive Wonder Photo Shop dolazi u SAD

Canon 5DS R i Sony A7R II: usporedba fotoaparata punog formata

FrontRow nosiva kamera omogućuje vam da u trenutku budete bez ruku