Inside Knowledge Graph: Google'i sügavuti sukelduv semantiline otsing

Google hakkab oma uut Knowledge Graphi tehnoloogiat oma ingliskeelsetele kasutajatele Ameerika Ühendriikides levitama. Kuigi uus teenus ilmub pigem Google'i tavapäraste veebiotsingu tulemuste lisandina kui omaette teenus – see kujutab endast põhimõtteliselt teistsugust lähenemisviisi otsing. Selle asemel, et tagastada reastatud otsingutulemused sõnasõnaliste otsinguterminite (või mõne otsingutermini või võib-olla mõne otsingutermini parandatud versioonid), püüab Knowledge Graph sisuliselt otsingut seostada päringud koos asju see teab: kohtadest, inimestest, raamatutest, filmidest, sündmustest – sa nimetad seda. Teadmiste graafik on püüdlus saavutada semantiline otsing, püüdes tagastada tulemusi selle tähenduse põhjal, mida kasutajad otsivad, mitte ainult sõna otseses mõttes.

Kas teadmiste graafik võib muuta meie otsinguviisi? Ja mida see võib tähendada Google'i põhitegevusele – ja saitidele, mis toetuvad Google'ile liikluse toomisel nende saitidele?

Soovitatavad videod

Teadmiste graafik kapoti all

Kuigi Knowledge Graph on Google'i täiesti uut tüüpi otsingupakkumine, järgib see sissetallatud radu, mida Google on oma tavaotsinguteenusega aastaid liikunud. Ja Google on ettevaatlik, et tutvustada seda viisil, mis ei häiriks väga turgu domineerivat otsingut.

Seotud

Google'i ChatGPT rivaal käivitas just otsingus. Siin on, kuidas seda proovida
Oih! Google Bard AI demo lükkas esimene otsingutulemus ümber
Google paljastas just selle, mis teie arvates oli 2022. aastal kõige põnevam

Google on juba aastaid suutnud otse otsingust vastata valikule lihtsatele faktilistele päringutele riba ja isegi teha matemaatikat – mugav inimestele, kellel on suurem tõenäosus, et veebibrauser töötab kui a kalkulaator. Proovige seda: Google peaks andma otseseid vastuseid sellistele asjadele nagu "suriname pealinn” või „ruutjuur 3952.”

Knowledge Graphiga puistab Google ka otsingupäringud keerukatesse andmebaasidesse, mis sisaldavad omavahel seotud teavet... asjad, paremate tingimuste puudumisel. Mõnes mõttes toimivad need andmebaasid sarnaselt traditsioonilise otsinguga: nad tagastavad kirjed olulise teabega konkreetse asja kohta. Inimese jaoks võib see olla näiteks tema sünniaeg (ja võib-olla ka surmakuupäev), kodakondsus, ametinimetused või ametid, mis neil võib olla, täisnimi ja palju muud.

Hoone puhul võivad need andmekogumid sisaldada selliseid asju nagu selle asukoht, millal see ehitati, selle üldine suurus, tüüp (näiteks monument, kaubanduspind, äripind, elukoht, um...kosmosejaam?). Kuid lisaks mõnele faktile ja mõnele märksõnale koguvad need andmebaasikirjed kokku ka otselinke seotud objektid andmebaasis (mis omakorda lingivad teiste seotud objektidega jne). Suure tõenäosusega on määratletud ka nende linkide olemus. Näiteks võib isikut ümbritsev kanne sisaldada linke selle isiku vanemate, abikaasa(te) ja laste ning muid olulisi suhteid ja oskama vahet teha pereliikmete ja muud tüüpi suhete vahel. Andmebaas ei teeks oma tööd, kui andmestik George H. W. Bush (USA 41. president) ei linkinud George W. Bush (43. president) - ja mõlemad oleksid seotud Condoleezza Rice'iga, kuid erineval viisil. Suure püramiidi andmestik peaks sisaldama linke Cheopsile ja Khufule ning Sfinksile, aga ka Halikarnassuse mausoleumile. (Võite arvata miks?)

Need andmekogumid moodustavad semantilise otsingu keskme – ja need ei ole odavad. Esiteks on need tohutud: inimteadmiste summa võib olla vaid tilluke täpp kõigi ees. universumis olevat teavet, kuid lihtsalt teenuse kraapimine võib kergesti toota sadu miljoneid (või miljardeid) andmekogumitest. (Võrdluseks: Vikipeedia ingliskeelses versioonis on umbes 4 miljonit artiklit.) Neid andmekogumeid pole lihtne hankida: need tuleb hoolikalt koostada usaldusväärsetest allikatest. Lisaks peavad need olema organiseeritud ja kujundatud nii, et teabele oleks võimalik kasulikul viisil juurde pääseda ja seda saaks manipuleerida (ja Google'i eesmärkidel reaalajas). Ja andmestikud peavad suutma toime tulla "teadmiste" meheliku olemusega. Lõppude lõpuks oli Pluuto vaid paar aastat tagasi planeet ja Vioxx oli FDA poolt heaks kiidetud osteoartriidi ravimeetod.

Ilmselt ehitab Google oma andmebaase 2010. aastal Metawebiga omandatud tehnoloogiate ja meetodite abil – kuigi Metaweb Freebase semantiline andmebaas jääb kõigile kättesaadavaks. Google kasutab andmete jaoks Freebase'i koos Wikipediast ja Vikipeediast kogutud teabega CIA maailma faktiraamat. Google väited selle Knowledge Graphi andmebaasis on juba kirjeid umbes 500 miljoni objekti kohta (pange tähele, et objekte ei saa otseselt võrrelda Wikipedia artiklid) ja umbes 3,5 miljardit fakti. Me panime sõna "fakt" jutumärkidesse, sest kunagi oli "fakt", et Maa on lame ja inimesed ei saanud lennata. Teadmised on libedad.

Teadmiste graafik ekraanil

Google'i teadmiste graafiku esialgne juurutamine on mõeldud ettevõtte olemasolevate otsingutulemuste loendite täiendamiseks, mitte nende asendamiseks. Nii nagu Google näitab mõnikord lehtede eelvaateid tavalises veebibrauseriaknas otsingutulemuste paremal küljel asuval paneelil, kuvatakse teadmiste graafiku tulemused otsingutulemuste kõrval olevatel paneelidel. Kõik otsinguterminid ei anna teadmiste graafiku paneele: päringud peavad vastama teadmiste graafikus täpselt määratletud objektidele. (Ärge muretsege, kui te ei näe veel teadmiste graafiku tulemusi. Google pakub seda funktsiooni endiselt välja ja praegu on see ainult Ameerika Ühendriikide inglise keelt kõnelevate kasutajate jaoks.)

Teadmiste graafiku paneelid püüavad kuvada päringu põhi- ja enimotsitud teabe kokkuvõtet ilma, et kasutajad lugeksid läbi veebilehe kaherealisi kokkuvõtteid või klõpsaksid teisele saidile. Inimese jaoks võivad need põhifaktid hõlmata sünni- ja surmakuupäevi, nendega seotud olulisi inimesi ning kiireid esiletõstmisi tiitlitest, saavutustest või sellest, mis teeb selle inimese oluliseks. Teiste üksuste puhul püüab Google tuua esile võtmeteabe, statistika ja seosed. Teadmiste graafiku paneel tegeleb ka täpsustustega. Kui otsingupäringule vastab rohkem kui üks teadmiste graafiku olem, pakub Google neile kõigile juurdepääsu.

Võib-olla veelgi olulisem on see, et kui kasutajad suhtlevad teadmiste graafiku olemiga, saavad nad teatud piirides surfata nende üksustega seotud seoste linke. Näiteks Dashiell Hammetti teadmusgraafiku kirje üles tõmbamine peaks võimaldama kasutajatel kohe hüpata teadmiste graafiku kokkuvõttele Õhuke mees ja Malta pistrik — ja võib-olla kokkuvõtete juurde Lillian Helmanist ja II maailmasõja järgsetest kommunismivastastest nõiajahtidest.

Teadmiste graafik ei piirdu brauseripõhiste otsingutega: Google avaldab praegu Knowledge Graphi otsingutulemusi enamikele seadmetele, kus töötab Android 2.2 või uuem versioon (taas ainult USA-s inglise keeles) kiirotsingukastis ja brauseripõhises otsijad. Teadmiste graafiku otsingutulemusi tutvustatakse ka iOS-i seadmetele mõeldud Google'i otsingurakenduse tulevastes versioonides. Kasutajad saavad teadmiste graafikus teabes navigeerida, puudutades või libistades sisus edasi-tagasi.

Oluline on märkida, et need on alles esimesed kohad, kus Knowledge Graph Google'i teenustes esile kerkib. Kulisside taga võite eeldada, et Knowledge Graphi otsingutulemused hakkavad teavitama mitmesuguseid Google'i teenuseid, eriti kui selle andmekogumite ja faktide korpus kasvab. Teadmiste graafiku otsinguid tõenäoliselt kunagi ei tehta asendada Google'i traditsiooniline märksõnapõhine otsing – semantiline otsing ja sõnasõnaline otsing on kaks erinevat tööriista, mis sobivad kahe erineva ülesande täitmiseks. kuid teoreetiliselt poleks üllatav, kui Knowledge Graph aitaks ühel päeval koguni veerandi Google'i suhtlusest otsinguga kasutajad.

Crowdsourcing… või Google’i värvi klassid?

Niisiis, kuidas valib teadmiste graafik oma kokkuvõtete jaoks teavet? Seni pole Google Knowledge Graphi esitluse metoodika osas väga selgesõnaline olnud. Minu (piiratud) valimi puhul näib suur osa andmetest, mille Google oma kokkuvõtete jaoks prioriteediks peab, olevat üsna järjepidevad: kuupäevad, seosed, ja inimeste jaoks üks "märkimisväärne saavutus" väli (millele võiks anda sildi nagu "avastused" või "amet" või "Pealkiri"). Kohad saavad asukohad ja kuupäevad ning valiku muid välju, mis võivad olla täpselt sellised, mida keegi soovib või täiesti sobimatud. Näiteks kui vaatate Empire State Buildingut, näib tänavaaadressi sisestamine olevat asjakohane, kuid see ei sobi näiteks Stonehenge'i jaoks. Sarnased veidrused võivad juhtuda ka telefoninumbritega: kui palju inimesi vajab kohe juurdepääsu Taj Mahali telefoninumbrile?

Google ütleb, et seab prioriteediks teabe, mida ta teadmiste graafiku kokkuvõtetes esitab, kasutades "inimlikku tarkust". Ja seetõttu Google seda ei tee tähendab tegelikult asju, mida inimesed neile räägivad või mida teemaeksperdid või andmebaaside kuraatorid koguvad – see tähendab kaudsete oletuste tegemist kasutajate kavatsuste kohta, registreerides otsingukäitumise ja jälgides, mida nad pärast otsing. Lühidalt öeldes kasutab Google ühist hankimist, et teha kindlaks, millised "faktid" on teadmiste graafiku kokkuvõttes parimad.

Näiteks Google ütleb, et teadmiste graafik, mida Tom Cruise'i kohta esitab, vastab 37 protsendile Google'i otsingu kasutajate järelpäringutest näitleja kohta, kui nad teda otsivad. See 37-protsendiline arv kõlab taaskindlalt teaduslikult ja täpselt, kuid seda pole absoluutselt võimalik hinnata kas Google'i hinnang otsingukasutajate koondkäitumisele on kuidagi seotud sellega, mida konkreetne kasutaja – meeldib sina — tahab teada. Kuna Google tundub selle 37-protsendilise arvu üle nii uhke, pöörame selle pea peale: Google ütleb, et 63 protsenti ajast ei saa see esitada mingit teavet teema kohta, mille otsingu kasutajad leiavad asjakohane.

Google'i seisukoht on kergesti mõistetav: kui võimalik, soovib ta kohe esitada teavet, mida kasutajad otsivad. Ainus viis, kuidas Google saab seda tõesti hinnata, on vaadata, kuidas inimesed selle otsingumootorit kasutavad, ja proovida oletada.

Crowdsourcingul on oma ohud. Täpselt nagu Google tallab hämaras vees, kui ta seda soovib prioriseerida otsingutulemusi teenusest Google+ rakenduses Search Plus Your World on oht, et tugineda teabe ja faktide esitlemisel ühishankele. Lihtsalt kuna Google'i otsingupublik ei pruugi teatud teabest teada (või ei pruugi sellest eriti hoolida), ei tähenda see, et see pole oluline või asjakohane. On palju juhtumeid, kus "rahvahulga" ettekujutus faktidest on vale. Enamik inimesi arvab, et skisofreenia tähendab mitme isiksuse olemasolu, piima joomist või jäätise söömist suurendab lima tootmist ja Marie Antoinette ütles: "Las nad söövad kooki." Ometi pole ükski neist asjadest nii tõsi.

Ühishankele tuginemine teabe olulisuse hindamisel loob ka kuritarvitamise võimaluse. Oletagem, et valitsus tahtis levitada dissidentide kohta valeinformatsiooni, poliitiline kampaania tahtis oponenti mustata või häkkerid tahtsid otsingutulemustega lihtsalt naeru pärast mängida? Umbes samamoodi on Google'i otsingutulemused olnudGoogle pommitati”, võiks Knowledge Graphiga manipuleerimiseks kasutada ühist hankimist. Mõistlikud inimesed ei usu kõike, mida nad loevad; samamoodi ei ole semantiliste otsingumootorite esitatud "faktid" usaldusväärsed – ja mõnel juhul muudab rahvahulga hankimine need veelgi vähem usaldusväärseks.

Google'i kleepuvamaks muutmine

Praktilise poole pealt on Google'i teadmiste graafikul vahetu mõju: see muudab Google'i otsingutulemused kleepuvamaks. Kui Knowledge Graph suudab otsingukasutaja küsimusele otse vastuse anda või laseb neil sellega seotud teemade kaudu kiiresti selle juurde liikuda, jäävad kasutajad Google'i teenustesse. See tähendab, et Google kogub rohkem andmeid kasutajate otsingute ja käitumise kohta (olenemata sellest, kas nad on Google'i kontole sisse logitud või mitte). See omakorda võimaldab Google'il oma sihitud reklaamiplatvormi veelgi täpsustada.

See tähendab ka seda, et sellised teenused nagu Wikipedia vastavad sageli samadele teadmistepõhistele küsimustele Knowledge Graphi sihitud päringute puhul väheneb nende veebiliikluse hulk Google. Wikipedia puhul vastab see otseselt vähematele võimalustele kogukonna toetust taotleda; muude teenuste puhul tähendab see otseselt väiksemat reklaami näitamiste arvu ja (seega) väiksemat tulu. Inimestele, kes pakuvad saite ja teenuseid, mis põhinevad diskreetsete faktide ja teabe esitamisel – ja see hõlmab kõike alates Wikipediast kuni IMDb-ni ja lõpetades veebijaemüüjatega telefoniraamatutesse ja ärikataloogidesse (arvatavasti) rahvahulga teenustesse, nagu Yelp, ja isegi avalikesse registritesse… Teadmiste graafik võib neid aeglaselt õõnestada. ettevõtetele.

Toimetajate soovitused

Kuidas kasutada Google'i SGE-d — proovige ise otsingut genereerivat kogemust
Te ei pea Bingi kasutama – Google'i otsingus on nüüd ka AI
Kuidas ChatGPT võiks aidata Microsoftil Google'i otsingu troonilt kukutada
Google Chrome saab ühe Microsoft Edge'i parimatest funktsioonidest
Google'i uus privaatsustööriist annab teile teada, kui teie isiklik teave lekkis

Inside Knowledge Graph: Google'i sügavuti sukelduv semantiline otsing

Teadmiste graafik kapoti all

Teadmiste graafik ekraanil

Crowdsourcing… või Google’i värvi klassid?

Google'i kleepuvamaks muutmine

Toimetajate soovitused

Kategooriad

Viimased

Selline näeb välja Android TV koos Android O-ga

Samsungi SUHD selgitas: mis see on ja miks see parem on

Suurepärane tehnika, mida veel osta ei saa: Hammocki mullivann ja palju muud