Inside Knowledge Graph: „Google“ gili semantinė paieška

„Google“ žinių diagrama

„Google“ pradeda diegti savo naują „Knowledge Graph“ technologiją angliškai kalbantiems vartotojams Jungtinėse Valstijose. Nors naujoji paslauga bus rodoma kaip priedas prie įprastų „Google“ žiniatinklio paieškos rezultatų nei atskira paslauga – tai iš esmės kitoks požiūris Paieška. Užuot grąžinę reitinguotus paieškos rezultatus, pagrįstus tiesioginiais paieškos terminais (arba kai kuriais paieškos terminais, arba galimai pataisytos kai kurių paieškos terminų versijos), Žinių diagrama iš esmės bando susieti paiešką užklausos su daiktai ji žino apie: vietas, žmones, knygas, filmus, įvykius – jūs tai vadinate. Žinių grafikas – tai pastangos pasiekti semantinė paieška, bandydami pateikti rezultatus pagal to, ko naudotojai ieško, reikšme, o ne tik pažodines atitiktis.

Ar Žinių grafikas gali pakeisti mūsų paieškos būdą? O ką tai gali reikšti pagrindiniam „Google“ verslui – ir svetainėms, kurių srautas į savo svetaines priklauso nuo „Google“?

Rekomenduojami vaizdo įrašai

Žinių grafikas po gaubtu

„Google“ žinių diagrama (Curie)

Nors „Knowledge Graph“ yra iš esmės naujos rūšies „Google“ paieškos pasiūlymas, ji eina nueitais takais, kurių „Google“ ėjo daugelį metų naudodama savo pagrindinę paieškos paslaugą. Ir „Google“ rūpinasi, kad ją pristatytų taip, kad nebūtų labai sutrikdyta rinkoje dominuojanti paieška.

Susijęs

  • „Google“ ChatGPT konkurentas ką tik pradėjo paieškoje. Štai kaip tai išbandyti
  • Oi – „Google Bard AI“ demonstracinę versiją paneigia pirmasis paieškos rezultatas
  • „Google“ ką tik atskleidė, kas jums labiausiai žavėjo 2022 m

Jau daugelį metų „Google“ galėjo atsakyti į keletą paprastų faktinių užklausų tiesiai iš paieškos juostą ir netgi atlikti matematinius duomenis – patogu žmonėms, kuriems labiau tikėtina, kad veikia žiniatinklio naršyklė nei a skaičiuotuvas. Išbandykite: „Google“ turėtų pateikti tiesioginius atsakymus į tokius dalykus kaip „Surinamo sostinė“ arba „kvadratinė šaknis 3952.”

Naudodama žinių schemą, „Google“ taip pat išmes paieškos užklausas į sudėtingas tarpusavyje susijusios informacijos duomenų bazes apie... dalykų, dėl geresnių sąlygų trūkumo. Kai kuriais atžvilgiais šios duomenų bazės veikia panašiai kaip tradicinė paieška: jos grąžina įrašus su svarbiomis informacijos apie konkretų dalyką bitais. Asmeniui tai gali būti kažkas panašaus į jo gimimo datą (o gal ir mirties datą), pilietybę, titulus ar pareigas, kurias jie galėjo užimti, visą teisinį vardą ir pavardę ir kt.

Pastato atveju šie duomenų rinkiniai gali apimti tokius dalykus kaip jo vieta, kada jis buvo pastatytas, bendras dydis, tipas (tarkime, paminklas, prekybinė patalpa, komercinė patalpa, gyvenamoji vieta, um...kosminė stotis?). Tačiau, be kelių faktų ir kai kurių raktinių žodžių, šie duomenų bazės įrašai taip pat renka tiesiogines nuorodas į susijęs duomenų bazės objektus (kurie savo ruožtu susieja su kitais susijusiais objektais ir pan.). Tikėtina, kad tų nuorodų pobūdis taip pat yra apibrėžtas. Pavyzdžiui, įraše apie asmenį gali būti nuorodų į to asmens tėvus, sutuoktinį (-ius) ir vaikus bei kitus reikšmingus santykius ir gebėti atskirti šeimos narius nuo kitokio pobūdžio santykių. Duomenų bazė neatliktų savo darbo, jei duomenų rinkinys George H. W. Bushas (41-asis JAV prezidentas) nesusiejo su duomenų rinkiniu apie George'ą W. Bushas (43-asis prezidentas) ir abu būtų susiję su Condoleezza Rice, bet skirtingais būdais. Didžiosios piramidės duomenų rinkinyje turėtų būti nuorodos į Cheopsą ir Khufu bei Sfinksą, taip pat į Halikarnaso mauzoliejų. (Gali atspėti kodėl?)

Šie duomenų rinkiniai sudaro semantinės paieškos esmę – ir jie nėra pigūs. Visų pirma, jie yra didžiuliai: žmogaus žinių suma gali būti tik mažytė taškelė visų informacijos visatoje, tačiau vien tik išgryninus paslaugą galima lengvai pagaminti šimtus milijonų (arba milijardų) duomenų rinkinių. (Palyginimui, angliškoje Vikipedijos versijoje yra nedaug 4 milijonų straipsnių.) Šiuos duomenų rinkinius nėra lengva gauti: jie turi būti kruopščiai sudaryti iš patikimų šaltinių. Be to, jie turi būti sutvarkyti ir suprojektuoti taip, kad informacija būtų pasiekiama ir ja būtų galima naudingais būdais manipuliuoti (ir realiu laiku, „Google“ tikslams). Ir duomenų rinkiniai turi sugebėti susidoroti su „žinių“ prigimtimi. Juk vos prieš kelerius metus Plutonas buvo planeta, o Vioxx – FDA patvirtintas osteoartrito gydymas.

Akivaizdu, kad „Google“ kuria savo duomenų bazes naudodama technologijas ir metodus, įsigytus su „Metaweb“ dar 2010 m., nors „Metaweb“ Nemokama bazė semantinė duomenų bazė lieka prieinama visiems. „Google“ naudoja „Freebase“ duomenims, kartu su informacija, paimta iš Vikipedijos ir CŽV pasaulio faktų knyga. Google pretenzijas jos žinių grafiko duomenų bazėje jau yra įrašų apie 500 milijonų objektų (atkreipkite dėmesį, kad objektai negali būti tiesiogiai lyginami su Vikipedijos straipsniai) ir apie 3,5 milijardo „faktų“. Žodį „faktas“ įdėjome į kabutes, nes kažkada buvo „faktas“, kad Žemė plokščia ir žmonės negalėjo skristi. Žinios yra slidžios.

Žinių grafikas ekrane

„Google“ pradinis „Knowledge Graph“ diegimas skirtas papildyti esamus įmonės paieškos rezultatų sąrašus, o ne juos pakeisti. Panašiai kaip „Google“ kartais rodo puslapių peržiūras skydelyje, esančiame dešinėje paieškos rezultatų pusėje standartiniame žiniatinklio naršyklės lange, Žinių schemos rezultatai bus rodomi skydeliuose šalia paieškos rezultatų. Ne visi paieškos terminai sukurs žinių schemos skydelius: užklausos turės atitikti gerai apibrėžtus Žinių schemos objektus. (Nesijaudinkite, jei dar nematote žinių diagramos rezultatų; „Google“ vis dar diegia šią funkciją ir šiuo metu ji skirta tik angliškai kalbantiems naudotojams Jungtinėse Amerikos Valstijose.)

Žinių schemos skydeliai siekia parodyti pagrindinės ir labiausiai ieškomos informacijos apie užklausą santrauką nereikalaujant, kad vartotojai perskaitytų dviejų eilučių tinklalapio santraukas arba spustelėtų kitą svetainę. Asmeniui šie pagrindiniai faktai gali būti gimimo ir mirties datos, svarbūs su jais susiję žmonės ir trumpi titulai, pasiekimai ar tai, kas daro tą asmenį reikšmingu. Dėl kitų subjektų „Google“ stengsis pateikti pagrindinę informaciją, statistiką ir asociacijas. Skydelyje „Žinių diagrama“ taip pat bus galima nustatyti dviprasmybes. Jei paieškos užklausą atitinka daugiau nei vienas Žinių schemos objektas, „Google“ suteikia prieigą prie jų visų.

Galbūt dar svarbiau yra tai, kad kai vartotojai sąveikauja su žinių schemos objektu, jie gali tam tikrose ribose naršyti ryšių su tais objektais nuorodas. Pavyzdžiui, Dashiell Hammett žinių diagramos įrašas turėtų leisti vartotojams nedelsiant pereiti prie žinių schemos santraukos Plonas žmogus ir Maltos sakalas - ir galbūt santraukoms apie Lillian Helman ir po Antrojo pasaulinio karo vykusias antikomunistines raganų medžiokles.

Žinių diagrama neapsiribos naršykle pagrįstomis paieškomis: „Google“ šiuo metu teikia žinių schemos paieškos rezultatus į daugumą įrenginių, kuriuose veikia 2.2 ar naujesnės versijos „Android“ (vėlgi, tik JAV anglų k.) greitosios paieškos laukelyje ir naršyklėje ieškotojų. Žinių schemos paieškos rezultatai taip pat bus pristatyti būsimoms „iOS“ įrenginiams skirtos „Google“ paieškos programos versijoms. Vartotojai gali naršyti žinių schemoje esančią informaciją bakstelėdami arba braukdami pirmyn ir atgal per turinį.

„Google“ žinių diagrama (mobilusis)

Svarbu pažymėti, kad tai tik pirmosios „Google“ paslaugose atsirandančios žinių diagramos vietos. Užkulisiuose galite tikėtis, kad žinių schemos paieškos rezultatai pradės informuoti apie įvairias „Google“ paslaugas, ypač augant duomenų rinkiniams ir „faktams“. Žinių schemos paieškos greičiausiai niekada nebus pakeisti Tradicinė „Google“ paieška pagal raktinius žodžius – semantinė paieška ir tiesioginė paieška yra du skirtingi įrankiai, tinkantys dviem skirtingoms užduotims. bet teoriškai nenuostabu, jei Žinių diagrama vieną dieną prisidėtų prie ketvirtadalio Google sąveikos su paieška vartotojų.

„Crowdsourcing“ ar „Google“ spalvos pamokos?

Taigi, kaip žinių diagrama parenka informaciją savo santraukoms? Iki šiol „Google“ nelabai aiškiai kalbėjo apie „Knowledge Graph“ pristatymo metodiką. Mano (ribotos) atrankos metu nemaža dalis duomenų, kuriems „Google“ teikia pirmenybę savo suvestinėms, atrodo gana nuoseklūs: datos, santykiai, ir vienas „reikšmingas pasiekimas“ žmonėms skirtas laukas (kuris galėtų būti pažymėtas kaip „atradimai“ arba „užsiėmimas“ arba „Pavadinimas“). Vietos gauna vietas ir datas bei kitus laukus, kurie gali būti būtent tai, ko kas nors nori arba visiškai netinkami. Pavyzdžiui, jei žiūrite į „The Empire State Building“, nurodyti gatvės adresą atrodo tinkama... bet jis ne visai tinkamas, tarkime, Stounhendžui. Panašių keistenybių gali nutikti ir su telefonų numeriais: kiek žmonių reikia nedelsiant gauti Tadžmahalo telefono numerį?

„Google“ žinių diagrama (Taj Mahal)

„Google“ teigia, kad pirmenybę teikia informacijai, kurią pateikia žinių diagramos suvestinėse, naudodama „žmogaus išmintį“. Ir dėl to „Google“ to nedaro iš tikrųjų reiškia dalykus, kuriuos jiems sako žmonės arba kuriuos renka dalykų ekspertai ar duomenų bazių kuratoriai – tai reiškia daryti netiesiogines prielaidas apie naudotojų ketinimus registruodami paieškos elgseną ir stebėdami, ką jie spustelėja, nespustelėjo ir ko ieško atlikę Paieška. Trumpai tariant, „Google“ naudoja minios šaltinį, kad nustatytų, kuriuos „faktus“ geriausia pateikti Žinių schemos santraukoje.

Pavyzdžiui, „Google“ teigia, kad žinių diagramos suvestinė informacija, kurią ji pateikia Tomui Cruise'ui, atsako į 37 procentus „Google“ paieškos naudotojų tolesnių užklausų apie aktorių, kai jie jo ieško. Šis 37 procentų skaičius skamba tikrai moksliškai ir tiksliai, bet nėra jokio būdo įvertinti ar „Google“ bendros paieškos naudotojų elgsenos vertinimas yra susijęs su konkretaus vartotojo elgesiu – Kaip tu – nori žinoti. Kadangi atrodo, kad „Google“ taip didžiuojasi tuo 37 procentų skaičiumi, apsiverskime: „Google“ sako, kad 63 procentų laiko, jis negali pateikti jokios informacijos apie temą, kurią randa paieškos naudotojai Aktualus.

„Google“ poziciją lengva suprasti: kai tik įmanoma, ji nori nedelsiant pateikti informaciją, kurios ieško jos vartotojai. Vienintelis būdas „Google“ gali iš tikrųjų tai įvertinti – pažvelgti į tai, kaip žmonės naudojasi jos paieškos varikliu, ir bandant spėlioti.

Crowdsourcing turi savo pavojų. Lygiai taip pat, kaip „Google“ žengia miglotuose vandenyse, kai pasirenka teikti pirmenybę paieškos rezultatams iš „Google+“. programoje „Search Plus Your World“ yra pavojų pasikliauti minios šaltiniu, kad būtų teikiama pirmenybė informacijos ir „faktų“ pateikimui. Tiesiog nes „Google“ paieškos auditorija gali nežinoti (arba jai ypač nerūpi) tam tikra informacija, tai nereiškia, kad ji nėra svarbi arba Aktualus. Yra daugybė atvejų, kai „minios“ faktų suvokimas yra klaidingas. Dauguma žmonių mano, kad šizofrenija reiškia turėti kelias asmenybes, gerti pieną ar valgyti ledus padidina gleivių gamybą, o Marie Antoinette pasakė: „Leiskite jiems valgyti pyragą“. Tačiau nė vienas iš šių dalykų nėra tiesa.

Pasitikėjimas sutelktiniu šaltiniu, siekiant įvertinti informacijos svarbą, taip pat sukuria piktnaudžiavimo galimybę. Tarkime, kad vyriausybė norėjo skleisti dezinformaciją apie disidentus, politinė kampanija norėjo apšmeižti oponentą ar programišiai norėjo žaisti su paieškos rezultatais vien dėl juoko? Panašiai kaip „Google“ paieškos rezultatai buvo „„Google“ susprogdino“, norint manipuliuoti žinių diagrama, galima naudoti minios šaltinį. Protingi žmonės nepatikės viskuo, ką skaito; panašiai, semantinių paieškos sistemų pateikiami „faktai“ nebus patikimi, o kai kuriais atvejais dėl sutelktinio šaltinio jie bus dar mažiau patikimi.

Padaryti „Google“ lipnesnę

Kalbant apie praktinę pusę, „Google“ žinių diagrama turės tiesioginį poveikį: ji padarys „Google“ paieškos rezultatus lipnesnius. Kai Žinių diagrama gali pateikti tiesioginį atsakymą į paieškos naudotojo klausimą arba leisti jam greitai pereiti prie jo per susijusias temas, naudotojai liks „Google“ paslaugose. Tai reiškia, kad „Google“ renka daugiau duomenų apie naudotojų paieškas ir elgesį (neatsižvelgiant į tai, ar jie yra prisijungę prie „Google“ paskyros, ar ne). Tai savo ruožtu leidžia „Google“ toliau tobulinti tikslinę reklamavimo platformą.

Tai taip pat reiškia, kad tokios paslaugos kaip Vikipedija dažnai atsako į tas pačias žinias užklausų, kurioms taikoma žinių diagrama, sumažės žiniatinklio srautas, iš kurio jie gaunami Google. Vikipedijos atveju tai tiesiogiai atitinka mažiau galimybių prašyti bendruomenės paramos; kitoms paslaugoms, tai tiesiogiai lems mažesnį skelbimo parodymų skaičių ir (taigi) mažesnes pajamas. Žmonėms, kurie siūlo svetaines ir paslaugas, pagrįstus atskirų faktų ir informacijos teikimu – ir tai apima viską nuo Vikipedijos iki IMDb iki internetinių mažmenininkų telefonų knygas ir verslo katalogus (galbūt) minios teikiamoms paslaugoms, tokioms kaip „Yelp“, ir net viešuosius įrašus... Žinių grafikas gali pamažu sugriauti jų verslui.

Redaktorių rekomendacijos

  • Kaip naudotis Google SGE – išbandykite paieškos generavimo patirtį patys
  • Nereikia naudoti „Bing“ – „Google“ paieškoje dabar taip pat yra AI
  • Kaip „ChatGPT“ galėtų padėti „Microsoft“ nuversti „Google“ paiešką
  • „Google Chrome“ turi vieną geriausių „Microsoft Edge“ funkcijų
  • Naujasis „Google“ privatumo įrankis leidžia sužinoti, ar jūsų asmeninė informacija buvo nutekinta