Išmanesnė paieška: kodėl „semantinė paieška“ pagaliau leis „Google“ jus suprasti

Kodėl semantinė paieška pagaliau leis „Google“ jus suprasti

„Wall Street Journal“ žurnalistas Amiras Efrati pakėlė antakius straipsniu (reikalinga prenumerata), teigdama, kad „Google“ stengiasi aplenkti savo konkurentus interneto paieškoje, įdiegdama daugiau vadinamosios „semantinės paieškos“ technologijos. Idėja yra ta, kad „Google“ paieškos laukelis būtų ne tik vieta, kurioje vartotojai galėtų įvesti raktinius žodžius ar specialiai suformuotas užklausas, bet ir laukelis, kuriame būtų supratimas daugelio žmonių įvedamų terminų, pavadinimų, veiksmažodžių ir nuorodų – ir galėtų pritaikyti šias žinias naudotojų paieškoms. Teoriškai semantinė paieška turėtų galėti pateikti rezultatus, atspindinčius ieškotojo ketinimus kai kuriais atvejais pagerina „Google“ galimybę iš karto pateikti atsakymą, nenukreipdama naudotojų į kitą svetainę.

Bet palaukite - ar tai kažkas naujo? „Google“ nenaudoja jau pateikti keletą atsakymų iš karto? Ir kaip semantinė paieška galėtų padėti „Google“ išlaikyti pirmaujančią poziciją interneto paieškos versle?

Rekomenduojami vaizdo įrašai

Kas yra semantinė paieška?

Trumpai tariant, semantika turi daug daugiau bendro su Watson, IBM superkompiuterių programa, kuri lengvai nugalėjo žmones adresu Pavojus! nei naudojant Microsoft Word dialogo langą Rasti.

Laisvai kalbant, kompiuterinės paieškos pasaulis skirstomas į du tipus:

Tiesioginė paieška (kartais vadinamas navigacinė paieška) ieško tikslių kai kurių arba visų įvestų terminų atitikčių ir pateikia atitinkamus elementus – failus, tinklalapius, produktus ar kitą atskirą informacijos vienetą. Pažodinė paieška gali būti papildyta tokiais dalykais kaip kamienų atitikimas, konjugatai ir asociacijos, kurios naudingais būdais išplečia arba apriboja paiešką. ieškant „skristi“ taip pat gali paspausti „skrydis“. Pažodinė paieška yra tai, su kuo šiandien žinome labiausiai, iš dalies todėl, kad ją lengviausia atlikti kompiuteriams atlikti.

Semantinė paieška skiriasi nuo tiesioginės paieškos dviem būdais. Pirma, semantinė paieška bando suprasti ko vartotojas klausia užklausoje, įtraukdamas jį į kontekstą, analizuodamas užklausos terminus ir kalbą. Ši analizė atliekama remiantis griežtai iš anksto sudarytais žinių telkiniais, įskaitant žinias apie vartotoją. Antra, užuot grąžinus failų, tinklalapių, produktų ar kitų elementų rinkinį, semantinė paieška bando pateikti tiesioginis atsakymas į klausimą. Jei semantinės paieškos sistemos paklaustumėte: „Kada buvo atrastas Plutonas? tai gali atsakyti: „Plutoną 1930 m. vasario 18 d. atrado Clyde'as Tombaugh*“, kur tiesioginė paieškos sistema greičiausiai grąžintų nuorodas į tinklalapius, kuriuose yra žodžiai „atrasta“ ir „Plutonas“.

Pasirodo, pažodinė paieška ir semantinė paieška tinka įvairioms užduotims. Pažodinė paieška yra puiki, kai vartotojas ieško konkretaus dalykas, ar tai būtų failas, tinklalapis, dokumentas, produktas, albumas ar kitas atskiras elementas. Semantinė paieška, kita vertus, yra naudingesnė, kai vartotojas ieško konkretaus informacija – pvz., data, numeris, laikas, vieta ar vardas.

Iš dalies dėl pažodinės paieškos technologijų plitimo visame pasaulyje, pradedant tekstų rengyklėmis ir baigiant žiniatinklio paieškos varikliais, mes esame labiausiai įpratę prie tiesioginės paieškos. Daugelis iš mūsų jau žino, kaip manipuliuoti tiesiogine paieška, kad priartėtų prie to, ko norime iš pirmo karto. Tačiau, remiantis Efrati WSJ straipsniu, „Google“ mano, kad semantinės paieškos technologija gali pateikti tiesioginius atsakymus į 10–20 procentų žiniatinklio paieškų. Pasak Comscore, Google atliko 11,7 mlrd. paieškų vien Jungtinėse Valstijose 2012 m. vasario mėn. Naudojant semantines paieškos galimybes, į daugiau nei 2,3 milijardo šių paieškų būtų buvę galima atsakyti tiesiogiai, užuot nukreipus žmones į kitus tinklalapius ir svetaines.

Ar „Google“ to jau nedaro?

Jei apskritai naudojote „Google“ žiniatinklio paiešką, tikriausiai galvojate: „Bet palaukite, „Google“ jau tai daro! Įveskite "dabartinis laikas Tokijuje“ arba „kokio aukščio yra Everestas“ ir „Google“ pateiks tikslų atsakymą paieškos rezultatų viršuje. „Google“ netgi cituoja šaltinius savo atsakymui, o kai kurie iš tų šaltinių bus klasikinėje „dešimtyje mėlynų nuorodų“ po atsakymu. (Beje, „Google“ praneša, kad Everesto kalnas yra 8 848 metrų aukščio.)

Tiesą sakant, tai yra viena iš daugelio naudingų galimybių, kurias „Google“ įtraukė į savo paieškos juostą: ji atliks (sudėtingus) matematikos rezultatus. vienetų ir valiutų konvertavimus ir susirasti tokius dalykus kaip skrydžio informacija ir vietinių filmų rodymo laikas – nereikia spausdinti sudėtingo teksto užklausą. Jis taip pat gali pasiekti kai kuriuos viešuosius duomenų šaltinius. Pavyzdžiui, įvesdami "gyventojų Meksikoje“ paieškos laukelyje bus rodomi Pasaulio banko duomenys. Šiandien atsakymas yra 113 423 047 žmonės.

Tačiau „Google“ pastangos pateikti tiesioginius atsakymus į kai kurių tipų klausimus žlunga gana greitai, nes šios funkcijos daugiausia įdiegta kaip ypatingi atvejai tiesioginei „Google“ paieškos sistemai, o ne kaip semantinė paieška, bandanti suprasti, ką vartotojas nori. Įveskite "koks aukštas yra mt everest“ (atkreipkite dėmesį į rašybą) į paieškos laukelį, o „Google“ net nebando pateikti atsakymo: „Google“ paieška nežino, kad „mt“ reiškia „kalti“. Panašiai, jei „Google“ nustatė, kad jūsų dabartinė vieta yra ne Meksikoje (o jei „Google“ neturi jūsų vietos, ji atspės pagal jūsų IP adresą ir, ne, jūs negalite atsisakyti) Ieškoti "gyventojų Meksikos miestas“ gali duoti netikėtų rezultatų. Tikrai Meksikoje gyvena daugiau nei 10 852 žmonės, tiesa?

Kuo skiriasi semantinė paieška

Semantinė paieška bando pašalinti tokius nesklandumus dviem būdais. Pirma, ji bando tiksliau suprasti tikslas už tam tikros užklausos. Antra, bandoma suderinti tos užklausos elementus su iš anksto sudarytais gilių žinių telkiniais, kad sužinotų, ar galima rasti prasmingą atsakymą.

Kai siunčiate užklausą tiesioginiam paieškos varikliui, pvz., Google, ji akimirksniu neištraukiama į kiekvieną interneto svetainę, peržiūrėkite jas ir pateikite sąrašą svetainių, kurios, jūsų nuomone, geriausiai atitinka jūsų terminai. Vietoj to, „Google“ turi programinės įrangos programų, kurios nuolat naršo internete naujų svetainių ir naujų tinklalapių, kurios sukuria indeksas iš visų jų rastų puslapių. Nors tai yra per didelis supaprastinimas, kai vartotojai įveda paieškos užklausą, pvz.Jaltos konferencija“, „Google“ žiūri į tą indeksą puslapių, atitinkančių „Jalta“ ir „konferencija“, taip pat puslapių, kuriuose abu terminai yra arti vienas kito (tarkime, per 8 ar 10 žodžių). Tada „Google“ surenka tų puslapių URL, surūšiuoja pagal savo vidinį puslapio reitingą („Google“ santykinių puslapio pranašumų matas, kuris iš esmės skaičiuoja nuorodas į jį kaip teigiamus balsus) ir pateikia sąrašą.

Duomenų valdymas ir inžinerija, susijusi su tokiu procesu, yra bauginanti ir neįtikėtina, ir „Google“. nusipelno pagyrų už tai, kad pavyko – ypač todėl, kad „Google“ dažnai tai gali padaryti per trumpą dalį antra. Panašūs dalykai vyksta „Microsoft“ „Bing“ užkulisiuose.

Semantinė paieška tą pačią užklausą priartintų skirtingai. Užuot lyginusi užklausą su iš anksto sudaryta (ir nuolat atnaujinama) žiniatinklio puslapių, apie kuriuos ji žino, indeksu, semantinė paieškos sistema lygina užklausą su atskira, iš anksto įvykdyta. žinių rinkiniai jis turi. Pagalvokite apie žinių rinkinius, pavyzdžiui, duomenų bazes: jose gausu duomenų, faktų ir skaičių apie konkrečią temą. Yra įvairių žinių rinkinių. Yra keletas įdomių ontologijos (kurios yra formalizuota informacija, kuria galima manipuliuoti taisyklėmis, funkcijomis ir apribojimais) ir liaudies sonomijos, kurios paprastai atspindi bendrai apibrėžtus žinių rinkinius: Pavyzdžiai būtų žymėjimas su grotelėmis ir socialinės žymės.

Google paieška

Žinių rinkiniai yra daugiau nei tik saugyklos. Jie taip pat atspindi ryšius tarp žinių bazės elementų ir leidžia prasmingai panaudoti informaciją daugkartinis žinių rinkiniai. Be to, santykiai dažnai išreiškiami taip, kad būtų galima padaryti tikslias logines išvadas be turintis saugoti visus galimus išvestinius duomenis. Tai šiek tiek antropomorfizuojama, tačiau semantinės paieškos sistemos gali atlikti pagrindinius samprotavimus ir išskaičiavimus iš duomenų, apie kuriuos jie žino. Kaip šio proceso dalis, semantinės paieškos sistemos dažnai yra sukurtos taip, kad įvertintų pasitikėjimo lygį, kurį jie turi savo dariniais. Jei jie nemano, kad žino, apie ką kalba, jie gali likti nebylūs. Jei jie yra gana tikri, jie atsakys.

Taigi, jei į semantinę paieškos programą įvestumėte „Jaltos konferencija“, ji pažvelgtų į savo žinių rinkinius ir tikriausiai išspjautų kai kuriuos pagrindinius faktus ir skaičius, galbūt „1945 m. vasario 4–11 d. Tai gali reikšti, kad dalyvavo Stalinas, Churchillis ir Franklinas Rooseveltas, ir tai buvo svarbu net paskutiniais pasaulinio karo mėnesiais. II. Gana elementarus dalykas.

Jei paklaustumėte tiesioginės paieškos sistemosAr Jaltos konferencija įvyko Korėjos karo metu?“, tikriausiai gausite dešimties mėlynų nuorodų sąrašą. Kažkas gali turėti atsakymą.

Tačiau, jei paklausite semantinės paieškos sistemos, turėtumėte gauti vieno žodžio atsakymą: „Ne“.

Tai čia semantinė paieška tampa nepaprastai įdomi.

Ar tai ne Wolfram Alpha?

Jei šios užklausos skamba kaip tokie dalykai, kuriuos žmonės meta į Volframas Alfa paieškos variklis, jūs visiškai teisus. Užuot buvęs tinklalapių rodyklėmis, Wolfram Alpha bando būti žinių varikliu. Wolfram Alpha yra ne daikto paieška (pvz., tinklalapio), o atsakymo prašymas. Siekdama rezultatų, „Wolfram Alpha“ remiasi iš anksto suderintomis žinių bazėmis, o įmonė reguliariai prideda ir atnaujina naujas žinių bazes. Kai kurie iš jų yra labai specializuoti techniniai duomenys, pavyzdžiui, informacija apie cheminius elementus ar vaisinės musės genomą, o kiti yra įnoringesni. Pavyzdžiui, Wolfram Alpha gana daug žino apie kačių veisles.

Tol, kol pasiliekate Wolfram Alpha žinių sferoje, jis gali atlikti naudingą duomenų analizę. Pavyzdžiui, Wolfram Alpha gali palyginkite liūtų ir tigrų šokinėjimo atstumus. (Pasirodo, kad juos galima palyginti, bet atrodo, kad tigrai paprastai aplenkia liūtus.) Bet jei norite sužinoti kiek toli gali nušokti kengūros? Oi, atsiprašome: nėra duomenų.

Tačiau nesėkminga užklausa apie kengūros apynius šiek tiek parodo, kaip Wolfram Alpha bando suprasti dalykus. Prieš pateikdamas atsakymą, variklis rodo, kad „kengūra“ reiškia „kengūra, Wallabies“, bet vartotojai gali pereiti prie antilopininės kengūros, raudonosios kengūros arba rytinės pilkos spalvos Kengūra. Panašiai Wolfram Alpha interpretavo „kiek toli gali nušokti kengūra“ kaip užklausą „šuolio atstumas“, konkretus duomenų taškas, kurį jis gali turėti apie gyvūnus. Pasirodo, Wolfram Alpha šiuo metu neturi tų duomenų, tačiau jos užklausos interpretacija yra labai svarbi.

Ar tai ne Siri?

Jei šios užklausos skamba kaip dalykai, kuriuos žmonės meta Siri „iPhone 4S“ (bet atminkite, ne šią savaitę debiutuosiantis naujasis iPad), esate visiškai teisus. Tačiau svarbu atsiminti, kad „Siri“ sprendžia tik pusę lygties: supranta vartotojo užklausas. Tai darydama „Siri“ imasi labai sudėtingos skaičiavimo problemos, kai realiuoju laiku tiksliai atpažįsta vartotojo kalbą per mikrofoną. Tai nėra mažas žygdarbis, bet tai nėra semantinė paieškos sistema. Užkulisiuose „Siri“ perduoda užklausas „Wolfram Alpha“, „Yelp“ ir (jei visa kita nepavyksta) naudotojo pageidaujamai žiniatinklio paieškos sistemai. Jei paklausite Siri: „Ar Jaltos konferencija įvyko Korėjos karo metu“, ji gali tiksliai atpažinti, ką jūs klausiate – man tai patiko – bet tai tik pasiūlys atlikti senosios mokyklos tiesioginę žiniatinklio paiešką tu.

siri

Ko tikėtis

„Google“ susidomėjimas semantine paieška greičiausiai yra dvigubas. Pirma, ji greičiausiai nori naudoti šią technologiją kaip dar vieną pasigyrimo tašką, kuris pralenkia konkurentus – daugiausia Microsoft Bing. Bing jau seniai turėjo a partnerystė su Wolfram Alpha sukurta siekiant padėti paieškos varikliui pateikti tiesioginius atsakymus, kai įmanoma. Tačiau iki šiol nei „Bing“, nei „Google“ nepadarė didelio įsiveržimo į vartotojus su tiesioginiais paieškos rezultatais. Galų gale, dauguma kasdienės paieškos vartotojų tikriausiai nežino, kad jau egzistuoja (ribotos) galimybės. Net ir apie juos žinantiems vartotojams atrodo, kad net „Google“ mano, kad ši technologija taikoma tik 10–20 procentų paieškų. Tai daug paieškų, bet tai reiškia, kad dauguma (80–90 proc.) paieškų jo nenaudos.

Tačiau, kadangi vartotojai greitai atsisako nešiojamųjų kompiuterių, stalinių kompiuterių ir tradicinių skaičiavimo platformų, gali atsirasti galimybė pateikti trumpus, lengvai suprantamus atsakymus į sudėtingas paieškos užklausas. labai svarbus mobiliajame pasaulyje. Naudotojams, kurie vairuoja ar kitaip nenori sukti klaviatūrų ar ekraninių klaviatūrų, gali atsakyti į žodines užklausas, pvz., „Ar Golden Gate Park“ didesnis nei Centrinis parkas? arba „Kuris kelias į Malkolmo butą? su paprastais atsakymais, pvz., „Taip“ ir „Pasukti į kairę“, gali būti neįkainojami mobiliesiems skirtumai platformos.

Beveik neabejotinai tokios įmonės kaip „Apple“ ir „Google“ nori pasinaudoti šia technologija.

* Tombaugh pirmą kartą identifikavo Plutoną kaip judantį objektą 1930 m. vasario 18 d., tačiau Plutonas buvo netyčia pastebėtas keletą ankstesnių kartų. Anksčiausias šiuo metu žinomas buvo 1909 m. Matyti? Žinios yra slidžios.

Nuotrauka per: Annette Shaff / Shutterstock.com

Redaktorių rekomendacijos

  • Visas internetas dabar priklauso „Google“ AI
  • Nereikia naudoti „Bing“ – „Google“ paieškoje dabar taip pat yra AI
  • Oi – „Google Bard AI“ demonstracinę versiją paneigia pirmasis paieškos rezultatas
  • Štai kaip „Google“ paieška planuoja kovoti su paspaudimais
  • Kaip pašalinti asmeninę informaciją iš Google paieškos