Gudrāka meklēšana: kāpēc “semantiskā meklēšana” beidzot ļaus Google jūs saprast

Kāpēc-semantiskā-meklēšana-beidzot-ļaus-Google-jūs saprast

The Wall Street Journal žurnālists Amirs Efrati ir saraucis uzacis ar rakstu (nepieciešams abonements), sakot, ka Google strādā, lai apsteigtu savus konkurentus interneta meklēšanā, ieviešot vairāk tā sauktās semantiskās meklēšanas tehnoloģijas. Ideja ir tāda, ka Google meklēšanas lodziņš nebūtu tikai vieta, kur lietotāji varētu ierakstīt atslēgvārdus vai īpaši izveidotus vaicājumus, bet gan lodziņš, kurā būtu saprašana no daudziem terminiem, nosaukumiem, darbības vārdiem un atsaucēm, ko cilvēki ievada, un varētu izmantot šīs zināšanas lietotāju meklējumos. Teorētiski semantiskajai meklēšanai ir jāspēj atgriezt rezultātus, kas atspoguļo meklētāja nolūku, un dažos gadījumos uzlabo Google spēju sniegt atbildi uzreiz, nenosūtot lietotājus uz citu vietne.

Bet pagaidiet - vai tas ir kaut kas jauns? Nemeklē Google jau ielieciet dažas atbildes uzreiz? Un kā semantiskā meklēšana varētu palīdzēt Google saglabāt vadošo pozīciju interneta meklēšanas biznesā?

Ieteiktie videoklipi

Kas ir semantiskā meklēšana?

Īsāk sakot, semantikai ir daudz vairāk kopīga ar Watson, IBM superskaitļošanas lietojumprogrammu, kas viegli pieveica cilvēkus plkst Apdraudējums! nekā Microsoft Word dialoglodziņā Atrast.

Brīvi runājot, datorizētās meklēšanas pasaule iedalās divos veidos:

Burtiskā meklēšana (dažreiz sauc navigācijas meklēšana) meklē precīzas atbilstības dažiem vai visiem ievadītajiem terminiem un atgriež atbilstošus vienumus — failus, Web lapas, produktus vai kādu citu diskrētu informācijas vienību. Literālo meklēšanu var papildināt ar tādām lietām kā cilmes saskaņošana, konjugāti un asociācija, kas noderīgos veidos paplašina vai ierobežo meklēšanu. meklējot “fly”, var atrast arī “flight”. Burtiskā meklēšana ir tas, ko mēs šodien pazīstam visvairāk, daļēji tāpēc, ka datoriem to ir visvieglāk izmantot veikt.

Semantiskā meklēšana atšķiras no burtiskās meklēšanas divos veidos. Pirmkārt, semantiskā meklēšana mēģina saprast ko lietotājs jautā vaicājumā, ievietojot to kontekstā, analizējot vaicājuma terminus un valodu. Šī analīze tiek veikta, pamatojoties uz cieši iepriekš apkopotu zināšanu kopumu, kas, iespējams, ietver zināšanas par lietotāju. Otrkārt, tā vietā, lai atgrieztu failu, tīmekļa lapu, produktu vai citu vienumu kopu, semantiskā meklēšana mēģina nodrošināt tiešā veidā atbildi uz jautājumu. Ja semantiskajai meklētājprogrammai jautājat: "Kad tika atklāts Plutons?" tas varētu atbildēt: "Plutonu 1930. gada 18. februārī atklāja Klaids Tombo*”, kur burtiskā meklētājprogramma, visticamāk, atgrieztu saites uz tīmekļa lapām, kurās ir vārdi “atklāts” un “Plutons”.

Izrādās, burtiskā meklēšana un semantiskā meklēšana ir piemērota dažādiem uzdevumiem. Burtiskā meklēšana ir lieliska, ja lietotājs meklē konkrētu lieta, vai tas ir fails, Web lapa, dokuments, produkts, albums vai cits diskrēts vienums. No otras puses, semantiskā meklēšana izrādās noderīgāka, ja lietotājs meklē konkrētu informāciju — piemēram, datums, numurs, laiks, vieta vai vārds.

Daļēji pateicoties burtiskās meklēšanas tehnoloģiju izplatībai visās jomās, sākot no tekstapstrādes programmām līdz tīmekļa meklētājprogrammām, mēs visvairāk esam pieraduši pie burtiskās meklēšanas. Lielākā daļa no mums jau zina, kā manipulēt ar burtisku meklēšanu, lai ar pirmo mēģinājumu tuvinātu mūs vēlamajam. Tomēr saskaņā ar Efrati WSJ rakstu Google uzskata, ka semantiskās meklēšanas tehnoloģija varētu sniegt tiešas atbildes uz 10 līdz 20 procentiem tīmekļa meklējumu. Saskaņā ar Comscore, Google apstrādāja 11,7 miljardus meklējumu Amerikas Savienotajās Valstīs vien 2012. gada februārī. Izmantojot semantiskās meklēšanas iespējas, uz vairāk nekā 2,3 miljardiem šo meklējumu būtu bijis iespējams atbildēt tieši, nevis nosūtīt cilvēkus uz citām tīmekļa lapām un vietnēm.

Vai Google to jau nedara?

Ja vispār esat izmantojis Google meklēšanu tīmeklī, jūs, iespējams, domājat: "Bet pagaidiet, Google jau to dara!" Ierakstiet "pašreizējais laiks Tokijā” vai “cik augsts ir Everests” un Google liks savu labāko minējumu par precīzu atbildi meklēšanas rezultātu augšdaļā. Google pat atsaucas uz avotiem, lai sniegtu atbildi, un daži no šiem avotiem atradīsies klasiskajās “desmit zilajās saitēs” zem atbildes. (Starp citu, Google ziņo, ka Everests ir 8848 metrus augsts.)

Taisnības labad jāsaka, ka šī ir viena no daudzajām noderīgajām iespējām, ko Google ir iestrādājis savā meklēšanas joslā: tā veiks (sarežģītu) matemātiku, veiks. vienību un valūtas konvertāciju, kā arī iegūt informāciju par lidojumu un vietējo filmu seansu laikus — nav nepieciešams rakstīt sarežģītu tekstu vaicājums. Tas var arī piekļūt dažiem publiskiem datu avotiem. Piemēram, ierakstot "iedzīvotāju Meksika” meklēšanas lodziņā tiks parādīti Pasaules Bankas dati. Atbilde šodien ir 113 423 047 cilvēki.

Tomēr Google centieni sniegt tiešas atbildes uz dažu veidu jautājumiem krītas diezgan ātri, jo šīs funkcijas lielā mērā tiek ieviesti kā īpaši gadījumi Google burtiskajā meklētājprogrammā, nevis kā semantiska meklēšana, kas mēģina saprast, ko lietotājs vēlas. Ierakstiet "cik garš ir Mt Everest” (ņemiet vērā pareizrakstību) meklēšanas lodziņā, un Google pat nemēģina sniegt atbildi: Google meklēšana nezina, ka “mt” nozīmē “mount”. Tāpat, ja Google ir noteicis, ka jūsu pašreizējā atrašanās vieta neatrodas Meksikā (un, ja uzņēmumam Google nav jūsu atrašanās vietas, tas uzminēs pēc jūsu IP adreses un, nē, jūs nevarat atteikties) meklē "iedzīvotāju Meksikas pilsēta” var sniegt dažus negaidītus rezultātus. Protams, Mehiko dzīvo vairāk nekā 10 852 cilvēki, vai ne?

Kā atšķiras semantiskā meklēšana

Semantiskā meklēšana mēģina novērst šāda veida kļūdas divos veidos. Pirmkārt, tas mēģina precīzāk izprast nolūks aiz konkrēta vaicājuma. Otrkārt, tas mēģina saskaņot šī vaicājuma elementus ar iepriekš apkopotu dziļu zināšanu kopumu, lai noskaidrotu, vai tas var sniegt jēgpilnu atbildi.

Nosūtot vaicājumu burtiskai meklētājprogrammai, piemēram, Google, tas netiek uzreiz izvilkts uz katru vietni internetā, pārskatiet tās un iesniedziet to vietņu sarakstu, kuras, jūsuprāt, vislabāk atbilst jūsu noteikumiem. Tā vietā Google ir programmatūras programmas, kas nepārtraukti meklē internetu, meklējot jaunas vietnes un tīmekļa lapas, kas rada rādītājs no visām lapām, ko viņi atrod. Lai gan šī ir pārmērīga vienkāršošana, kad lietotāji ieraksta meklēšanas vaicājumu, piemēram, "Jaltas konference”, Google šajā rādītājā aplūko lapas, kas atbilst gan vārdiem “Jalta”, gan “konference”, kā arī lapas, kurās abi termini ir tuvu viens otram (piemēram, 8 vai 10 vārdos). Pēc tam Google apkopo šo lapu vietrāžus URL, sakārto pēc iekšējā PageRank (Google mēra lapas relatīvajiem ieguvumiem, kas pamatā uzskaita saites uz to kā pozitīvas balsis) un atgriež sarakstu.

Datu pārvaldība un inženierija, kas ir šāda procesa pamatā, ir gan biedējoša, gan milzīga, un Google ir pelnījis atzinību par to, ka tas izdevās, jo īpaši tāpēc, ka Google bieži vien spēj to izdarīt ar nelielu daļu a otrais. Līdzīgas lietas notiek Microsoft Bing aizkulisēs.

Semantiskā meklēšana vienam vaicājumam pieietu atšķirīgi. Tā vietā, lai salīdzinātu vaicājumu ar iepriekš sastādītu (un pastāvīgi atjauninātu) Web lapu indeksu, par ko tā zina, semantiskā meklētājprogramma salīdzina vaicājumu ar diskrētu, iepriekš izpildītu. zināšanu kopas tas ir pieejams. Padomājiet par zināšanu kopām, piemēram, datubāzēm: tās ir pilnas ar datiem, faktiem un skaitļiem par konkrētu tēmu. Ir dažāda veida zināšanu kopas. Ir pāris interesanti ontoloģijas (kas atspoguļo formalizētu informāciju, ar kuru var manipulēt ar noteikumiem, funkcijām un ierobežojumiem) un folksonomijas, kas parasti atspoguļo kopīgi definētas zināšanu kopas. Piemēri varētu būt atsauces atzīmēšana un sociālās grāmatzīmes.

Google meklēšanu

Zināšanu kopas ir kas vairāk nekā tikai uzglabāšanas tvertnes. Tie arī atspoguļo attiecības starp vienumiem zināšanu bāzē un ļauj jēgpilni izmantot informāciju vairākas zināšanu kopas. Turklāt attiecības bieži tiek izteiktas tā, ka var izdarīt precīzus loģiskus secinājumus bez jāuzglabā visi iespējamie atvasinātie dati. Tas ir nedaudz antropomorfizēts, taču semantiskās meklētājprogrammas var veikt pamata argumentāciju un atskaitījumus no datiem, par kuriem tās zina. Šī procesa ietvaros semantiskās meklētājprogrammas bieži ir paredzētas, lai novērtētu to atvasinājumu pārliecības līmeni. Ja viņi nedomā, ka zina, par ko runā, viņi var palikt klusi. Ja viņi ir diezgan pārliecināti, viņi atbildēs.

Tātad, ja jūs semantiskajā meklētājprogrammā ievadīsit vārdu “Jaltas konference”, tā skatītos savās zināšanu kopās un, iespējams, izspļautu dažus pamata faktus un skaitļus. "1945. gada 4. līdz 11. februāris." Tas varētu liecināt, ka Staļins, Čērčils un Franklins Rūzvelts piedalījās, un tas bija svarīgi pat pēdējos pasaules kara mēnešos. II. Diezgan elementāras lietas.

Ja jūs uzdodat jautājumu burtiskai meklētājprogrammai "Vai Jaltas konference notika Korejas kara laikā?” jūs, iespējams, vienkārši iegūsit sarakstu ar desmit zilām saitēm. Kādam varētu būt atbilde.

Tomēr, ja uzdodat jautājumu semantiskajai meklētājprogrammai, jums vajadzētu saņemt atbildi ar vienu vārdu: “Nē”.

Tas ir vieta, kur semantiskā meklēšana kļūst neticami interesanta.

Vai tas nav Volframa Alfa?

Ja šie vaicājumi izklausās pēc tādām lietām, ko cilvēki uzdod Volframa Alfa meklētājprogrammā, jums ir pilnīga taisnība. Tā vietā, lai būtu Web lapu rādītājs, Wolfram Alpha cenšas būt zināšanu dzinējs. Wolfram Alpha nav lietas (piemēram, tīmekļa lapas) meklēšana, bet gan atbildes lūgšana. Lai iegūtu rezultātus, Wolfram Alpha paļaujas uz iepriekš sagatavotām zināšanu bāzēm, un uzņēmums regulāri pievieno un atjaunina jaunas zināšanu bāzes. Daži no tiem ir ļoti specializēti tehniskie dati, piemēram, informācija par ķīmiskajiem elementiem vai augļmušas genomu, bet citi ir dīvaināki. Piemēram, Wolfram Alpha diezgan daudz zina par kaķu šķirnēm.

Kamēr jūs paliekat Wolfram Alpha zināšanu jomā, tas var veikt noderīgu datu analīzi. Piemēram, Wolfram Alpha var salīdziniet lauvu un tīģeru lēcienu attālumus. (Izrādās, ka tie ir salīdzināmi, bet šķiet, ka tīģeri parasti pārvar lauvas.) Bet, ja vēlaties uzzināt cik tālu ķenguri var lēkt? Atvainojiet, dati nav pieejami.

Bet neveiksmīgais vaicājums par ķenguru apiņiem nedaudz parāda, kā Wolfram Alpha mēģina saprast lietas. Pirms tiek sniegta atbilde, dzinējs norāda, ka pieņem, ka “ķengurs” nozīmē “ķenguri, Wallabies”, bet lietotāji var pārslēgties uz antilopīna ķenguru, sarkano ķenguru vai austrumu pelēko ķengurs. Līdzīgi Wolfram Alpha ir interpretējis “cik tālu var lēkt ķengurs” kā vaicājumu “lēciena attālumam”, kas ir īpašs datu punkts, kas tam varētu būt par dzīvniekiem. Izrādās, Wolfram Alpha pašlaik nav šo datu, taču tā vaicājuma interpretācija ir ļoti svarīga.

Vai tas nav Siri?

Ja šie vaicājumi izklausās pēc tādām lietām, ko cilvēki uzdod Siri iPhone 4S (bet atcerieties, jaunais iPad, kas debitēs šonedēļ), jums ir taisnība. Tomēr ir svarīgi atcerēties, ka Siri risina tikai vienu pusi no vienādojuma: izprot lietotāja vaicājumus. To darot, Siri risina ļoti sarežģīto skaitļošanas problēmu, proti, reāllaikā precīzi atpazīt lietotāja runu, izmantojot mikrofonu. Tas nav mazs varoņdarbs, taču tā nav semantiskā meklētājprogramma. Aizkulisēs Siri nodod vaicājumus Wolfram Alpha, Yelp un (ja nekas cits neizdodas) lietotāja izvēlētajai tīmekļa meklētājprogrammai. Ja jautāsiet Siri “Vai Jaltas konference notika Korejas kara laikā”, tā var precīzi atpazīt, ko jūs jautājat — tas bija man, bet tas tikai piedāvās veikt vecās skolas burtisku meklēšanu tīmeklī tu.

siri

Ko sagaidīt

Google interese par semantisko meklēšanu, visticamāk, ir divējāda. Pirmkārt, tas, iespējams, vēlas izmantot šo tehnoloģiju kā vēl vienu lepnumu, kas to izvirza priekšā konkurentiem - galvenokārt Microsoft Bing. Bing jau sen ir sadarbība ar Wolfram Alpha izstrādāts, lai palīdzētu meklētājprogrammai sniegt tiešas atbildes, kad iespējams. Tomēr līdz šim ne Bing, ne Google nav veikuši lielu iebrukumu patērētāju vidū, izmantojot tiešos meklēšanas rezultātus. Galu galā lielākā daļa ikdienas meklēšanas lietotāju, iespējams, nezina, ka (ierobežotās) iespējas jau pastāv. Pat lietotājiem, kuri tos apzinās, šķiet, ka pat Google uzskata, ka tehnoloģija ir piemērojama tikai 10 līdz 20 procentiem meklēšanas gadījumu. Tas ir daudz meklējumu, taču tas nozīmē, ka lielākā daļa (80–90 procenti) meklēšanas gadījumu to neizmantos.

Tomēr, tā kā patērētāji strauji atsakās no piezīmjdatoriem, galddatoriem un tradicionālajām skaitļošanas platformām, var kļūt iespēja sniegt īsas, viegli saprotamas atbildes uz sarežģītiem meklēšanas vaicājumiem. ļoti svarīgi mobilajā pasaulē. Lietotājiem, kuri brauc vai citādi nevēlas knibināt ar tastatūrām vai ekrāna tastatūrām, iespēja atbildēt uz izrunātiem vaicājumiem, piemēram, “Vai Golden Gate Park lielāks par Centrālparku? vai "Kurš ceļš uz Malkolma dzīvokli?" ar vienkāršām atbildēm, piemēram, “Jā” un “Pagriezieties pa kreisi”, tas varētu būt nenovērtējams atšķirības mobilajās ierīcēs platformas.

Tā gandrīz noteikti ir vieta, kur uzņēmumi, piemēram, Apple un Google, vēlas izmantot tehnoloģiju.

* Tombo pirmo reizi identificēja Plutonu kā kustīgu objektu 1930. gada 18. februārī, bet Plutons tika nejauši pamanīts vairākkārt agrāk. Agrākais šobrīd zināmais bija 1909. gadā. Redzi? Zināšanas ir slidenas.

Fotoattēls, izmantojot: Annette Shaff / Shutterstock.com

Redaktoru ieteikumi

  • Viss internets tagad pieder Google AI
  • Jums nav jāizmanto Bing — tagad arī Google meklēšanā ir AI
  • Hmm... Google Bard AI demonstrāciju atspēko pirmais meklēšanas rezultāts
  • Lūk, kā Google meklēšana plāno cīnīties ar klikšķu ēsmu
  • Kā noņemt personas informāciju no Google meklēšanas