Wall Street Journali Amir Efrati kergitas kulme artikliga (vajalik tellimus), öeldes, et Google töötab selle nimel, et olla Interneti-otsingu alal konkurentidest ees, juurutades rohkem nn semantilise otsingu tehnoloogiat. Idee on selles, et Google'i otsingukast ei oleks lihtsalt koht, kus kasutajad saavad sisestada märksõnu või konkreetselt moodustatud päringuid, vaid kast, millel on tegelik mõistmine paljudest terminitest, nimedest, tegusõnadest ja viidetest, mida inimesed sisestavad – ja saaksid neid teadmisi kasutajate otsingutes rakendada. Teoreetiliselt peaks semantiline otsing suutma tagastada tulemusi, mis peegeldavad otsija kavatsusi ja sisse mõnel juhul parandab Google'i võimet anda vastus kohe, ilma kasutajaid teise juurde suunamata saidile.
Aga oota – kas see on midagi uut? Ei googelda juba pane mõned vastused kohe ette? Ja kuidas võiks semantiline otsing aidata Google'il säilitada oma juhtpositsiooni Interneti-otsingu äris?
Soovitatavad videod
Mis on semantiline otsing?
Lühidalt, semantikal on palju rohkem ühist Watsoniga, IBM-i superarvutirakendusega, mis
inimestest käega lüüa juures Oht! kui seda teeb Microsoft Wordi otsimisdialoogiga.Laiemalt öeldes jaguneb arvutipõhise otsingu maailm kahte tüüpi:
Sõnasõnaline otsing (mõnikord kutsutakse navigatsiooniotsing) otsib mõne või kõigi sisestatud terminite jaoks täpseid vasteid ja tagastab vastavad üksused – kas failid, veebilehed, tooted või mõni muu diskreetne teabeüksus. Sõnasõnalist otsingut saab täiendada selliste asjadega nagu tüvede sobitamine, konjugaadid ja assotsiatsioonid, mis laiendavad või piiravad otsingut kasulikel viisidel – nii kui otsite sõna "lendab", võib tabada ka "lend". Sõnasõnaline otsing on see, millega me täna kõige paremini tuttavad, osaliselt seetõttu, et seda on arvutite jaoks kõige lihtsam esinema.
Semantiline otsing erineb sõnasõnalisest otsingust kahel viisil. Esiteks proovib semantiline otsing mõista mida kasutaja päringus küsib, asetades selle päringu terminite ja keele analüüsi kaudu konteksti. See analüüs viiakse läbi eelnevalt koostatud teadmiste kogumite põhjal, mis võivad sisaldada ka teadmisi kasutaja kohta. Teiseks, selle asemel, et tagastada failide, veebilehtede, toodete või muude üksuste komplekt, püüab semantiline otsing pakkuda otsene vastus küsimusele. Kui küsite semantiliselt otsingumootorilt "Millal Pluuto avastati?" see võib vastata: "Pluuto avastas 18. veebruaril 1930 Clyde Tombaugh*”, kus sõnasõnaline otsingumootor tagastaks suure tõenäosusega lingid veebilehtedele, mis sisaldavad sõnu „avastatud” ja „Pluuto”.
Selgub, et sõnasõnaline otsing ja semantiline otsing sobivad erinevate ülesannete jaoks. Sõnasõnaline otsing on suurepärane, kui kasutaja otsib konkreetset asi, olgu selleks fail, veebileht, dokument, toode, album või muu diskreetne üksus. Semantiline otsing seevastu osutub kasulikumaks, kui kasutaja otsib konkreetset teavet — näiteks kuupäev, number, kellaaeg, koht või nimi.
Osaliselt tänu sõnasõnalise otsingutehnoloogia levikule kõiges, alates tekstitöötlusprogrammidest ja lõpetades veebiotsingumootoritega, oleme kõige enam harjunud sõnasõnalise otsinguga. Enamik meist juba teab, kuidas manipuleerida sõnasõnalise otsinguga, et jõuda esimesel katsel sellele, mida me tahame. Efrati WSJ artikli kohaselt usub Google siiski, et semantiline otsingutehnoloogia võib anda otseseid vastuseid 10–20 protsendile veebiotsingutest. Comscore'i andmetel Google käsitles 11,7 miljardit otsingut ainuüksi USA-s 2012. aasta veebruaris. Semantiliste otsinguvõimaluste abil oleks rohkem kui 2,3 miljardile neist otsingutest saanud otse vastuse, selle asemel, et inimesi teistele veebilehtedele ja saitidele saata.
Kas Google seda juba ei tee?
Kui olete Google'i veebiotsingut üldse kasutanud, mõtlete tõenäoliselt "Aga oodake, Google juba teeb seda!" Sisestage "praegune aeg Tokyos” või „kui kõrge on Mount Everest” ja Google arvab oma otsingutulemuste ülaosas täpse vastuse. Google viitab vastuseks isegi allikatele ja mõned neist allikatest on vastuse all olevas klassikalises "kümme sinises lingis". (Muide, Google teatab, et Mount Everest on 8848 meetrit kõrge.)
Ausalt öeldes on see üks paljudest kasulikest võimalustest, mille Google on oma otsinguribale sisse ehitanud: see teeb (keeruka) matemaatika, toimib ühikute ja valuutade teisendusi ning hankida selliseid asju nagu lennuteave ja kohalike filmide esitusajad – pole vaja keerulist teksti tippida päring. See võib kasutada ka mõnda avalikku andmeallikat. Näiteks tippides "elanikkond Mehhiko” otsingukasti kuvatakse Maailmapanga andmed. Täna on vastuseks 113 423 047 inimest.
Google'i püüded anda teatud tüüpi küsimustele otseseid vastuseid kukuvad aga üsna kiiresti alla, kuna need funktsioonid on suures osas rakendatakse Google'i sõnasõnalise otsingumootori erijuhtudena, mitte semantilise otsinguna, mis püüab mõista, mida kasutaja tahab. Sisestage "kui pikk on Mt everest” (märkige kirjapilt) otsingukasti ja Google isegi ei püüa vastust anda: Google'i otsing ei tea, et „mt” tähendab „mount”. Samamoodi, kui Google on kindlaks teinud, et teie praegune asukoht ei asu Mehhikos (ja kui Google'il teie asukohta pole, arvab ta teie IP-aadressi järgi ja, ei, te ei saa loobuda) otsin "rahvaarvuga Mehhiko linn” võib anda ootamatuid tulemusi. Kindlasti elab Mexico City rohkem kui 10 852 inimest, eks?
Mille poolest semantiline otsing erineb
Semantiline otsing püüab seda tüüpi segadusi kõrvaldada kahel viisil. Esiteks püüab see täpsemalt mõista kavatsus konkreetse päringu taga. Teiseks püüab see võrrelda selle päringu elemente eelnevalt koostatud sügavate teadmiste kogumitega, et näha, kas see suudab anda sisuka vastuse.
Kui saadate päringu sõnasõnalisse otsingumootorisse, nagu Google, ei pakita see kohe välja igal Interneti-saidil, vaadake need üle ja esitage nimekiri saitidest, mis teie arvates kõige paremini sobivad tingimustele. Selle asemel on Google'il tarkvaraprogrammid, mis otsivad Internetist pidevalt uusi saite ja veebilehti, mis loovad indeks kõigilt leitud lehtedelt. Kuigi see on tohutu lihtsustus, kui kasutajad sisestavad otsingupäringu nagu "Jalta konverents”, Google otsib sellest registrist lehti, mis vastavad nii sõnale „Jalta” kui ka „konverents”, samuti lehti, millel on mõlemad terminid üksteise lähedal (näiteks 8 või 10 sõna ulatuses). Seejärel kogub Google nende lehtede URL-id, sorteerib oma sisemise PageRanki järgi (Google'i lehe suhteliste eeliste mõõt, mis arvestab sellele viivad lingid põhimõtteliselt positiivsete häältena) ja tagastab loendi.
Sellise protsessi taga olev andmehaldus ja insener on nii heidutav ja mammutlik, kui ka Google väärib kiitust selle eest, et see õnnestus – eriti kuna Google suudab seda sageli teha vaid murdosaga teiseks. Sarnased asjad juhtuvad Microsofti Bingi kulisside taga.
Semantiline otsing läheneks samale päringule erinevalt. Selle asemel, et võrrelda päringut eelnevalt koostatud (ja pidevalt ajakohastatud) veebilehtede registriga, mille kohta ta teab, võrdleb semantiline otsingumootor päringut diskreetse, eelnevalt täidetud päringuga. teadmiste komplektid see on saadaval. Mõelge teadmiste kogumitele nagu andmebaasid: need on südames täis andmeid, fakte ja arve konkreetse teema kohta. Teadmiste kogumeid on erinevaid. Paar huvitavat on ontoloogiad (mis esindavad formaliseeritud teavet, mida saab reeglite, funktsioonide ja piirangutega manipuleerida) ja folksonoomia, mis tavaliselt esindavad koostöös määratletud teadmiste kogumeid: näiteks räsimärgid ja sotsiaalsed järjehoidjad.
Teadmiste komplektid on midagi enamat kui lihtsalt hoiukastid. Need esindavad ka seoseid teadmistebaasi üksuste vahel ja võimaldavad teavet sisuliselt kasutada mitmekordne teadmiste komplektid. Lisaks väljendatakse suhteid sageli nii, et saab teha täpseid loogilisi järeldusi ilma peavad salvestama kõik võimalikud tuletisandmed. See on veidi antropomorfiseerimine, kuid semantilised otsingumootorid saavad neile teadaolevate andmete põhjal teha põhilisi arutlusi ja järeldusi. Selle protsessi osana on semantilised otsingumootorid sageli loodud hindama nende tuletuste usaldusväärsust. Kui nad ei arva, et nad teavad, millest nad räägivad, võivad nad vaikida. Kui nad on üsna kindlad, sülitavad nad vastuse välja.
Nii et kui sisestate semantilisse otsingumootorisse "Jalta konverents", vaataks see oma teadmiste kogumit ja ilmselt sülitaks välja mõned põhilised faktid ja arvud, võib-olla "4. kuni 11. veebruar 1945." See võib viidata sellele, et Stalin, Churchill ja Franklin Roosevelt osalesid, ning see oli oluline isegi maailmasõja lõpukuudel. II. Päris elementaarne värk.
Kui küsite sõnasõnaliselt otsingumootorilt "Kas Jalta konverents toimus Korea sõja ajal?” saate tõenäoliselt lihtsalt kümne sinise lingiga loendi. Ühel võib olla vastus.
Kui aga küsite semantilist otsingumootorit, peaksite saama ühesõnalise vastuse: "Ei".
See on koht, kus semantiline otsing muutub uskumatult huvitavaks.
Kas see pole mitte Wolfram Alpha?
Kui need päringud kõlavad selliste asjadena, mida inimesed viskavad Wolfram Alfa otsingumootor, sul on täpselt õigus. Selle asemel, et olla veebilehtede register, püüab Wolfram Alpha olla teadmiste mootor. Wolfram Alpha ei seisne asja (nt veebilehe) otsimises, vaid vastuse küsimises. Wolfram Alpha tugineb oma tulemuste saamiseks eelnevalt kehtestatud teadmistebaasidele ning ettevõte lisab ja värskendab regulaarselt uusi teadmistebaase. Mõned neist on väga spetsiifilised tehnilised andmed, nagu teave keemiliste elementide või äädikakärbse genoomi kohta, samas kui teised on kapriissemad. Näiteks Wolfram Alpha teab kassitõugudest üsna palju.
Niikaua kui jääte Wolfram Alpha teadmiste piiridesse, saab see andmeid kasulikult analüüsida. Näiteks Wolfram Alpha saab võrrelda lõvide ja tiigrite hüppekaugusi. (Tuleb välja, et need on võrreldavad, kuid tiigrid näivad üldiselt lõvidest välja tõrjuvat.) Aga kui soovite teada kui kaugele kängurud hüpata suudavad? Vabandust, andmed pole saadaval.
Kuid ebaõnnestunud päring känguruhumala kohta näitab natuke seda, kuidas Wolfram Alpha püüab asjadest aru saada. Enne vastuse andmist näitab mootor, et eeldab, et "känguru" tähendab "kängurud, wallabies”, kuid kasutajad saavad lülituda antilopiini kängurule, punasele kängurule või idahallile känguru. Samamoodi on Wolfram Alpha tõlgendanud "kui kaugele võib känguru hüpata" kui päringut "hüppekauguse" jaoks, mis on konkreetne andmepunkt, mis sellel loomade kohta võib olla. Selgub, et Wolfram Alphal pole praegu neid andmeid, kuid päringu tõlgendus on väga oluline.
Kas see pole mitte Siri?
Kui need päringud kõlavad nagu sellised, mida inimesed Sirile iPhone 4S-is viskavad (aga pidage meeles, mitte sel nädalal debüteeriv uus iPad), on teil täpselt õigus. Siiski on oluline meeles pidada, et Siri tegeleb ainult poole võrrandiga: kasutaja päringute mõistmisega. Seda tehes võtab Siri enda peale väga raske andmetöötlusprobleem, milleks on kasutaja kõne täpne tuvastamine mikrofoni kaudu reaalajas. See pole väike saavutus, kuid see pole semantiline otsingumootor. Kulisside taga edastab Siri päringud Wolfram Alphale, Yelpile ja (kui kõik muu ebaõnnestub) kasutaja eelistatud veebiotsingumootorile. Kui küsite Sirilt: "Kas Jalta konverents toimus Korea sõja ajal", võib see täpselt ära tunda, mida sa küsid – see tegi minu jaoks –, aga see pakub lihtsalt vanakooli sõnasõnalist veebiotsingut sina.
Mida oodata
Google'i huvi semantilise otsingu vastu on tõenäoliselt kahekordne. Esiteks soovib see tõenäoliselt kasutada seda tehnoloogiat veel ühe uhkuseks, mis seab selle oma konkurentsist – enamasti Microsoft Bingist – ette. Bingil on pikka aega olnud a koostöö Wolfram Alphaga loodud selleks, et aidata otsingumootoril võimaluse korral otseseid vastuseid pakkuda. Seni pole aga ei Bing ega Google otseotsingutulemustega tarbijatele suurt edu teinud. Tõenäoliselt ei tea enamik igapäevaseid otsingukasutajaid, et (piiratud) võimalused juba olemas on. Isegi nende kasutajate jaoks, kes on neist teadlikud, näib isegi Google arvavat, et tehnoloogia on rakendatav ainult 10–20 protsendil otsingutest. See on palju otsinguid, kuid see tähendab, et enamik (80–90 protsenti) otsingutest ei kasuta seda.
Kuna aga tarbijad loobuvad kiiresti sülearvutitest, lauaarvutitest ja traditsioonilistest arvutiplatvormidest, võib keerukatele otsingupäringutele lühikeste ja kergesti mõistetavate vastuste andmine muutuda väga oluline mobiilimaailmas. Kasutajad, kes sõidavad autoga või ei soovi muul viisil klahvistiku või ekraaniklaviatuuriga askeldada, on võimalus vastata suulistele päringutele, nagu „Kas Golden Gate Park suurem kui Central Park? või "Kuhu viis Malcolmi korterisse?" lihtsate vastustega, nagu „Jah” ja „Pöörake järgmisele vasakule”, võivad need olla mobiilseadmete jaoks hindamatud eristajad platvormid.
See on peaaegu kindlasti koht, kus ettevõtted, nagu Apple ja Google, soovivad tehnoloogiat kasutada.
* Esimest korda tuvastas Tombaugh Pluuto liikuva objektina 18. veebruaril 1930, kuid Pluutot oli mitmel varasemal korral tahtmatult märgatud. Varaseim praegu teadaolev oli 1909. aastal. Näete? Teadmised on libedad.
Foto: Annette Shaff / Shutterstock.com
Toimetajate soovitused
- Kogu Internet kuulub nüüd Google'i AI-le
- Te ei pea Bingi kasutama – Google'i otsingus on nüüd ka AI
- Oih! Google Bard AI demo lükkas esimene otsingutulemus ümber
- Siit saate teada, kuidas Google'i otsing kavatseb klikipeibutisega toime tulla
- Kuidas eemaldada Google'i otsingust isiklikku teavet