Паметнија претрага: Зашто ће „семантичка претрага“ коначно омогућити Гоогле-у да вас разуме

Зашто-семантичка-претрага-ће-коначно-допустити-Гоогле-у да вас разуме

Амир Ефрати из Валл Стреет Јоурнала подигао је обрве својим чланком (потребна претплата) рекавши да Гоогле ради на томе да остане испред својих ривала у претрази Интернета увођењем више такозване технологије „семантичке претраге“. Идеја је да Гоогле-ов оквир за претрагу не би био само место за кориснике да унесу кључне речи или посебно формиране упите, већ оквир који је имао стварну разумевање многих термина, имена, глагола и референци које људи уносе — и могли би применити то знање на претраге корисника. У теорији, семантичка претрага би требало да буде у стању да врати резултате који одражавају намеру претраживача, и ин неки случајеви побољшавају Гоогле-ову способност да одмах да одговор без упућивања корисника на другог сајту.

Али чекајте - да ли је ово нешто ново? Не Гоогле већ ставити неке одговоре одмах испред? И како би семантичка претрага потенцијално могла да помогне Гуглу да одржи водећу позицију у пословању интернет претраге?

Препоручени видео снимци

Шта је семантичка претрага?

Укратко, семантика има много више заједничког са Ватсон-ом, ИБМ суперкомпјутерском апликацијом која лако поражени људи ат Опасност! него са дијалогом Финд у Мицрософт Ворд-у.

Лако речено, свет компјутеризованог претраживања се дели на два типа:

Дословна претрага (понекад се зове навигационо претраживање) тражи тачна подударања за неке или све унете термине и враћа одговарајуће ставке — било да су датотеке, веб странице, производи или нека друга дискретна јединица информација. Дословна претрага може да се допуни стварима као што су подударање корена, коњугати и асоцијације које проширују или ограничавају претрагу на корисне начине - тако тражење „фли“ може такође погодити „лет“. Дословна претрага је оно са чиме смо данас најпознатији, делом зато што је рачунарима најлакше да изводити.

Семантичка претрага разликује се од буквалног претраживања на два начина. Прво, семантичка претрага покушава да разумети шта корисник пита у упиту тако што га ставља у контекст кроз анализу услова и језика упита. Ова анализа се спроводи на основу чврсто претходно компајлираних скупова знања, потенцијално укључујући знање о кориснику. Друго, уместо враћања скупа датотека, веб страница, производа или других ставки, семантичка претрага покушава да обезбеди директан одговор на питање. Ако питате семантички претраживач „Када је Плутон откривен?“ могло би да одговори „Плутон је открио Клајд Томбо 18. фебруара 1930.*”, где би буквални претраживач највероватније вратио везе ка веб страницама које садрже речи „откривено” и „Плутон”.

Испоставило се да су дословно и семантичко претраживање добре за различите задатке. Дословна претрага је сјајна када корисник тражи одређену ствар, било да је то датотека, веб страница, документ, производ, албум или друга дискретна ставка. Семантичка претрага се, с друге стране, показује кориснијом када корисник тражи одређено информације — као датум, број, време, место или име.

Делимично захваљујући пролиферацији технологије дословног претраживања у свему, од процесора за обраду текста до веб претраживача, највише смо навикли на дословно претраживање. Већина нас већ зна како да манипулише дословном претрагом да би се приближили ономе што желимо из првог покушаја. Међутим, према Ефратиовом ВСЈ чланку, Гугл верује да технологија семантичке претраге може да пружи директне одговоре на између 10 и 20 процената веб претрага. Према Цомсцоре, Гоогле обрађено 11,7 милијарди претрага само у Сједињеним Државама у фебруару 2012. Са могућностима семантичке претраге, на више од 2,3 милијарде тих претрага могло би се одговорити директно, уместо да се људи шаљу на друге веб странице и сајтове.

Зар Гоогле то већ не ради?

Ако сте уопште користили Гоогле веб претрагу, вероватно мислите „Али сачекајте, Гоогле то већ ради!“ Тип "тренутно време у Токио” или “колико је висок Моунт Еверест” и Гоогле ће поставити своју најбољу претпоставку о прецизном одговору на врху својих резултата претраге. Гоогле чак цитира изворе за свој одговор, а неки од тих извора ће бити у класичним „десет плавих веза“ испод одговора. (Гугл наводи да је Монт Еверест, иначе, висок 8.848 метара.)

Да будемо поштени, ово је само једна од многих корисних могућности које је Гоогле уградио у своју траку за претрагу: Урадиће (софистицирану) математику, конверзије јединица и валута, и извући ствари као што су информације о летовима и локално време приказивања филмова — нема потребе да куцате компликовано упит. Такође може да користи неке јавне изворе података. На пример, укуцајте „становништво Мексико” у оквиру за претрагу ће приказати податке Светске банке. Одзив данас је 113.423.047 људи.

Међутим, Гоогле-ови напори да пружи директне одговоре на неке врсте питања падају прилично брзо, јер су те функције углавном имплементиран као специјални случајеви у Гоогле-ов буквални претраживач, а не као семантичка претрага која покушава да разуме шта корисник жели. Тип "колико је висок мт еверест” (обратите пажњу на правопис) у оквир за претрагу, а Гоогле чак ни не покушава да пружи одговор: Гоогле претрага не зна да „мт“ значи „моунт“. Слично томе, ако је Гоогле утврдио да ваша тренутна локација није у Мексику (и, ако Гоогле нема вашу локацију, погодиће по вашој ИП адреси и, не, не можете да се одјавите) Тражим "становништво Мексико Сити“ може вратити неке неочекиване резултате. Сигурно је да је Мексико Сити дом за више од 10.852 људи, зар не?

Колико је семантичка претрага другачија

Семантичка претрага покушава да елиминише ове врсте гафова на два начина. Прво, покушава да тачније разуме намера иза одређеног упита. Друго, покушава да упореди елементе тог упита са унапред компајлираним скуповима дубоког знања да би видео да ли може дати смислен одговор.

Када пошаљете упит дословном претраживачу као што је Гугл, он се не шаље тренутно на сваки сајт на Интернету, прегледајте их и пријавите листу сајтова за које сматра да најбоље одговарају вашој услови. Уместо тога, Гоогле има софтверске програме који непрестано претражују интернет у потрази за новим сајтовима и новим веб страницама, који стварају индекс са свих страница које нађу. Иако је ово велико поједностављење, када корисници унесу упит за претрагу попут „Конференција на Јалти„Гугл прегледа тај индекс за странице које одговарају и „Јалта” и „конференција”, као и странице које имају оба термина у близини (рецимо, унутар 8 или 10 речи). Гоогле затим прикупља УРЛ-ове за те странице, сортира према свом интерном ПагеРанк-у (Гоогле-ова мера релативних вредности странице која у основи рачуна везе до ње као позитивне гласове) и враћа листу.

Управљање подацима и инжењеринг иза оваквог процеса су застрашујући и мамутски, и Гоогле заслужује похвале што га је извео — поготово зато што је Гугл то често у стању да уради за делић друго. Сличне ствари се дешавају иза кулиса у Мицрософт-овом Бингу.

Семантичка претрага би различито приступила истом упиту. Уместо да упоређује упит са унапред компајлираним (и стално ажурираним) индексом веб страница за које зна, семантички претраживач упоређује упит са дискретним, унапред усклађеним скупови знања има на располагању. Замислите скупове знања као што су базе података: у суштини, они су пуни података, чињеница и бројки о одређеној теми. Постоје различите врсте скупова знања. Неколико занимљивих је онтологије (који представљају формализоване информације којима се може манипулисати правилима, функцијама и ограничењима) и фолксономије, који обично представљају скупове знања дефинисане у сарадњи: Примери би били хештаговање и друштвени обележивачи.

гоогле-сеарцх

Скупови знања су више од пуких канти за складиштење. Они такође представљају односе између ставки у бази знања и омогућавају смислено коришћење информација вишеструко скупови знања. Штавише, односи се често изражавају на такав начин да се могу извести тачни логички закључци без мора да складишти све могуће деривативе податке. Ово помало антропоморфизује, али семантички претраживачи могу да изврше основно резоновање и дедукцију на основу података за које знају. Као део тог процеса, семантички претраживачи су често дизајнирани да процене ниво поверења који имају у своје деривације. Ако не мисле да знају о чему причају, можда ће остати неми. Ако су прилично сигурни, испљунуће одговор.

Дакле, ако унесете „Конференцију на Јалти“ у семантичку тражилицу, она би погледала у своје скупове знања и вероватно би испљунула неке основне чињенице и бројке, можда „Од 4. до 11. фебруара 1945. То би могло указивати на присуство Стаљина, Черчила и Френклина Рузвелта, а било је важно чак иу последњим месецима светског рата ИИ. Прилично основне ствари.

Ако питате буквални претраживач „Да ли се конференција на Јалти догодила током Корејског рата?” вероватно ћете добити само листу од десет плавих веза. Можда неко има одговор.

Међутим, ако питате семантички претраживач, требало би да добијете одговор од једне речи: „Не“.

То ту семантичка претрага постаје невероватно занимљива.

Није ли ово Волфрам Алфа?

Ако ови упити звуче као ствари које људи бацају на Волфрам Алпха претраживач, потпуно сте у праву. Уместо да буде индекс веб страница, Волфрам Алпха покушава да буде мотор знања. Волфрам Алпха се не бави тражењем ствари (попут веб странице), већ тражењем одговора. Волфрам Алпха се ослања на унапред усклађене базе знања да би произвео своје резултате, а компанија редовно додаје и ажурира нове базе знања. Неки су високо специјализовани технички подаци - попут информација о хемијским елементима или геному воћне мушице - док су други више хировити. На пример, Волфрам Алфа зна доста о расама мачака.

Све док останете у домену знања Волфрама Алфе, он може да изврши корисну анализу података. На пример, Волфрам Алфа може упореди даљину скакања лавова и тигрова. (Испоставило се да су упоредиви, али изгледа да тигрови генерално превазилазе лавове.) Али ако желите да знате колико далеко кенгури могу скочити? Упс, извините: Нема доступних података.

Али неуспели упит о кенгур хопсу показује мало о томе како Волфрам Алфа покушава да разуме ствари. Пре него што пружи одговор, мотор показује да претпоставља да „кенгур“ значи „кенгури, Валлабиес“, али корисници могу да пређу на антилопински кенгур, црвени кенгур или источно сиви кенгуру. Слично томе, Волфрам Алфа је протумачио „колико далеко кенгур може скочити“ као упит за „даљину скакања“, специфичну тачку података коју може имати о животињама. Испоставило се да Волфрам Алпха тренутно нема те податке, али је његово тумачење упита веома важно.

Зар ово није Сири?

Ако ови упити звуче као ствари које људи бацају на Сири у иПхоне 4С (али запамтите, не нови иПад који дебитује ове недеље), потпуно сте у праву. Међутим, важно је запамтити да се Сири бави само једном половином једначине: разумевањем упита корисника. Чинећи то, Сири преузима веома тежак рачунарски проблем прецизног препознавања говора корисника преко микрофона у реалном времену. То није мали подвиг, али није семантички претраживач. Иза кулиса, Сири шаље упите Волфрам Алпха, Иелп-у и (ако ништа друго не успе) корисниковом преферираном веб претраживачу. Ако питате Сири „Да ли се конференција на Јалти догодила током Корејског рата“, можда ће тачно препознати шта питате – јесте за мене – али само ће вам понудити да урадите буквалну веб претрагу старе школе за ти.

сири

Шта да очекујете

Гоогле-ово интересовање за семантичку претрагу је вероватно двоструко. Прво, вероватно жели да користи технологију као још једну тачку за хвалисање која га ставља испред конкуренције - углавном Мицрософт Бинг. Бинг одавно има а партнерство са Волфрам Алпха дизајниран да помогне претраживачу да пружи директне одговоре када је то могуће. Међутим, до сада ни Бинг ни Гоогле нису направили велики продор код потрошача са директним резултатима претраге. На крају крајева, већина корисника свакодневне претраге вероватно не зна да (ограничене) могућности већ постоје. Чак и за кориснике који су их свесни, чак и Гоогле изгледа да мисли да је технологија применљива само на 10 до 20 процената претрага. То је много претрага, али значи да већина (80 до 90 процената) претрага неће то користити.

Међутим, како потрошачи брзо напуштају нотебоок рачунаре, десктоп рачунаре и традиционалне рачунарске платформе, могућност давања кратких, лако разумљивих одговора на компликоване упите за претрагу могла би постати врло важно у мобилном свету. За кориснике који возе или на неки други начин не желе да се петљају са тастатурама или тастатурама на екрану, могућност да одговоре на изговорене упите попут „Да ли је Голден Гате Парк већи од Централ Парка?" или „Којим путем до Малколмовог стана?“ са једноставним одговорима као што су „Да“ и „Иди следеће лево“ могу бити непроцењиви диференцијатори за мобилне уређаје платформе.

То је скоро сигурно место где компаније као што су Аппле и Гоогле желе да преузму технологију.

* Томбо је први пут идентификовао Плутон као покретни објекат 18. фебруара 1930. године, али је Плутон несвесно примећен у неколико ранијих прилика. Најранији тренутно познати био је 1909. Видиш? Знање је клизаво.

Фотографија преко: Аннетте Схафф / Схуттерстоцк.цом

Препоруке уредника

  • Цео интернет сада припада Гугловој вештачкој интелигенцији
  • Не морате да користите Бинг – Гоогле претрага сада такође има вештачку интелигенцију
  • Упс – Гоогле Бард АИ демо је оповргнут првим резултатом претраге
  • Ево како Гоогле претрага планира да се позабави мамцем за кликове
  • Како уклонити личне податке из Гоогле претраге