Амир Ефрати от Wall Street Journal повдигна вежди със статия (изисква се абонамент), казвайки, че Google работи, за да изпревари конкурентите си в интернет търсенето, като въведе повече така наречената технология за „семантично търсене“. Идеята е, че полето за търсене на Google няма да бъде просто място за потребителите да въвеждат ключови думи или конкретно формирани заявки, а поле, което има действително разбиране на много от термините, имената, глаголите и препратките, които хората въвеждат – и биха могли да приложат това знание към търсенията на потребителите. На теория семантичното търсене трябва да може да връща резултати, които отразяват намерението на търсещия и в някои случаи подобряват способността на Google да дава отговор веднага, без да препраща потребителите към друг сайт.
Но чакайте - това нещо ново ли е? Не Google вече поставете някои отговори точно отпред? И как би могло семантичното търсене потенциално да помогне на Google да запази лидерството си в бизнеса с интернет търсене?
Препоръчани видеоклипове
Какво е семантично търсене?
С две думи, семантиката има много повече общо с Watson, суперкомпютърното приложение на IBM, което леко победени хора при Опасност! отколкото с диалоговия прозорец Намиране в Microsoft Word.
Свободно казано, светът на компютъризираното търсене се разделя на два типа:
Буквално търсене (понякога се нарича навигационно търсене) търси точни съвпадения за някои или всички въведени термини и връща съвпадащи елементи - независимо дали са файлове, уеб страници, продукти или някаква друга отделна единица информация. Буквалното търсене може да бъде разширено с неща като съпоставяне на основата, конюгати и асоцииране, които разширяват или ограничават търсенето по полезни начини – т. търсенето на „полет“ може също да попадне на „полет“. Буквалното търсене е това, с което сме най-запознати днес, отчасти защото е най-лесно за компютрите изпълнявам.
Семантично търсене се различава от буквалното търсене по два начина. Първо, семантичното търсене се опитва да разбирам какво потребителят пита в заявка, като го постави в контекст чрез анализ на условията и езика на заявката. Този анализ се провежда срещу строго предварително компилирани пулове от знания, потенциално включващи знания за потребителя. Второ, вместо да върне набор от файлове, уеб страници, продукти или други елементи, семантичното търсене се опитва да предостави директен отговор на въпрос. Ако попитате семантична търсачка „Кога е открит Плутон?“ може да отговори „Плутон е открит на 18 февруари 1930 г. от Клайд Томбо*”, където буквална търсачка най-вероятно ще върне връзки към уеб страници, които съдържат думите „открит” и „Плутон”.
Оказва се, че буквалното търсене и семантичното търсене са добри за различни задачи. Буквалното търсене е чудесно, когато потребителят търси конкретно нещо, независимо дали това е файл, уеб страница, документ, продукт, албум или друг отделен елемент. Семантичното търсене, от друга страна, се оказва по-полезно, когато потребителят търси конкретно информация — като дата, число, час, място или име.
Отчасти благодарение на разпространението на технологията за буквално търсене във всичко - от текстови процесори до уеб търсачки, ние сме свикнали най-много с буквалното търсене. Повечето от нас вече знаят как да манипулират буквалното търсене, за да ни доближат до това, което искаме от първия опит. Въпреки това, според статията на Efrati в WSJ, Google вярва, че технологията за семантично търсене може да предостави директни отговори на между 10 и 20 процента от търсенията в мрежата. Според Comscore, Google обработи 11,7 милиарда търсения само в Съединените щати през февруари 2012 г. С възможностите за семантично търсене на повече от 2,3 милиарда от тези търсения можеше да се отговори директно, вместо да се изпращат хора към други уеб страници и сайтове.
Google вече не прави ли това?
Ако изобщо сте използвали уеб търсене с Google, вероятно си мислите „Но чакайте, Google вече прави това!“ Тип "текущото време в Токио" или "колко е висок връх Еверест” и Google ще постави най-доброто си предположение за точен отговор в горната част на резултатите от търсенето. Google дори цитира източници за своя отговор и някои от тези източници ще бъдат в класическите „десет сини връзки“ под отговора. (Google съобщава, че връх Еверест е висок 8848 метра, между другото.)
За да бъда честен, това е една от многото полезни възможности, които Google е вградил в лентата си за търсене: ще прави (сложна) математика, ще изпълнява преобразувания на единици и валути и извличане на неща като информация за полети и часове на прожекции на местни филми – няма нужда да въвеждате сложно заявка. Може също така да използва някои публични източници на данни. Например, като въведете „население Мексико” в полето за търсене ще се покажат данни от Световната банка. Отговорът днес е 113 423 047 души.
Усилията на Google да предостави директни отговори на някои видове въпроси обаче се провалят доста бързо, тъй като тези функции до голяма степен прилагани като специални случаи за буквалната търсачка на Google, а не като семантично търсене, което се опитва да разбере какво потребителят иска. Тип "колко е висок евърест” (обърнете внимание на правописа) в полето за търсене и Google дори не се опитва да даде отговор: Търсенето с Google не знае, че „mt” означава „монтиране”. По същия начин, ако Google е определил, че текущото ви местоположение не е в Мексико (и ако Google не разполага с вашето местоположение, ще познае по вашия IP адрес и, не, не можете да се откажете) търся "население мексико сити” може да върне някои неочаквани резултати. Със сигурност Мексико Сити е дом на повече от 10 852 души, нали?
Как семантичното търсене е различно
Семантичното търсене се опитва да елиминира този вид гафове по два начина. Първо, той се опитва да разбере по-точно намерение зад конкретна заявка. Второ, той се опитва да съпостави елементите на тази заявка с предварително компилирани пулове от дълбоки знания, за да види дали може да изработи смислен отговор.
Когато изпратите заявка до буквална търсачка като Google, тя не се извежда незабавно всеки сайт в Интернет, прегледайте ги и докладвайте списък със сайтове, които според него най-добре отговарят на вашия условия. Вместо това Google има софтуерни програми, които непрекъснато претърсват Интернет за нови сайтове и нови уеб страници, които създават индекс от всички страници, които намерят. Въпреки че това е огромно опростяване, когато потребителите въвеждат заявка за търсене като „Конференция в Ялта”, Google разглежда този индекс за страници, които съвпадат както с „Ялта”, така и с „конференция”, както и страници, които имат и двата термина в близост една до друга (да речем, в рамките на 8 или 10 думи). След това Google събира URL адресите за тези страници, сортира по своя вътрешен PageRank (мярката на Google за относителните достойнства на дадена страница, която основно отчита връзките към нея като положителни гласове) и връща списък.
Управлението на данни и инженерингът зад процес като този е едновременно обезсърчаващ и огромен, както и Google заслужава похвала за това, че успя – особено след като Google често успява да направи това за част от a второ. Подобни неща се случват зад кулисите в Bing на Microsoft.
Едно семантично търсене би подходило по различен начин към една и съща заявка. Вместо да сравнява заявка с предварително компилиран (и постоянно актуализиран) индекс на уеб страници, за които знае, семантичната търсачка сравнява заявката с дискретни, предварително компилирани набори от знания има на разположение. Помислете за набори от знания като бази данни: В сърцето си те са пълни с данни, факти и цифри за определена тема. Има различни видове набори от знания. Няколко интересни са онтологии (които представляват формализирана информация, която може да се манипулира с правила, функции и ограничения) и фолксономии, които обикновено представляват съвместно дефинирани набори от знания: Примери биха били hashtag и социални отметки.
Наборите от знания са нещо повече от кошчета за съхранение. Те също така представляват връзки между елементи в базата знания и позволяват информацията да бъде смислено използвана навсякъде многократни набори от знания. Освен това връзките често се изразяват по такъв начин, че да могат да се правят точни логически изводи без трябва да съхранява всички възможни производни данни. Това е малко антропоморфизиращо, но семантичните търсачки могат да извършват основни разсъждения и дедукции върху данните, за които знаят. Като част от този процес, семантичните търсачки често са проектирани да оценяват нивото на доверие, което имат в техните производни. Ако не мислят, че знаят за какво говорят, може да останат мълчаливи. Ако са доста сигурни, ще изплюят отговор.
Така че, ако въведете „конференция в Ялта“ в семантична търсачка, тя ще погледне в своите набори от знания и вероятно ще изплюе някои основни факти и цифри, може би „От 4 до 11 февруари 1945 г.“ Това може да означава, че Сталин, Чърчил и Франклин Рузвелт са присъствали и това е важно дори в последните месеци на световната война II. Доста елементарни неща.
Ако попитате буквална търсачка „Ялтенската конференция по време на Корейската война ли се е случила?” вероятно просто ще получите списък от десет сини връзки. Човек може да има отговор.
Въпреки това, ако попитате семантична търсачка, трябва да получите отговор от една дума: „Не“.
Че е мястото, където семантичното търсене става невероятно интересно.
Това не е ли Wolfram Alpha?
Ако тези запитвания звучат като неща, които хората подхвърлят на Волфрам Алфа търсачка, напълно си прав. Вместо да бъде индекс на уеб страници, Wolfram Alpha се опитва да бъде машина за знания. Wolfram Alpha не е за търсене на нещо (като уеб страница), а за искане на отговор. Wolfram Alpha разчита на предварително създадени бази от знания, за да постигне своите резултати, и компанията добавя и актуализира редовно нови бази от знания. Някои са високоспециализирани технически данни - като информация за химически елементи или генома на плодовата муха - докато други са по-причудливи. Например Wolfram Alpha знае доста за породите котки.
Докато оставате в сферите на знанието на Wolfram Alpha, той може да извърши полезен анализ на данните. Например Wolfram Alpha може сравнете разстоянията на скачане на лъвове и тигри. (Оказва се, че са сравними, но изглежда, че тигрите обикновено изпреварват лъвовете.) Но ако искате да знаете колко далеч могат да скочат кенгурата? Ами сега, съжалявам: няма налични данни.
Но неуспешната заявка за kangaroo hops показва малко за това как Wolfram Alpha се опитва да разбере нещата. Преди да даде отговор, двигателят показва, че предполага, че „кенгуру“ означава „кенгуру, wallabies“, но потребителите могат да превключат към антилопинското кенгуру, червеното кенгуру или източното сиво кенгуру. По същия начин Wolfram Alpha тълкува „колко далеч може да скочи кенгуруто“ като заявка за „разстояние на скок“, конкретна точка от данни, която може да има за животни. Оказва се, че Wolfram Alpha в момента не разполага с тези данни, но неговата интерпретация на заявката е много важна.
Това не е ли Siri?
Ако тези запитвания звучат като неща, които хората подхвърлят на Siri в iPhone 4S (но не забравяйте, не новия iPad, който дебютира тази седмица), вие сте напълно прав. Въпреки това е важно да запомните, че Siri се справя само с едната половина от уравнението: разбирането на заявките на потребителя. Правейки това, Siri се заема с много трудния компютърен проблем за точното разпознаване на речта на потребителя през микрофона в реално време. Това не е малко, но не е семантична търсачка. Зад кулисите Siri предава заявки на Wolfram Alpha, Yelp и (ако всичко друго се провали) на предпочитаната от потребителя уеб търсачка. Ако попитате Siri „Случи ли се Ялтенската конференция по време на Корейската война“, тя може точно да разпознае какво вие питате - за мен беше - но просто ще предложи да се направи буквално уеб търсене от старата школа на Вие.
Какво да очаквам
Интересът на Google към семантичното търсене вероятно е двоен. Първо, той вероятно иска да използва технологията като друга точка за хвалене, която го поставя пред конкуренцията - най-вече Microsoft Bing. Bing отдавна има партньорство с Wolfram Alpha предназначени да помогнат на търсачката да предоставя директни отговори, когато е възможно. Досега обаче нито Bing, нито Google са направили големи набези сред потребителите с директни резултати от търсенето. В края на краищата повечето ежедневни потребители на търсене вероятно не знаят, че (ограничените) възможности вече съществуват. Дори за потребителите, които са наясно с тях, дори Google изглежда смята, че технологията е приложима само за 10 до 20 процента от търсенията. Това са много търсения, но означава, че по-голямата част (80 до 90 процента) от търсенията няма да го използват.
Въпреки това, тъй като потребителите бързо изоставят преносимите компютри, настолните компютри и традиционните компютърни платформи, възможността за предоставяне на кратки, лесно разбираеми отговори на сложни заявки за търсене може да стане много важни в мобилния свят. За потребители, които шофират или по друг начин не желаят да си играят с клавиатури или екранни клавиатури, възможността да отговарят на устни запитвания като „Is Golden Gate Park по-голям от Сентрал парк?“ или „Кой път до апартамента на Малкълм?“ с прости отговори като „Да“ и „Завийте наляво“ може да са безценни разграничители за мобилни устройства платформи.
Това почти сигурно е мястото, където компании като Apple и Google искат да използват технологията.
* Томбо за първи път идентифицира Плутон като движещ се обект на 18 февруари 1930 г., но Плутон неволно е бил забелязан в няколко по-ранни случая. Най-ранният известен в момента е през 1909 г. виждаш ли Знанието е хлъзгаво.
Снимка чрез: Annette Shaff / Shutterstock.com
Препоръки на редакторите
- Целият интернет вече принадлежи на AI на Google
- Не е нужно да използвате Bing – Google Търсене вече също има AI
- Ами сега — демонстрацията на Google Bard AI е опровергана от първия резултат от търсенето
- Ето как Google Търсене планира да се справи с примамката за кликване
- Как да премахнете лична информация от Google търсене