Амир Эфрати из Wall Street Journal удивил своей статьей (требуется подписка), заявив, что Google работает над тем, чтобы опережать своих конкурентов в поиске в Интернете, внедряя так называемую технологию «семантического поиска». Идея состоит в том, что окно поиска Google будет не просто местом, где пользователи смогут вводить ключевые слова или специально сформированные запросы, а полем, которое будет иметь фактическую информацию. понимание многих терминов, имен, глаголов и ссылок, которые люди вводят, и могут применить эти знания к поиску пользователей. Теоретически семантический поиск должен иметь возможность возвращать результаты, отражающие намерения искателя. в некоторых случаях Google улучшает способность дать ответ сразу, не перенаправляя пользователей к другому сайт.
Но подождите, это что-то новое? Не Гугл уже положить несколько ответов прямо вперед? И как семантический поиск потенциально может помочь Google сохранить лидерство в поисковом бизнесе в Интернете?
Рекомендуемые видео
Что такое семантический поиск?
Короче говоря, семантика имеет гораздо больше общего с Watson, суперкомпьютерным приложением IBM, которое ловко побеждать людей в Опасность! чем в диалоговом окне «Найти» в Microsoft Word.
Грубо говоря, мир компьютеризированного поиска делится на два типа:
Буквальный поиск (иногда называемый навигационный поиск) ищет точные совпадения для некоторых или всех введенных терминов и возвращает совпадающие элементы — будь то файлы, веб-страницы, продукты или какая-либо другая отдельная единица информации. Буквальный поиск можно дополнить такими вещами, как сопоставление основ, спряжения и ассоциации, которые полезными способами расширяют или ограничивают поиск. поиск по запросу «летать» также может привести к поиску «полет». Буквальный поиск – это то, с чем мы сегодня знакомы лучше всего, отчасти потому, что компьютеру проще всего выполнять.
Семантический поиск отличается от буквального поиска по двум причинам. Во-первых, семантический поиск пытается понимать что пользователь задает в запросе, помещая его в контекст посредством анализа терминов и языка запроса. Этот анализ проводится на основе тщательно составленных заранее пулов знаний, потенциально включающих знания о пользователе. Во-вторых, вместо того, чтобы возвращать набор файлов, веб-страниц, продуктов или других элементов, семантический поиск пытается предоставить прямой ответ на вопрос. Если вы спросите семантическую поисковую систему «Когда был открыт Плутон?» он мог бы ответить: «Плутон был открыт 18 февраля 1930 года Клайдом Томбо».*», где буквальная поисковая система, скорее всего, вернет ссылки на веб-страницы, содержащие слова «обнаружен» и «Плутон».
Оказывается, буквальный и семантический поиск хороши для разных задач. Буквальный поиск удобен, когда пользователь ищет конкретную информацию. вещь, будь то файл, веб-страница, документ, продукт, альбом или другой отдельный элемент. С другой стороны, семантический поиск оказывается более полезным, когда пользователь ищет конкретную информацию. информация — например, дата, число, время, место или имя.
Отчасти благодаря распространению технологии буквального поиска во всем, от текстовых процессоров до поисковых систем в Интернете, мы больше всего привыкли к буквальному поиску. Большинство из нас уже знают, как управлять буквальным поиском, чтобы приблизиться к желаемому с первой попытки. Однако, согласно статье Эфрати в WSJ, Google считает, что технология семантического поиска может дать прямые ответы на 10–20 процентов поисковых запросов в Интернете. По данным Comscore, Google обработал 11,7 миллиардов поисковых запросов только в США в феврале 2012 г. Благодаря возможностям семантического поиска более чем на 2,3 миллиарда таких запросов можно было бы ответить напрямую, вместо того, чтобы отправлять людей на другие веб-страницы и сайты.
Разве Google этого уже не делает?
Если вы вообще использовали веб-поиск Google, вы, вероятно, думаете: «Но подождите, Google уже делает это!» Тип "текущее время в Токио" или "какая высота Эвереста» и Google поместит точный ответ в верхней части результатов поиска. Google даже ссылается на источники своего ответа, и некоторые из этих источников будут находиться в классических «десяти синих ссылках» под ответом. (Кстати, Google сообщает, что высота Эвереста составляет 8848 метров.)
Честно говоря, это одна из многих полезных возможностей, которые Google встроил в свою панель поиска: она будет выполнять (сложные) математические вычисления, выполнять конвертировать единицы измерения и валюты, а также получать такие данные, как информация о рейсах и расписание местных киносеансов — не нужно вводить сложную запрос. Он также может использовать некоторые общедоступные источники данных. Например, набрав «население Мексики» в поле поиска отобразятся данные Всемирного банка. Ответ на сегодняшний день составляет 113 423 047 человек.
Однако усилия Google по предоставлению прямых ответов на некоторые типы вопросов довольно быстро терпят неудачу, поскольку эти функции в значительной степени реализованы как особые случаи для буквальной поисковой системы Google, а не как семантический поиск, который пытается понять, что пользователь хочет. Тип "какая высота Эвереста(обратите внимание на написание) в поле поиска, а Google даже не пытается дать ответ: поиск Google не знает, что «mt» означает «монтировать». Аналогично, если Google определил, что ваше текущее местоположение находится за пределами Мексики (и если у Google нет вашего местоположения, он угадает по вашему IP-адресу). и, нет, ты не можешь отказаться) ищу «население Мехико» может вернуть некоторые неожиданные результаты. Наверняка в Мехико проживает более 10 852 человек, верно?
Чем отличается семантический поиск
Семантический поиск пытается устранить подобные ошибки двумя способами. Во-первых, он пытается более точно понять намерение за конкретным запросом. Во-вторых, он пытается сопоставить элементы этого запроса с заранее скомпилированными пулами глубоких знаний, чтобы увидеть, сможет ли он выработать осмысленный ответ.
Когда вы отправляете запрос в настоящую поисковую систему, такую как Google, он не мгновенно переходит в каждый сайт в Интернете, просмотрите их и сообщите список сайтов, которые, по его мнению, лучше всего соответствуют вашим условия. Вместо этого у Google есть программы, постоянно просматривающие Интернет в поисках новых сайтов и новых веб-страниц, которые создают индекс со всех страниц, которые они находят. Хотя это сильное упрощение, когда пользователи вводят поисковый запрос типа «Ялтинская конференцияGoogle ищет в этом индексе страницы, которые соответствуют как «Ялта», так и «конференция», а также страницы, на которых оба термина находятся близко друг к другу (скажем, в пределах 8 или 10 слов). Затем Google собирает URL-адреса этих страниц, сортирует их по внутреннему PageRank (показатель Google относительного достоинства страницы, который в основном учитывает ссылки на нее как положительные голоса) и возвращает список.
Управление данными и разработка, лежащие в основе такого процесса, сложны и гигантски, и Google заслуживает похвалы за это, тем более, что Google часто может сделать это за доли секунды. второй. Подобные вещи происходят за кулисами Microsoft Bing.
Семантический поиск будет подходить к одному и тому же запросу по-разному. Вместо того, чтобы сравнивать запрос с предварительно скомпилированным (и постоянно обновляемым) индексом известных ей веб-страниц, семантическая поисковая система сравнивает запрос с дискретными, предварительно согласованными наборы знаний он имеется в наличии. Думайте о наборах знаний как о базах данных: по сути, они полны данных, фактов и цифр по конкретному предмету. Существуют различные виды наборов знаний. Есть пара интересных онтологии (которые представляют собой формализованную информацию, которой можно манипулировать с помощью правил, функций и ограничений) и фолксономии, которые обычно представляют собой совместно определенные наборы знаний: примерами могут служить хэштеги и социальные закладки.
Наборы знаний — это больше, чем просто хранилища. Они также представляют связи между элементами базы знаний и позволяют осмысленно использовать информацию несколько наборы знаний. Более того, отношения часто выражаются таким образом, что можно сделать точные логические выводы. без необходимость хранить все возможные производные данные. Это немного антропоморфизирует, но семантические поисковые системы могут выполнять базовые рассуждения и выводы на основе известных им данных. В рамках этого процесса семантические поисковые системы часто проектируются для оценки уровня уверенности в своих результатах. Если они не думают, что знают, о чем говорят, они могут промолчать. Если они уверены, то выдадут ответ.
Поэтому, если вы введете «Ялтинская конференция» в семантическую поисковую систему, она просмотрит свои наборы знаний и, вероятно, выдаст некоторые основные факты и цифры, возможно, «С 4 по 11 февраля 1945 года». Это могло указывать на то, что присутствовали Сталин, Черчилль и Франклин Рузвельт, и это было важно даже в последние месяцы мировой войны. II. Довольно базовые вещи.
Если вы спросите буквальную поисковую систему «Была ли Ялтинская конференция во время Корейской войны?» вы, вероятно, просто получите список из десяти синих ссылок. Возможно, у кого-то есть ответ.
Однако, если вы спросите семантическую поисковую систему, вы должны получить односложный ответ: «Нет».
Что именно здесь семантический поиск становится невероятно интересным.
Разве это не Вольфрам Альфа?
Если эти вопросы звучат как то, что люди бросают в вольфрам Альфа поисковик, вы совершенно правы. Вместо того, чтобы быть индексом веб-страниц, Wolfram Alpha пытается стать механизмом знаний. Целью Wolfram Alpha является не поиск чего-либо (например, веб-страницы), а поиск ответа. Для получения результатов Wolfram Alpha опирается на заранее согласованные базы знаний, и компания регулярно добавляет и обновляет новые базы знаний. Некоторые из них представляют собой узкоспециализированные технические данные — например, информацию о химических элементах или геноме плодовой мухи, — в то время как другие более причудливы. Например, Wolfram Alpha довольно много знает о породах кошек.
Пока вы остаетесь в пределах знаний Wolfram Alpha, он может выполнять полезный анализ данных. Например, Wolfram Alpha может сравните дистанцию прыжков львов и тигров. (Оказывается, они сопоставимы, но тигры, похоже, обычно вытесняют львов.) Но если вы хотите знать как далеко могут прыгнуть кенгуру? К сожалению, данные отсутствуют.
Но неудавшийся запрос о хмеле кенгуру немного показывает, как Wolfram Alpha пытается понять вещи. Прежде чем дать ответ, движок указывает, что предполагает, что «кенгуру» означает «кенгуру, валлаби», но пользователи могут переключиться на антилопинового кенгуру, красного кенгуру или восточного серого кенгуру. кенгуру. Точно так же Wolfram Alpha интерпретировала фразу «как далеко может прыгнуть кенгуру» как запрос на «расстояние прыжка» — конкретную точку данных, которую он может иметь о животных. Оказывается, у Wolfram Alpha в настоящее время нет таких данных, но интерпретация запроса очень важна.
Разве это не Сири?
Если эти запросы похожи на те, которые люди задают Siri на iPhone 4S (но, помните, нет новый iPad, дебютирующий на этой неделе), вы совершенно правы. Однако важно помнить, что Siri решает только одну половину уравнения: понимание запросов пользователя. При этом Siri берет на себя очень сложную вычислительную задачу точного распознавания речи пользователя через микрофон в режиме реального времени. Это немалое достижение, но это не семантическая поисковая система. За кулисами Siri передает запросы Wolfram Alpha, Yelp и (если ничего не помогает) предпочитаемой пользователем поисковой системе в Интернете. Если вы спросите Siri: «Произошла ли Ялтинская конференция во время Корейской войны», она может точно определить, что именно произошло. вы спрашиваете — это было для меня — но он просто предложит выполнить традиционный поиск в Интернете по запросу ты.
Что ожидать
Интерес Google к семантическому поиску, вероятно, двоякий. Во-первых, компания, вероятно, хочет использовать эту технологию как еще один повод для хвастовства, который позволит ей опередить конкурентов — в основном Microsoft Bing. У Bing уже давно есть партнерство с Вольфрам Альфа разработан, чтобы помочь поисковой системе предоставить прямые ответы, когда это возможно. Однако до сих пор ни Bing, ни Google не добились серьезного привлечения потребителей с помощью прямых результатов поиска. В конце концов, большинство обычных пользователей поиска, вероятно, не знают, что (ограниченные) возможности уже существуют. Даже для пользователей, которые знают о них, даже Google, похоже, считает, что эта технология применима только к 10–20 процентам поисковых запросов. Это много запросов, но это означает, что большинство (80–90 процентов) поисков не будут его использовать.
Однако, поскольку потребители быстро отказываются от ноутбуков, настольных компьютеров и традиционных вычислительных платформ, возможность предоставлять короткие и понятные ответы на сложные поисковые запросы может стать очень важно в мобильном мире. Для пользователей, которые находятся за рулем или по каким-либо причинам не хотят возиться с клавиатурой или экранной клавиатурой, возможность отвечать на голосовые запросы, такие как «Парк Золотые Ворота?» больше, чем Центральный парк?» или «Как пройти к квартире Малкольма?» с простыми ответами, такими как «Да» и «Поверните налево», могут стать неоценимыми отличительными чертами для мобильных устройств. платформы.
Почти наверняка именно здесь такие компании, как Apple и Google, стремятся использовать эту технологию.
* Томбо впервые идентифицировал Плутон как движущийся объект 18 февраля 1930 года, но Плутон был невольно замечен еще несколько раз. Самый ранний из известных на сегодняшний день датирован 1909 годом. Видеть? Знания скользкие.
Фото через: Аннетт Шафф / Shutterstock.com
Рекомендации редакции
- Весь Интернет теперь принадлежит искусственному интеллекту Google
- Вам не обязательно использовать Bing — в Google Search теперь тоже есть искусственный интеллект.
- Упс — демо-версия Google Bard AI опровергнута первым результатом поиска
- Вот как Google Search планирует бороться с кликбейтом
- Как удалить личную информацию из поиска Google