Pesquisa mais inteligente: por que a ‘pesquisa semântica’ finalmente permitirá que o Google entenda você

Amir Efrati, do Wall Street Journal, levantou as sobrancelhas com um artigo (assinatura necessária) dizendo que o Google está trabalhando para se manter à frente de seus rivais na busca na Internet, introduzindo mais a chamada tecnologia de “busca semântica”. A ideia é que a caixa de pesquisa do Google não seja apenas um lugar para os usuários digitarem palavras-chave ou consultas especificamente formadas, mas uma caixa que tenha um nome real. entendimento de muitos dos termos, nomes, verbos e referências que as pessoas digitam – e poderia aplicar esse conhecimento às pesquisas dos usuários. Em teoria, a pesquisa semântica deveria ser capaz de retornar resultados que refletissem a intenção do pesquisador e, em alguns casos melhoram a capacidade do Google de dar uma resposta imediata, sem encaminhar os usuários para outro site.

Mas espere – isso é algo novo? O Google não já colocar algumas respostas logo no início? E como a busca semântica poderia potencialmente ajudar o Google a manter sua liderança no negócio de busca na Internet?

Vídeos recomendados

O que é pesquisa semântica?

Em suma, a semântica tem muito mais em comum com o Watson, o aplicativo de supercomputação da IBM que derrotou humanos com facilidade no Perigo! do que com a caixa de diálogo Localizar no Microsoft Word.

Em termos gerais, o mundo da pesquisa informatizada se divide em dois tipos:

Pesquisa literal (as vezes chamado pesquisa de navegação) procura correspondências exatas para alguns ou todos os termos inseridos e retorna itens correspondentes — sejam arquivos, páginas da Web, produtos ou alguma outra unidade discreta de informação. A pesquisa literal pode ser aumentada com coisas como correspondência de radicais, conjugados e associações que expandem ou restringem a pesquisa de maneiras úteis - então pesquisar por “voar” também pode resultar em “voar”. A pesquisa literal é o que estamos mais familiarizados hoje, em parte porque é mais fácil para os computadores executar.

Pesquisa semântica difere da pesquisa literal de duas maneiras. Primeiro, a pesquisa semântica tenta entender o que um usuário está perguntando em uma consulta, colocando-a em contexto por meio da análise dos termos e da linguagem da consulta. Esta análise é conduzida contra conjuntos de conhecimento pré-compilados, potencialmente incluindo conhecimento sobre o usuário. Segundo, em vez de retornar um conjunto de arquivos, páginas da Web, produtos ou outros itens, a pesquisa semântica tenta fornecer um direto responder a uma pergunta. Se você perguntar a um mecanismo de busca semântica “Quando Plutão foi descoberto?” poderia responder “Plutão foi descoberto em 18 de fevereiro de 1930 por Clyde Tombaugh^*”, onde um mecanismo de busca literal provavelmente retornaria links para páginas da Web que contêm as palavras “descoberto” e “Plutão”.

Acontece que a pesquisa literal e a pesquisa semântica são boas para tarefas diferentes. A pesquisa literal é ótima quando um usuário está procurando um determinado coisa, seja um arquivo, página da Web, documento, produto, álbum ou outro item discreto. A pesquisa semântica, por outro lado, acaba sendo mais útil quando um usuário procura por informações específicas. Informação - como data, número, hora, local ou nome.

Graças, em parte, à proliferação da tecnologia de busca literal em tudo, desde processadores de texto até mecanismos de busca na Web, estamos mais acostumados com a busca literal. A maioria de nós já sabe como manipular a pesquisa literal para nos aproximar do que queremos na primeira tentativa. No entanto, de acordo com o artigo de Efrati no WSJ, o Google acredita que a tecnologia de pesquisa semântica poderia fornecer respostas diretas para entre 10 e 20 por cento das pesquisas na Web. De acordo com a Comscore, o Google processou 11,7 bilhões de pesquisas somente nos Estados Unidos em fevereiro de 2012. Com capacidades de pesquisa semântica, mais de 2,3 mil milhões dessas pesquisas poderiam ter sido respondidas diretamente, em vez de direcionar as pessoas para outras páginas e sites da Web.

O Google já não faz isso?

Se você já usou a pesquisa na Web do Google, provavelmente está pensando “Mas espere, o Google já faz isso!” Tipo "Hora atual em Tóquio" ou "qual é a altura do Monte Everest”E o Google colocará sua melhor estimativa sobre uma resposta precisa no topo dos resultados de pesquisa. O Google até cita fontes para sua resposta, e algumas dessas fontes estarão nos clássicos “dez links azuis” abaixo da resposta. (A propósito, o Google informa que o Monte Everest tem 8.848 metros de altura.)

Para ser justo, este é apenas um dos muitos recursos úteis que o Google incorporou em sua barra de pesquisa: ele fará matemática (sofisticada), executará conversões de unidades e moedas e obter informações como informações de voos e horários de exibição de filmes locais - não há necessidade de digitar um código complicado consulta. Também pode explorar algumas fontes de dados públicas. Por exemplo, digitando “população México”Na caixa de pesquisa exibirá dados do Banco Mundial. A resposta hoje é de 113.423.047 pessoas.

No entanto, os esforços do Google para fornecer respostas diretas a alguns tipos de perguntas fracassam rapidamente, porque esses recursos são em grande parte implementadas como casos especiais para o mecanismo de busca literal do Google, em vez de uma busca semântica que tenta entender o que o usuário quer. Tipo "qual é a altura do Monte Everest”(observe a grafia) na caixa de pesquisa, e o Google nem mesmo tenta fornecer uma resposta: a pesquisa do Google não sabe que “mt” significa “montagem”. Da mesma forma, se o Google tiver determinado que sua localização atual não é no México (e, se o Google não tiver sua localização, ele adivinhará pelo seu endereço IP e, não, você não pode cancelar) Procurando por "população cidade do méxico”pode retornar alguns resultados inesperados. Certamente a Cidade do México abriga mais de 10.852 pessoas, certo?

Como a pesquisa semântica é diferente

A pesquisa semântica tenta eliminar esse tipo de gafe de duas maneiras. Primeiro, tenta compreender com mais precisão o intenção por trás de uma consulta específica. Em segundo lugar, tenta comparar os elementos dessa consulta com conjuntos pré-compilados de conhecimento profundo para ver se consegue encontrar uma resposta significativa.

Quando você envia uma consulta para um mecanismo de pesquisa literal como o Google, ela não é enviada instantaneamente para cada site na Internet, examine-os e relate uma lista de sites que você acha que melhor correspondem ao seu termos. Em vez disso, o Google tem programas de software que vasculham constantemente a Internet em busca de novos sites e novas páginas Web, o que cria uma índice de todas as páginas que encontram. Embora esta seja uma grande simplificação, quando os usuários digitam uma consulta de pesquisa como “Conferência de Ialta”, o Google procura nesse índice páginas que correspondam a “Yalta” e “conferência”, bem como páginas que tenham ambos os termos próximos um do outro (digamos, dentro de 8 ou 10 palavras). O Google então coleta os URLs dessas páginas, classifica por seu PageRank interno (a medida do Google dos méritos relativos de uma página que basicamente conta os links para ela como votos positivos) e retorna uma lista.

O gerenciamento de dados e a engenharia por trás de um processo como esse são assustadores e gigantescos, e o Google merece elogios por ter conseguido isso - especialmente porque o Google muitas vezes consegue fazer isso em uma fração de um segundo. Coisas semelhantes acontecem nos bastidores do Bing da Microsoft.

Uma pesquisa semântica abordaria a mesma consulta de maneira diferente. Em vez de comparar uma consulta com um índice pré-compilado (e constantemente atualizado) de páginas da Web que ele conhece, um mecanismo de pesquisa semântica compara a consulta com um índice discreto e pré-cumprido. conjuntos de conhecimento tem disponível. Pense nos conjuntos de conhecimento como bancos de dados: no fundo, eles estão cheios de dados, fatos e números sobre um assunto específico. Existem diferentes tipos de conjuntos de conhecimento. Alguns interessantes são ontologias (que representam informações formalizadas que podem ser manipuladas com regras, funções e restrições) e folksonomias, que geralmente representam conjuntos de conhecimento definidos de forma colaborativa: exemplos seriam hashtagging e marcadores sociais.

Os conjuntos de conhecimento são mais do que apenas caixas de armazenamento. Eles também representam relacionamentos entre itens na base de conhecimento e permitem que a informação seja usada de forma significativa em todos os níveis. múltiplo conjuntos de conhecimento. Além disso, as relações são muitas vezes expressas de tal forma que podem ser feitas inferências lógicas precisas. sem tendo que armazenar todos os dados derivados possíveis. Isso é um pouco antropomorfizante, mas os mecanismos de busca semântica podem realizar raciocínios básicos e deduções sobre os dados que conhecem. Como parte desse processo, os motores de busca semântica são frequentemente concebidos para avaliar o nível de confiança que têm nas suas derivações. Se eles acharem que não sabem do que estão falando, podem ficar mudos. Se tiverem certeza, cuspirão uma resposta.

Portanto, se você inserir “conferência de Yalta” em um mecanismo de busca semântica, ele procurará em seus conjuntos de conhecimento e provavelmente revelará alguns fatos e números básicos, talvez “4 a 11 de fevereiro de 1945.” Isso pode indicar a presença de Stalin, Churchill e Franklin Roosevelt, e foi importante mesmo nos meses finais da Guerra Mundial. II. Coisas bem básicas.

Se você perguntar a um mecanismo de pesquisa literal “A Conferência de Yalta aconteceu durante a Guerra da Coréia?”você provavelmente obterá apenas uma lista de dez links azuis. Alguém pode ter uma resposta.

No entanto, se você perguntar a um mecanismo de pesquisa semântica, deverá obter uma resposta de uma palavra: “Não”.

Que é onde a pesquisa semântica se torna incrivelmente interessante.

Este não é o Wolfram Alpha?

Se essas perguntas soam como o tipo de coisa que as pessoas jogam no Wolfram Alfa mecanismo de pesquisa, você está exatamente certo. Em vez de ser um índice de páginas da Web, o Wolfram Alpha tenta ser um mecanismo de conhecimento. Wolfram Alpha não se trata de procurar algo (como uma página da Web), mas de pedir uma resposta. A Wolfram Alpha depende de bases de conhecimento pré-conformes para produzir seus resultados, e a empresa adiciona e atualiza regularmente novas bases de conhecimento. Alguns são dados técnicos altamente especializados – como informações sobre elementos químicos ou o genoma da mosca da fruta – enquanto outros são mais caprichosos. Por exemplo, Wolfram Alpha sabe bastante sobre raças de gatos.

Contanto que você permaneça dentro do conhecimento do Wolfram Alpha, ele poderá realizar análises úteis dos dados. Por exemplo, o Wolfram Alpha pode compare as distâncias de salto de leões e tigres. (Acontece que são comparáveis, mas os tigres geralmente parecem superar os leões.) Mas se você quiser saber quão longe os cangurus podem saltar? Ops, desculpe: não há dados disponíveis.

Mas a consulta fracassada sobre o salto canguru mostra um pouco sobre como o Wolfram Alpha tenta entender as coisas. Antes de fornecer uma resposta, o mecanismo indica que está assumindo que “canguru” significa “cangurus, cangurus”, mas os usuários podem mudar para o canguru antilopino, o canguru vermelho ou o canguru cinza oriental canguru. Da mesma forma, o Wolfram Alpha interpretou “quão longe um canguru pode saltar” como uma consulta para “distância do salto”, um dado específico que pode ter sobre animais. Acontece que o Wolfram Alpha atualmente não possui esses dados, mas a interpretação da consulta é muito importante.

Não é este o Siri?

Se essas perguntas soam como o tipo de coisa que as pessoas fazem ao Siri no iPhone 4S (mas, lembre-se, não o novo iPad que será lançado esta semana), você está exatamente certo. No entanto, é importante lembrar que o Siri aborda apenas metade da equação: compreender as dúvidas do usuário. Ao fazer isso, o Siri enfrenta o difícil problema computacional de reconhecer com precisão a fala de um usuário por meio de um microfone em tempo real. Isso não é pouca coisa, mas não é um mecanismo de busca semântico. Nos bastidores, a Siri está transferindo as consultas para o Wolfram Alpha, o Yelp e (se tudo mais falhar) para o mecanismo de busca na Web preferido do usuário. Se você perguntar ao Siri “A Conferência de Yalta aconteceu durante a Guerra da Coréia”, ele poderá reconhecer com precisão o que você está perguntando - funcionou para mim - mas vai apenas oferecer uma pesquisa literal na Web à moda antiga por você.

O que esperar

O interesse do Google na pesquisa semântica é provavelmente duplo. Primeiro, ela provavelmente deseja usar a tecnologia como mais um motivo de orgulho que a coloca à frente da concorrência – principalmente o Microsoft Bing. O Bing há muito tempo tem um parceria com Wolfram Alpha projetado para ajudar o mecanismo de pesquisa a fornecer respostas diretas quando possível. No entanto, até agora, nem o Bing nem o Google fizeram grandes avanços junto aos consumidores com resultados de pesquisa diretos. Afinal, a maioria dos usuários de pesquisa diária provavelmente não sabe que os recursos (limitados) já existem. Mesmo para os usuários que os conhecem, até o Google parece pensar que a tecnologia só é aplicável a 10 a 20 por cento das pesquisas. São muitas pesquisas, mas significa que a maioria (80 a 90 por cento) das pesquisas não o utilizará.

No entanto, à medida que os consumidores abandonam rapidamente os notebooks, os desktops e as plataformas de computação tradicionais, a capacidade de fornecer respostas curtas e de fácil compreensão a consultas de pesquisa complicadas poderá tornar-se muito importante no mundo móvel. Para usuários que estão dirigindo ou que não desejam mexer nos teclados ou teclados na tela, a capacidade de responder a perguntas faladas como “O Golden Gate Park é maior que o Central Park?” ou “Qual é o caminho para o apartamento de Malcolm?” com respostas simples como “Sim” e “Vire à próxima à esquerda” podem ser diferenciais inestimáveis para dispositivos móveis plataformas.

É quase certo que é aí que empresas como a Apple e o Google pretendem levar a tecnologia.

* Tombaugh identificou Plutão pela primeira vez como um objeto em movimento em 18 de fevereiro de 1930, mas Plutão já havia sido avistado involuntariamente em várias ocasiões anteriores. O mais antigo atualmente conhecido foi em 1909. Ver? O conhecimento é escorregadio.

Foto via: Annette Shaff / Shutterstock.com

Recomendações dos Editores

Toda a Internet agora pertence à IA do Google
Você não precisa usar o Bing – a Pesquisa Google agora também tem IA
Ops – a demonstração do Google Bard AI foi refutada pelo primeiro resultado da pesquisa
Veja como a Pesquisa Google planeja combater o clickbait
Como remover informações pessoais da pesquisa do Google

Pesquisa mais inteligente: por que a ‘pesquisa semântica’ finalmente permitirá que o Google entenda você

O que é pesquisa semântica?

O Google já não faz isso?

Como a pesquisa semântica é diferente

Este não é o Wolfram Alpha?

Não é este o Siri?

O que esperar

Recomendações dos Editores

Categorias

Recente

Verizon tenta com chocolate LG

Apple trocando baterias do MacBook Pro

Unidade USB Verbatim adiciona segurança obrigatória