Inside Knowledge Graph: pesquisa semântica aprofundada do Google

Gráfico de conhecimento do Google

O Google está começando a lançar sua nova tecnologia Knowledge Graph para usuários que falam inglês nos Estados Unidos. Embora o novo serviço apareça como um complemento aos resultados normais de pesquisa na Web do Google - em vez do que um serviço separado por direito próprio - representa uma maneira fundamentalmente diferente de abordar procurar. Em vez de retornar resultados de pesquisa classificados com base em termos de pesquisa literais (ou alguns termos de pesquisa, ou versões possivelmente corrigidas de alguns termos de pesquisa), o Knowledge Graph tenta essencialmente associar pesquisas consultas com coisa ele conhece: lugares, pessoas, livros, filmes, eventos - você escolhe. Knowledge Graph é um esforço para alcançar pesquisa semântica, tentando retornar resultados com base no significado daquilo que os usuários procuram, em vez de apenas correspondências literais.

O Knowledge Graph pode mudar a forma como pesquisamos? E o que isso pode significar para os negócios fundamentais do Google – e para os sites que dependem do Google para trazer tráfego para seus sites?

Vídeos recomendados

Gráfico de conhecimento nos bastidores

Gráfico de conhecimento do Google (Curie)

Embora o Knowledge Graph seja um tipo fundamentalmente novo de oferta de pesquisa do Google, ele segue caminhos já trilhados pelo Google há anos com seu serviço de pesquisa convencional. E o Google está tendo o cuidado de apresentá-lo de uma forma que não perturbe terrivelmente sua busca dominante no mercado.

Relacionado

  • O rival ChatGPT do Google acaba de ser lançado nas pesquisas. Veja como experimentar
  • Ops – a demonstração do Google Bard AI foi refutada pelo primeiro resultado da pesquisa
  • O Google acaba de revelar o que você achou mais fascinante em 2022

Durante anos, o Google conseguiu responder a uma seleção de consultas factuais simples diretamente da pesquisa barra e até mesmo fazer algumas contas - útil para pessoas que têm maior probabilidade de ter um navegador da Web em execução do que um calculadora. Experimente: o Google deve fornecer respostas diretas para coisas como “capital do suriname" ou "raiz quadrada 3952.”

Com o Knowledge Graph, o Google também colocará consultas de pesquisa em bancos de dados complexos de informações inter-relacionadas sobre… bem, coisas, por falta de termos melhores. De certa forma, esses bancos de dados funcionam como uma pesquisa tradicional: eles retornam registros com informações importantes sobre uma coisa específica. Para uma pessoa, isso pode ser algo como a data de nascimento (e talvez a data de falecimento), a nacionalidade, os títulos ou cargos que possa ter ocupado, o nome legal completo e muito mais.

Para um edifício, esses conjuntos de dados podem incluir coisas como sua localização, quando foi construído, seu tamanho geral, seu tipo (digamos, monumento, espaço comercial, espaço comercial, residência, hum...estação espacial?). No entanto, além de alguns fatos simples e algumas palavras-chave, essas entradas do banco de dados também coletam links diretos para relacionado objetos no banco de dados (que por sua vez se vinculam a outros objetos relacionados e assim por diante). Com toda a probabilidade, a natureza dessas ligações também está definida. Por exemplo, uma entrada sobre uma pessoa pode conter links para os pais, cônjuge (s) e filhos dessa pessoa, e outros relacionamentos significativos e ser capaz de distinguir entre membros da família e outros tipos de relacionamentos. O banco de dados não estaria fazendo seu trabalho se um conjunto de dados sobre George H. C. Bush (o 41º presidente dos Estados Unidos) não vinculou ao conjunto de dados sobre George W. Bush (o 43º Presidente) – e ambos estariam ligados a Condoleezza Rice, mas de formas diferentes. Um conjunto de dados sobre a Grande Pirâmide deve incluir links para Quéops e Khufu, e para a Esfinge – mas também para o Mausoléu de Halicarnasso. (Você consegue adivinhar por que?)

Esses conjuntos de dados constituem o coração da pesquisa semântica – e não são baratos. Em primeiro lugar, são enormes: a soma do conhecimento humano pode ser apenas uma pequena partícula diante de todas as informações no universo, mas apenas eliminar o serviço pode facilmente produzir centenas de milhões (ou bilhões) de conjuntos de dados. (Em comparação, a versão inglesa da Wikipédia tem apenas cerca de 4 milhões de artigos.) Estes conjuntos de dados não são fáceis de obter: têm de ser meticulosamente compilados a partir de fontes fiáveis. Além disso, têm de ser organizados e concebidos de forma a que a informação possa ser acedida e manipulada de formas úteis (e em tempo real, para os propósitos do Google). E os conjuntos de dados têm de ser capazes de lidar com a natureza maleável do “conhecimento”. Afinal, há apenas alguns anos, Plutão era um planeta e o Vioxx era um tratamento para osteoartrite aprovado pela FDA.

Aparentemente, o Google está construindo seus bancos de dados usando tecnologias e métodos adquiridos com a Metaweb em 2010 – embora a metaweb Base livre o banco de dados semântico permanece disponível para qualquer pessoa. O Google está usando o Freebase para dados, juntamente com informações coletadas da Wikipedia e do Livro de fatos mundiais da CIA. Google reivindicações seu banco de dados Knowledge Graph já possui entradas para cerca de 500 milhões de objetos (observe que esses objetos não podem ser comparados diretamente com artigos da Wikipédia) e cerca de 3,5 bilhões de “fatos”. Colocamos “fato” entre aspas porque já foi um “fato” que a Terra era plana e os humanos não conseguia voar. O conhecimento é escorregadio.

Gráfico de conhecimento na tela

A implementação inicial do Knowledge Graph do Google foi projetada para aumentar as listagens de resultados de pesquisa existentes da empresa, em vez de substituí-las. Assim como o Google às vezes mostra visualizações de páginas em um painel à direita dos resultados da pesquisa em uma janela padrão do navegador da Web, os resultados do Knowledge Graph aparecerão em painéis próximos aos resultados da pesquisa. Nem todos os termos de pesquisa produzirão painéis do Knowledge Graph: as consultas terão que corresponder a objetos bem definidos no Knowledge Graph. (Não se preocupe se ainda não vir os resultados do Knowledge Graph; O Google ainda está lançando o recurso e, no momento, ele está limitado a usuários que falam inglês nos Estados Unidos.)

Os painéis do Knowledge Graph procuram exibir um resumo das informações principais e mais procuradas sobre uma consulta sem exigir que os usuários leiam resumos de duas linhas de uma página da Web ou cliquem em outra site. Para uma pessoa, esses fatos importantes podem incluir datas de nascimento e morte, pessoas importantes associadas a ela e destaques rápidos de títulos, realizações ou o que mais torna essa pessoa significativa. Para outras entidades, o Google tentará revelar informações, estatísticas e associações importantes. O painel Knowledge Graph também lidará com a desambiguação. Se mais de uma entidade do Knowledge Graph corresponder a uma consulta de pesquisa, o Google fornecerá acesso a todas elas.

Talvez mais significativamente, uma vez que os usuários estão interagindo com uma entidade do Knowledge Graph, eles podem, dentro de alguns limites, navegar nos links de relacionamento com essas entidades. Por exemplo, abrir uma entrada do Knowledge Graph em Dashiell Hammett deve permitir que os usuários pulem imediatamente para um resumo do Knowledge Graph de O homem magro e O falcão maltês – e, talvez, a resumos sobre Lillian Helman e a caça às bruxas anticomunista pós-Segunda Guerra Mundial.

O Knowledge Graph não ficará restrito a pesquisas baseadas em navegador: o Google está atualmente lançando os resultados de pesquisa do Knowledge Graph para a maioria dos dispositivos com Android 2.2 ou superior (novamente, somente nos EUA em inglês) na caixa Pesquisa rápida e baseado em navegador pesquisadores. Os resultados da pesquisa do Knowledge Graph também serão apresentados nas próximas versões do aplicativo de pesquisa do Google para dispositivos iOS. Os usuários podem navegar pelas informações no Knowledge Graph tocando ou deslizando para frente e para trás no conteúdo.

Gráfico de conhecimento do Google (móvel)

É importante observar que estes são apenas os primeiros lugares onde o Knowledge Graph está surgindo nos serviços do Google. Nos bastidores, você pode esperar que os resultados da pesquisa do Knowledge Graph comecem a informar uma ampla variedade de serviços do Google, especialmente à medida que seu corpus de conjuntos de dados e “fatos” cresce. As pesquisas do Knowledge Graph provavelmente nunca substituir A pesquisa tradicional baseada em palavras-chave do Google - a pesquisa semântica e a pesquisa literal são duas ferramentas diferentes, boas para duas tarefas distintas - mas, em teoria, não seria surpreendente se o Knowledge Graph um dia contribuísse para até um quarto das interações do Google com pesquisas Usuários.

Crowdsourcing… ou aulas com as cores do Google?

Então, como o Knowledge Graph seleciona informações para seus resumos? Até agora, o Google não foi muito explícito sobre a metodologia por trás da apresentação do Knowledge Graph. Na minha amostragem (limitada), boa parte dos dados que o Google prioriza em seus resumos parece ser bastante consistente: datas, relações, e um único campo de “realização significativa” para pessoas (que poderia ser rotulado como “Descobertas” ou “Ocupação” ou "Título"). Os lugares recebem locais e datas, além de uma seleção de outros campos que podem ser exatamente o que alguém deseja ou completamente inapropriados. Por exemplo, se você estiver olhando para o Empire State Building, fornecer o endereço parece apropriado... mas não é tão apropriado para, digamos, Stonehenge. Estranhezas semelhantes podem acontecer com números de telefone: quantas pessoas precisam de acesso instantâneo a um número de telefone do Taj Mahal?

Gráfico de conhecimento do Google (Taj Mahal)

O Google afirma que prioriza as informações apresentadas nos resumos do Knowledge Graph usando “sabedoria humana”. E com isso, o Google não na verdade, significam coisas que os humanos lhes dizem ou que especialistas no assunto ou curadores de banco de dados coletam - significa fazer suposições indiretas sobre as intenções dos usuários, registrando comportamentos de pesquisa e controlando o que eles clicam, não clicam e procuram depois de fazer uma procurar. Resumindo, o Google está usando o crowdsourcing para tentar determinar quais “fatos” são os melhores para apresentar em um resumo do Knowledge Graph.

Por exemplo, o Google afirma que as informações resumidas do Knowledge Graph que apresenta para Tom Cruise respondem a 37 por cento das perguntas de acompanhamento dos usuários de pesquisa do Google sobre o ator quando procuram por ele. Esse número de 37 por cento parece científico e preciso, mas não há absolutamente nenhuma maneira de avaliar se a avaliação do Google sobre o comportamento agregado dos usuários de pesquisa tem algo a ver com o que um determinado usuário - como você - quer saber. Já que o Google parece tão orgulhoso desse número de 37 por cento, vamos virar isso de cabeça para baixo: Google diz 63 % das vezes, ele não consegue apresentar nenhuma informação sobre um tópico que seus usuários de pesquisa encontram relevante.

A posição do Google é fácil de entender: sempre que possível, quer apresentar imediatamente a informação que os seus utilizadores procuram. A única maneira de o Google realmente avaliar isso é observando como as pessoas usam seu mecanismo de busca e tentando fazer algumas suposições.

O crowdsourcing tem seus perigos. Assim como o Google está caminhando em águas turvas quando decide priorizar resultados de pesquisa do Google+ no Search Plus Your World, há riscos em confiar no crowdsourcing para priorizar a apresentação de informações e “fatos”. Apenas porque o público de pesquisa do Google pode não saber (ou não se importar particularmente) com certas informações não significa que não sejam importantes ou relevante. Existem muitos casos em que a percepção dos fatos pela “multidão” está errada. A maioria das pessoas pensa que esquizofrenia significa ter múltiplas personalidades, beber leite ou comer sorvete aumenta a produção de muco, e Maria Antonieta disse “Deixe-os comer bolo”. No entanto, nenhuma dessas coisas é verdadeiro.

Confiar no crowdsourcing para avaliar a importância da informação também cria potencial para abusos. Digamos que um governo quisesse semear desinformação sobre dissidentes, uma campanha política quisesse difamar um oponente ou hackers quisessem brincar com os resultados da pesquisa apenas para rir? Da mesma forma que os resultados de pesquisa do Google têm sido “Googlebombado”, o crowdsourcing poderia ser usado para manipular o Knowledge Graph. Pessoas sensatas não acreditarão em tudo que lêem; da mesma forma, os “factos” apresentados pelos motores de busca semântica não serão fiáveis ​​– e em alguns casos o crowdsourcing irá torná-los ainda menos fiáveis.

Tornando o Google mais rígido

Do lado prático, o Knowledge Graph do Google terá um impacto imediato: tornará os resultados de pesquisa do Google mais rígidos. Sempre que o Knowledge Graph puder fornecer uma resposta direta à pergunta de um usuário de pesquisa – ou permitir que ele navegue até ele rapidamente por meio de tópicos relacionados – os usuários permanecerão nos serviços do Google. Isso significa que o Google coleta mais dados sobre as pesquisas e comportamentos dos usuários (independentemente de eles estarem conectados a uma conta do Google ou não). Isso, por sua vez, permite ao Google refinar ainda mais sua plataforma de publicidade direcionada.

Isso também significa que serviços como a Wikipédia, que muitas vezes respondem aos mesmos tipos de perguntas específicas de conhecimento, as consultas direcionadas pelo Knowledge Graph verão um declínio na quantidade de tráfego da Web que recebem Google. No caso da Wikipédia, isso corresponde diretamente a menos oportunidades de solicitar apoio comunitário; para outros serviços, isso se traduzirá diretamente em um número menor de impressões de anúncios e (portanto) em receitas mais baixas. Para pessoas que oferecem sites e serviços baseados no fornecimento de fatos e informações discretas - e isso inclui tudo, desde Wikipedia até IMDb e varejistas on-line para listas telefônicas e diretórios de negócios para (concebivelmente) serviços de crowdsourcing como o Yelp e até mesmo registros públicos... O Knowledge Graph poderia corroer lentamente seu negócios.

Recomendações dos Editores

  • Como usar o Google SGE – experimente você mesmo a experiência geradora de pesquisa
  • Você não precisa usar o Bing – a Pesquisa Google agora também tem IA
  • Como o ChatGPT pode ajudar a Microsoft a destronar a Pesquisa Google
  • O Google Chrome obtém um dos melhores recursos do Microsoft Edge
  • A nova ferramenta de privacidade do Google permite que você saiba se suas informações pessoais vazaram