Como iniciar um mecanismo de pesquisa

...

Construir um mecanismo de busca é difícil.

Milhares de programadores em todo o mundo estão digitando silenciosamente em seus teclados tentando construir o próximo melhor mecanismo de busca. Sergey Brin e Lawrence Page, os famosos criadores do Google, admitem que "desenvolver um mecanismo de busca é uma tarefa desafiadora". Um mecanismo de busca é usado para encontrar informações na web. Um mecanismo rastreia a Internet e indexa milhões de páginas de informações, produzindo resultados quando alguém faz uma pesquisa.

Obtenha um rastreador da web

Passo 1

Adquira um rastreador da Web, que é o spider ou bot que rasteja pela Internet coletando páginas da Web. Um spider visita páginas da Web, as lê e segue links para outras páginas. Você pode encontrar um rastreador de código aberto ou criar o seu próprio. Se você deseja construir seu próprio rastreador, obtenha uma lista de URLs para alimentar seu rastreador. Um crawler lento é fácil de construir, mas construir um crawler de alto desempenho para indexar milhões e milhões de páginas é mais desafiador.

Vídeo do dia

Passo 2

Obtenha o máximo de largura de banda que puder. Você precisa dessa largura de banda para o seu rastreador enquanto ele viaja pelas páginas de obtenção da Web.

etapa 3

Crie um índice. Tudo o que o seu rastreador encontra vai para o índice do mecanismo de pesquisa. O índice é como um livro ou catálogo gigante contendo uma cópia de cada página da Web que o rastreador encontra. Anna Patterson, da Universidade de Stanford, recomenda indexar apenas os dados de que você precisa para servir ao seu tipo de resultados de pesquisa. Ela também aconselha que você não deve tentar indexar "a pia da cozinha", mas sim "pegar algo apresentável".

Passo 4

...

Seu índice contém todas as informações encontradas por seu rastreador da web.

Classifique seus resultados no índice usando um banco de dados de alto desempenho e todas as informações em seus servidores de seu rastreamento na web. Você precisa processar possivelmente milhões de páginas da Web para criar seu índice. As páginas registradas em seu índice precisam ser classificadas de acordo com o que é mais relevante para seus pesquisadores.

Etapa 5

Crie um site atraente para retornar os resultados da pesquisa.

Etapa 6

Lance e comercialize seu mecanismo de pesquisa. Um mecanismo de pesquisa gratuito deve levar os usuários aonde eles desejam ir de forma rápida e elegante, de acordo com Laszlo Xalieri do Search Engine Watch.com. Ele diz que, para operar um mecanismo de busca de sucesso, "seu objetivo é atrair consumidores e vender acesso a eles aos profissionais de marketing".

Coisas que você precisa

  • Um website

  • Um rastreador da web

  • Um banco de dados de alto desempenho para indexar todo o seu conteúdo

  • Muita largura de banda para rastrear a Web

  • Servidores para armazenar informações

  • A Ph. D. em ciência da computação ou matemática (ou um consultor com o mesmo)

Aviso

Qualquer programador pode iniciar um mecanismo de pesquisa, mas fornecer resultados relevantes é o verdadeiro desafio.