Come avviare un motore di ricerca

...

Creare un motore di ricerca è difficile.

Migliaia di programmatori in tutto il mondo stanno battendo silenziosamente sulle loro tastiere cercando di costruire il prossimo miglior motore di ricerca. Sergey Brin e Lawrence Page, i famosi creatori di Google, ammettono che "progettare un motore di ricerca è un compito impegnativo". Un motore di ricerca viene utilizzato per trovare informazioni sul Web. Un motore esegue la scansione di Internet e indicizza milioni di pagine di informazioni, sputando risultati quando qualcuno esegue una ricerca.

Ottieni un crawler web

Passo 1

Acquisisci un Web crawler, ovvero lo spider o il bot che esegue la scansione di Internet raccogliendo pagine dal Web. Un ragno visita le pagine Web, le legge e segue i collegamenti ad altre pagine. Puoi trovare un crawler open source o crearne uno tuo. Se vuoi creare il tuo crawler, ottieni un elenco di URL con cui seminare il tuo crawler. Un crawler lento è facile da costruire, ma costruire un crawler ad alte prestazioni per indicizzare milioni e milioni di pagine è più impegnativo.

Video del giorno

Passo 2

Ottieni tutta la larghezza di banda che puoi permetterti. Hai bisogno di questa larghezza di banda per il tuo crawler mentre viaggia attraverso il Web per ottenere pagine.

Passaggio 3

Costruisci un indice. Tutto ciò che trova il tuo crawler viene inserito nell'indice del motore di ricerca. L'indice è come un libro gigante o un catalogo contenente una copia di ogni pagina Web trovata dal crawler. Anna Patterson della Stanford University consiglia di indicizzare solo i dati di cui hai bisogno per fornire il tuo tipo di risultati di ricerca. Consiglia anche di non cercare di indicizzare "il lavello della cucina" ma piuttosto di "prendere qualcosa di presentabile".

Passaggio 4

...

Il tuo indice contiene tutte le informazioni trovate dal tuo web crawler.

Classifica i tuoi risultati nell'indice utilizzando un database ad alte prestazioni e tutte le informazioni sui tuoi server dal tuo web crawling. Devi elaborare milioni di pagine Web per creare il tuo indice. Le pagine registrate nel tuo indice devono essere classificate in ordine di ciò che è più rilevante per i tuoi ricercatori.

Passaggio 5

Crea un sito web attraente per restituire risultati di ricerca.

Passaggio 6

Avvia e commercializza il tuo motore di ricerca. Un motore di ricerca gratuito dovrebbe portare gli utenti dove vogliono in modo rapido ed elegante, secondo Laszlo Xalieri di Search Engine Watch.com. Dice che per eseguire un motore di ricerca di successo, "il tuo obiettivo è attirare i consumatori e venderne l'accesso agli esperti di marketing".

Cose di cui avrai bisogno

  • Un sito web

  • Un web crawler

  • Un database ad alte prestazioni per indicizzare tutti i tuoi contenuti

  • Una grande quantità di larghezza di banda per la scansione del Web

  • Server per l'archiviazione delle informazioni

  • Un dottorato di ricerca in informatica o matematica (o un consulente con la stessa)

Avvertimento

Qualsiasi programmatore può avviare un motore di ricerca, ma fornire risultati pertinenti è la vera sfida.