Sådan starter du en søgemaskine

...

Det er svært at bygge en søgemaskine.

Tusindvis af programmører verden over tapper stille og roligt væk på deres tastaturer i forsøget på at bygge den næstbedste søgemaskine. Sergey Brin og Lawrence Page, de berømte skabere af Google, indrømmer, at "at udvikle en søgemaskine er en udfordrende opgave." En søgemaskine bruges til at finde information på nettet. En motor gennemsøger internettet og indekserer millioner af sider med information og spytter resultater ud, når nogen foretager en søgning.

Få en webcrawler

Trin 1

Anskaf en webcrawler, som er edderkoppen eller bot, der kravler rundt på internettet og samler sider fra internettet. En edderkop besøger websider, læser dem og følger links til andre sider. Du kan finde en open source-crawler eller bygge din egen. Hvis du vil bygge din egen crawler, skal du få en liste over URL'er, du kan se din crawler med. En langsom crawler er nem at bygge, men at bygge en højtydende crawler til at indeksere millioner og atter millioner af sider er mere udfordrende.

Dagens video

Trin 2

Få så meget båndbredde, som du har råd til. Du har brug for denne båndbredde til din crawler, når den bevæger sig på tværs af internettet og henter sider.

Trin 3

Byg et indeks. Alt, hvad din crawler finder, går ind i søgemaskinens indeks. Indekset er som en kæmpe bog eller katalog, der indeholder en kopi af hver webside, som crawleren finder. Anna Patterson fra Stanford University anbefaler, at du kun indekserer de data, du har brug for for at tjene dine søgeresultater. Hun råder også til, at du ikke skal prøve at indeksere "køkkenvasken", men hellere "få noget præsentabelt op".

Trin 4

...

Dit indeks indeholder alle oplysninger fundet af din webcrawler.

Ranger dine resultater på indekset ved hjælp af en højtydende database og alle oplysningerne på dine servere fra din webcrawl. Du skal behandle muligvis millioner af websider for at oprette dit indeks. Siderne, der er registreret i dit indeks, skal rangeres i rækkefølge efter, hvad der er mest relevant for dine søgere.

Trin 5

Byg en attraktiv hjemmeside for at returnere søgeresultater.

Trin 6

Start og markedsfør din søgemaskine. En gratis søgemaskine skal tage brugerne derhen, hvor de vil hurtigt og elegant, ifølge Laszlo Xalieri fra Search Engine Watch.com. Han siger, at for at køre en succesfuld søgemaskine, "er dit mål at tiltrække forbrugere og sælge adgang til dem til marketingfolk."

Ting du skal bruge

  • En hjemmeside

  • En webcrawler

  • En højtydende database til indeksering af alt dit indhold

  • En hel del båndbredde til at crawle på nettet

  • Servere til lagring af information

  • En Ph.D. i datalogi eller matematik (eller en konsulent med samme)

Advarsel

Enhver programmør kan starte en søgemaskine, men at levere relevante resultater er den virkelige udfordring.