Hoe een zoekmachine te starten?

...

Het bouwen van een zoekmachine is moeilijk.

Duizenden programmeurs over de hele wereld tikken stilletjes op hun toetsenborden om de volgende beste zoekmachine te bouwen. Sergey Brin en Lawrence Page, de beroemde makers van Google, geven toe dat "het ontwerpen van een zoekmachine een uitdagende taak is". Een zoekmachine wordt gebruikt om informatie op het web te vinden. Een motor doorzoekt het internet en indexeert miljoenen pagina's met informatie, waarbij resultaten worden uitgespuugd wanneer iemand een zoekopdracht uitvoert.

Een webcrawler aanschaffen

Stap 1

Schaf een webcrawler aan, de spider of bot die op internet kruipt en pagina's van het web verzamelt. Een spin bezoekt webpagina's, leest ze en volgt links naar andere pagina's. U kunt een open-source crawler vinden of uw eigen crawler bouwen. Als u uw eigen crawler wilt bouwen, krijgt u een lijst met URL's waarmee u uw crawler kunt seeden. Een langzame crawler is eenvoudig te bouwen, maar het bouwen van een krachtige crawler om miljoenen en miljoenen pagina's te indexeren is een grotere uitdaging.

Video van de dag

Stap 2

Krijg zoveel bandbreedte als u zich kunt veroorloven. U hebt deze bandbreedte nodig voor uw crawler terwijl deze over het web reist om pagina's te krijgen.

Stap 3

Bouw een index. Alles wat uw crawler vindt, gaat naar de index van de zoekmachine. De index is als een gigantisch boek of catalogus met een kopie van elke webpagina die de crawler vindt. Anna Patterson van Stanford University raadt aan om alleen de gegevens te indexeren die u nodig hebt om uw soort zoekresultaten weer te geven. Ze adviseert ook dat je niet moet proberen "de gootsteen" te indexeren, maar eerder "iets presentabels op te ruimen".

Stap 4

...

Uw index bevat alle informatie die uw webcrawler heeft gevonden.

Rangschik uw resultaten op de index met behulp van een krachtige database en alle informatie op uw servers van uw webcrawling. U moet mogelijk miljoenen webpagina's verwerken om uw index te maken. De pagina's die in uw index zijn opgenomen, moeten worden gerangschikt in volgorde van wat het meest relevant is voor uw zoekers.

Stap 5

Bouw een aantrekkelijke website om zoekresultaten terug te geven.

Stap 6

Lanceer en breng uw zoekmachine op de markt. Volgens Laszlo Xalieri van Search Engine Watch.com moet een gratis zoekmachine gebruikers snel en elegant brengen waar ze willen zijn. Hij zegt dat om een ​​succesvolle zoekmachine te runnen, "je doel is om consumenten aan te trekken en toegang tot hen te verkopen aan marketeers."

Dingen die je nodig hebt

  • Een website

  • Een webcrawler

  • Een krachtige database voor het indexeren van al uw inhoud

  • Veel bandbreedte voor het crawlen van het web

  • Servers voor het opslaan van informatie

  • Een Ph.D. in informatica of wiskunde (of een consultant met hetzelfde)

Waarschuwing

Elke programmeur kan een zoekmachine starten, maar het leveren van relevante resultaten is de echte uitdaging.