検索エンジンを構築することは困難です。
世界中の何千人ものプログラマーが、次善の検索エンジンを構築しようと、静かにキーボードを利用しています。 グーグルの有名なクリエーターであるセルゲイ・ブリンとローレンス・ペイジは、「検索エンジンのエンジニアリングはやりがいのある仕事だ」と認めています。 検索エンジンは、Web上の情報を見つけるために使用されます。 エンジンはインターネットをクロールし、何百万ページもの情報にインデックスを付け、誰かが検索を行うと結果を吐き出します。
Webクローラーを入手する
ステップ1
Webクローラーを取得します。これは、Webからページを収集するインターネットをクロールするスパイダーまたはボットです。 スパイダーはWebページにアクセスし、それらを読み取り、他のページへのリンクをたどります。 オープンソースのクローラーを見つけるか、独自に作成することができます。 独自のクローラーを作成する場合は、クローラーのシードに使用するURLのリストを取得します。 低速のクローラーは簡単に作成できますが、何百万ものページにインデックスを付けるための高性能のクローラーを作成するのはさらに困難です。
今日のビデオ
ステップ2
できるだけ多くの帯域幅を取得します。 クローラーがWeb取得ページを移動するときに、この帯域幅が必要です。
ステップ3
インデックスを作成します。 クローラーが見つけたものはすべて検索エンジンインデックスに入れられます。 インデックスは、クローラーが見つけたすべてのWebページのコピーを含む巨大な本やカタログのようなものです。 スタンフォード大学のAnnaPattersonは、検索結果の種類を提供するために必要なデータのみにインデックスを付けることをお勧めします。 彼女はまた、「台所の流し台」のインデックスを作成するのではなく、「見栄えのするものを用意する」ことをお勧めします。
ステップ4
インデックスには、Webクローラーによって検出されたすべての情報が含まれています。
高性能データベースとWebクロールからのサーバー上のすべての情報を使用して、インデックスで結果をランク付けします。 インデックスを作成するには、おそらく数百万のWebページを処理する必要があります。 インデックスに記録されているページは、検索者に最も関連性の高い順にランク付けする必要があります。
ステップ5
検索結果を返す魅力的なウェブサイトを構築します。
ステップ6
検索エンジンを立ち上げて売り込みましょう。 Search EngineWatch.comのLaszloXalieriによると、無料の検索エンジンは、ユーザーがすばやくエレガントに行きたい場所に行く必要があります。 彼は、成功する検索エンジンを実行するために、「あなたの目標は、消費者を引き付け、それらへのアクセスをマーケターに売ることです」と言います。
必要なもの
ウェブサイト
Webクローラー
すべてのコンテンツにインデックスを付けるための高性能データベース
Webをクロールするための大量の帯域幅
情報を保存するためのサーバー
博士号 コンピュータサイエンスまたは数学(または同じコンサルタント)
警告
どんなプログラマーでも検索エンジンを始めることができますが、関連する結果を提供することは本当の挑戦です。