
검색 엔진을 구축하는 것은 어렵습니다.
전 세계적으로 수천 명의 프로그래머가 차기 최고의 검색 엔진을 구축하기 위해 조용히 키보드를 두드리고 있습니다. Google의 유명한 제작자인 Sergey Brin과 Lawrence Page는 "검색 엔진을 엔지니어링하는 것은 어려운 작업"이라고 인정합니다. 검색 엔진은 웹에서 정보를 찾는 데 사용됩니다. 엔진은 인터넷을 크롤링하고 수백만 페이지의 정보를 색인화하여 누군가가 검색을 하면 결과를 내보냅니다.
웹 크롤러 가져오기
1 단계
웹에서 페이지를 수집하는 인터넷 주위를 크롤링하는 스파이더 또는 봇인 웹 크롤러를 구입하십시오. 거미는 웹 페이지를 방문하여 읽고 다른 페이지에 대한 링크를 따릅니다. 오픈 소스 크롤러를 찾거나 직접 구축할 수 있습니다. 고유한 크롤러를 구축하려면 크롤러를 시드할 URL 목록을 가져오십시오. 느린 크롤러는 구축하기 쉽지만 수백만 페이지를 인덱싱하는 고성능 크롤러를 구축하는 것은 더 어렵습니다.
오늘의 비디오
2 단계
가능한 한 많은 대역폭을 확보하십시오. 웹에서 페이지를 가져오는 동안 크롤러에 이 대역폭이 필요합니다.
3단계
인덱스를 구축합니다. 크롤러가 찾은 모든 것은 검색 엔진 색인에 들어갑니다. 색인은 크롤러가 찾는 모든 웹 페이지의 사본을 포함하는 거대한 책이나 카탈로그와 같습니다. Stanford University의 Anna Patterson은 검색 결과를 제공하는 데 필요한 데이터만 인덱싱할 것을 권장합니다. 그녀는 또한 "주방 싱크대"를 색인하려고 하지 말고 "보기 좋은 것을 가져오십시오"라고 조언합니다.
4단계

색인에는 웹 크롤러가 찾은 모든 정보가 포함되어 있습니다.
고성능 데이터베이스와 웹 크롤링에서 서버에 대한 모든 정보를 사용하여 색인에서 결과의 순위를 매기십시오. 색인을 생성하려면 수백만 개의 웹 페이지를 처리해야 합니다. 색인에 기록된 페이지는 검색자와 가장 관련성이 높은 순서대로 순위가 매겨져야 합니다.
5단계
검색 결과를 반환하는 매력적인 웹사이트를 구축하세요.
6단계
검색 엔진을 시작하고 마케팅하십시오. Search Engine Watch.com의 Laszlo Xalieri에 따르면 무료 검색 엔진은 사용자를 원하는 곳으로 빠르고 우아하게 안내해야 합니다. 그는 성공적인 검색 엔진을 운영하기 위해 "당신의 목표는 소비자를 끌어들이고 마케팅 담당자에게 접근 권한을 판매하는 것"이라고 말합니다.
필요한 것
웹 사이트
웹 크롤러
모든 콘텐츠 인덱싱을 위한 고성능 데이터베이스
웹 크롤링을 위한 엄청난 대역폭
정보 저장용 서버
박사 컴퓨터 과학 또는 수학 (또는 이와 동일한 컨설턴트)
경고
모든 프로그래머가 검색 엔진을 시작할 수 있지만 관련 결과를 제공하는 것은 정말 어려운 일입니다.