Создать поисковую систему сложно.
Тысячи программистов по всему миру тихонько нажимают на свои клавиатуры, пытаясь создать следующую лучшую поисковую систему. Известные создатели Google Сергей Брин и Лоуренс Пейдж признают, что «разработка поисковой системы - сложная задача». Поисковая машина используется для поиска информации в Интернете. Двигатель сканирует Интернет и индексирует миллионы страниц информации, выдавая результаты, когда кто-то выполняет поиск.
Получить веб-сканер
Шаг 1
Получите веб-краулера, который представляет собой паука или бота, который ползает по Интернету, собирая страницы из Интернета. Паук посещает веб-страницы, читает их и переходит по ссылкам на другие страницы. Вы можете найти краулер с открытым исходным кодом или создать свой собственный. Если вы хотите создать свой собственный сканер, получите список URL-адресов, с помощью которых он будет загружать свой сканер. Создать медленный поисковый робот легко, но создать высокопроизводительный поисковый робот для индексации миллионов и миллионов страниц сложнее.
Видео дня
Шаг 2
Получите максимальную пропускную способность, которую вы можете себе позволить. Эта полоса пропускания нужна вашему роботу, поскольку он путешествует по сети, получая страницы.
Шаг 3
Создайте индекс. Все, что находит ваш сканер, попадает в индекс поисковой системы. Индекс подобен гигантской книге или каталогу, содержащему копию каждой веб-страницы, которую находит поисковый робот. Анна Паттерсон из Стэнфордского университета рекомендует индексировать только те данные, которые вам нужны для получения результатов вашего типа поиска. Она также советует вам не пытаться проиндексировать «кухонную раковину», а скорее «получить что-нибудь презентабельное».
Шаг 4
Ваш индекс содержит всю информацию, найденную вашим поисковым роботом.
Оцените свои результаты в индексе, используя высокопроизводительную базу данных и всю информацию о ваших серверах, полученную при сканировании в Интернете. Для создания индекса вам необходимо обработать, возможно, миллионы веб-страниц. Страницы, внесенные в ваш индекс, должны быть ранжированы в порядке, наиболее релевантном для ваших поисковиков.
Шаг 5
Создайте привлекательный веб-сайт, чтобы возвращать результаты поиска.
ШАГ 6
Запустите и продвигайте свою поисковую систему. По словам Ласло Ксальери из Search Engine Watch.com, бесплатная поисковая система должна быстро и элегантно направлять пользователей туда, куда они хотят. Он говорит, что для запуска успешной поисковой системы «ваша цель - привлечь потребителей и продать доступ к ним маркетологам».
Вещи, которые вам понадобятся
Сайт
Поисковый робот
Высокопроизводительная база данных для индексации всего вашего контента
Большая пропускная способность для сканирования Интернета
Серверы для хранения информации
Кандидат наук. по информатике или математике (или консультант с тем же)
Предупреждение
Любой программист может запустить поисковую систему, но получение релевантных результатов - настоящая проблема.