среда, 26 декабря 2007 г.

Как работают поисковые роботы

Поисковая машина состоит из трех частей. Первая часть называется Spider(паук), или Crawler, или Robot(робот). Это программа, которая посещает страницы сайта и сохраняет текстовое содержание в базе данных поисковой машины. Робот-паук двигается по гиперссылкам, постепенно обходя веб-страницы сети. Через некоторое время робот-паук заново обходит все страницы и вносит изменения. Период захода робота зависит от быстроты его работы и может составлять от нескольких дней до нескольких месяцев.

Вторая часть эта сама база поисковой машины или индекс - куда помещается вся информация, которую находит робот-паук. База данных поисковой системы представляет собой гигантское вместилище информации, где хранится текстовая информация всех посещенных и проиндексированных роботом-пауком страниц.

Третья часть, эта программное обеспечение поисковой машины, которое на запрос пользователя выдает нужную ему информацию. Поисковые системы используют поиск по ключевым словам. После ввода пользователем ключевых слов они проходят по базе данных поисковой машины и отыскивают все страницы, где эти слова встречаются. Получается огромный список, который выстраивается в порядке убывания релевантности запросу.