Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Поисковые машины или автоматические индексы

Поисковые машины, или автоматические индексы - глобальные или локальные, специализированные (в среде WWW) информационно-поисковые системы, размещаемые на серверах свободного доступа. Состоят из трех компонент: программы сканирования (crawler), индекса и программного обеспечения поиска.

Crawler или spider (паук) – это программа, которая на основе заданных алгоритмов автоматически сканирует различные Web-сайты и обеспечивает полную или частичну индексацию ресурсов, URL, ключевых слов, ссылок и документов. В последующем на основе созданных индексных баз данных поисковые машины предоставляют пользователю доступ к распределенной на узлах Сети информации. Это реализуется через выполнение поисковых запросов в рамках соответсвующего интерфейса.

Программа-сrawler может также переходить по расположенным на сайте ссылкам на другие, близкие по содержанию, страницы. При этом она периодически возвращается к исходным сайтам, чтобы проверить, не произошли ли какие-нибудь изменения и снова считывает страницы. Когда пользователь делает поисковой машине запрос, ее программное обеспечение проходит по созданному индексу в поиске Web-страниц с заданными ключевыми словами и классифицирует эти страницы по степени близости к предмету поиска. Все что находит и считывает робот попадает в индексы ПМ.

Индексы представляют собой гигантское хранилище информации, где хранятся копии текстовой составляющей всех посещенных и проиндексированных Web- страниц.

Для профессиональной работы с автоматическим индексом необходимо учитывать два определяющих аспекта его работы:

  • индексирование программой-роботом содержимого Web-страниц. Адрес очередного документа робот узнает либо от автора ресурса, который представил его в систему, либо из гиперссылки, найденной им на уже пройденной странице;

  • обработка запросов пользователей по ключевым словам на основе синтаксиса поискового языка системы.

Обе эти фазы работы поисковой машины тесно связаны - чем больше информации о ресурсе извлечено при сканировании, тем потенциально шире возможности поиска. Тот факт, что каждая система в обоих случаях имеет свою специфику, может быть использован для тонкой настройки на решение поисковой задачи.

Поскольку индексы сканируют единое информационное поле - WWW, то в них может находиться информация об одних и тех же ресурсах. Однако время, затраченное на получение результата при поиске, может существенно зависеть от выбранной поисковой машины. Кроме того использование всего одной поисковой системы не дает никаких гарантий по полноте охваченных ресурсов.

Обработчик запросов – программа, которая в соответствии с запросом пользователя перебирает индексы ПМ в поиске информации, интересующей поисковика, и выдает ему в порядке релевантности найденные документы.

Последние исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista, или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной Паутины отдельной такой системой не превышает 30%. Поисковая машина получает от пользователя в виде сформулированного запроса одно или несколько ключевых слов вместе с булевыми операторами «И», «ИЛИ», «НЕ», и затем просматривает ранее проиндексированные Web-страницы в поиске этих ключевых слов. Для определения порядка вывода страниц с результатами поиска поисковая машина использует алгоритм классификации сайтов, которые содержат заданныее ключевые слова.

Поисковый механизм может, например, подсчитать, сколько раз ключевое слово встречается на странице. Он также может искать ключевое слово в мета-тэгах (matatag). Мета-тэг – это тэга HTML, который предоставляет информацию о Web-странице. В отличие от большинства HTML-тэгов метатэги никак не влияют на внешний вид документа. Они содержат сведения об информационном наполнении Web-страницы и некоторые его ключевые слова.