Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Особенности выбора поисковой системы

Большой объем индекса является одним из основных аргументов при выборе поисковой системы, но далеко не единственным.

Начальные сведения о характере информации, служащей предметом поиска, делают задачу выбора более тонкой. Например, если пользователя интересуют сведения, которые могли поступить в Сеть только за последнюю неделю, то следует предпочесть поисковые машины с высокой скоростью индексирования и минимальным временем регистрации, через которое документ по представлению автора появляется в индексе.

Глубина индексирования. Для ускорения сканирования узла робот поисковой машины может ограничивать глубину его индексирования. WebCrawler, например, вообще сканирует только домашнюю страницу сайта. В результате даже такой крупный индекс как Excite может оказаться непригодным для поиска данных, которые в типичных случаях принято размещать в глубине узла.

Полнота индексирования. У индекса HotBot есть серьезные проблемы со сканированием узлов, содержащих фреймы. Отсюда следует, что при масштабном сборе информации из Сети HotBot во избежание потерь можно использовать только как систему, дополнительную к другим, не имеющим такого недостатка.

Частота сканирования. Роботы поисковых систем, сканирующие Сеть, могут увязывать частоту своих повторных посещений уже зарегистрированного узла со скоростью обновления его материалов (AltaVista, InfoSeek). Эта черта полезна при поиске сведений, которым присуще частое обновление, например, новостей.

Возможности поисковых языков отдельных систем, допускают специфичное применение. Так, ключевые слова, входящие в доменное имя узла, сегодня широко используются при поиске всевозможных компаний. Если есть начальные сведения о терминах, которые могут быть включены в названия каталогов или файлов - носителей релевантной информации, то следует использовать поисковые машины, поддерживающие поиск по URL. Даже такая казалось бы незначительная деталь как учет регистра при построении запроса в определенных ситуациях становится крайне полезной. Например, при сборе сведений о Турции (Turkey) системы, которые фиксируют при индексировании регистр каждой буквы слова, позволяют легко избавиться от документов с термином turkey (индюк).

Поиск по заголовку страницы (элемент title) достаточно эффективно применяется, когда разыскиваются организации, особенно с двусложным длинным названием. Односложное название обычно входит в имя домена или в URL как есть, а многосложное формирует аббревиатуру. По домену или URL их легче всего и оказывается локализовать.

Следует помнить, что одноименные операторы в разных поисковых системах могут иметь неодинаковые свойства.

Возможная профилизация глобальных поисковых машин. Технические особенности работы какого-либо сервиса могут привести к увеличению доли одной тематики информации перед другой. В результате равные по объему индексы могут давать неодинаковый отклик по отдельным запросам, что следует учитывать при планировании поиска.

Интерфейс. Обычно поисковые сервера разделяют интерфейс для ввода запросов на "простой" и "расширенный" (advanced, power). Все необходимые для профессиональной работы с системой возможности скрыты в "расширенном" интерфейсе, и именно с него стоит начинать знакомство с любой новой для пользователя поисковой машиной.

Несмотря на постоянный рост индексов поисковых систем, оценки показывают, что увеличение общего числа документов в WWW за последний год с 320 до 550 миллионов в целом ухудшило картину доступности информации. Отсюда ясно, что только применение совокупности поисковых машин, способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска.