Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Ранжирование результатов

Наиболее важными, являются два умения поисковой системы: способность понимать запросы, составленные на разных языках (для нас - на русском), и мощное ранжирование результатов. Наличие ранжирования очень важно, т.к. запрос обычно вводится с логикой ИЛИ, что сильно увеличивает количество возвращаемых поисковой машиной документов. Поэтому без ранжирования всякий поиск теряет смысл. Наилучшие результаты дает ранжирование по схеме:

точное соответствие - все слова запроса - все слова, кроме последнего, -- все слова, кроме двух последних, - ... - все слова, кроме n последних, - первое слово (плюс, разумеется, ранжирование по количеству терминов в тексте) .

Алгоритм может быть и более мощным, но даже при такой последовательности можно быть уверенным, что, сколько бы документов найдено ни было, наиболее удачные окажутся впереди.

Наилучшие результаты в поиске по предлагаемому методу продемонстрировала система AltaVista, т.к. этот метод наиболее подходящий для нее. На других поисковых системах картина сложилась более пестрая. Одни справились не хуже AltaVista, другие не справились вовсе. Неудача говорит не о несовершенстве той или иной поисковой системы или метода, а лишь о неприменимости выбранного метода поиска для данной поисковой машины.

Самостоятельное применение пользователем для решения той или иной задачи любого осмысленного метода требует от системы отсутствия в ней излишней опеки. Чрезмерное увлечение морфологической обработкой слов может лишить поиск гибкости. Безусловно, для пользователя удобнее ввести в поле запроса фразу на естественном языке и получить список документов, которые (по мнению поисковой машины) этому запросу удовлетворяют. Такой поиск дает неплохой результат в среднем, однако любое отклонение в сторону от утвержденной схемы может резко снизить эффективность поиска.

Поиск по вышеописанной методике на русскоязычных серверах показал, что:

  • для системы "Апорт!" выбранная методика оказалась полностью чужда.

  • Rambler представил хорошие результаты только после того, как логика запроса была изменена на И. На первой странице все документы, как для русского, так и английского поиска, оказались полностью релевантными. Логика И неизбежно ведет к потере весомой части релевантных документов.

  • Яndex отлично справился с поиском на английском языке -- стопроцентная релевантность на первой странице для англоязычного запроса. Однако русский запрос был обработан заметно слабее.

Изучение отклика российских поисковых систем привело к выводу: морфологическая обработка не всегда увеличивает число релевантных документов! Это утверждение не бесспорно, т.к. относится к данной методике. Для других методик поиска морфологический анализ может оказаться незаменимым; в выше описанной он явно лишний. Поэтому так хорошо справилась с задачей AltaVista -- в ней даже английский текст морфологически не обрабатывается. Все слова для нее, за редким исключением (имеется в виду стоп-лист, но он создается только для англоязычных и близких к ним текстов), лишь последовательность символов.

Предлагаемая методика поиска информации в сети Интернет хорошо подходит для исчерпывающего обзорного поиска. Обзорный поиск незаменим, когда нужно найти как можно больше документов на заданную тему. Анализ текста-источника вручную -- весьма трудоемкое и скучное занятие. Чтобы облегчить его, можно использовать апплет (www.shipbottle.ru/ir/), реализующий вышеописанный метод.