Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

TELA, ПАУК

TELA

TELA [http://tela.dux.ru/] – полнотекстовой поиск информации в конференциях RELCOM, RELCOM.COMMERCE, FIDO7, MEDLUX. Кроме того позволяет производить поиск по ключевым словам русскоязычных страничек, а также на англоязычных страничках на российских серверах. Учитывает морфологию русского языка.

Процесс сбора информации весьма затруднен разнообразием в кодировках, отсутствием системы в задании URL и организации серверов. Поэтому индексируются далеко не все русскоязычные странички.

Поисковая часть сервера сделана на базе известной системы поиска freeways-sf с использованием русской версии системы поддержки морфологии языка ILIAS, которая позволяет задавать ключевые слова в произвольной естественной форме – любой из возможных словоформ русского языка, в т.ч. и неправильных. Допускает применение логических операторов И\ИЛИ, использование символа *.

Поиск с помощью TELA осуществляется следующим образом - в окошке под текстом "Введите ключевые слова для поиска" задаются, разделенные пробелом слова, которые, должны содержаться в искомых документах. TELA может искать документы, содержащие все слова запроса (по умолчанию) или любое из слов запроса. Для установки этих режимов на панели поиска есть одноименные кнопки.

Система поддержки русского языка, с которой работает TELA , допускает задание ключевых слов в естественной форме - любой из возможных словоформ русского языка, в том числе и неправильных.

Допускается использование метасимвола "*" в конце любого слова, где * означает любое количество любых символов (до пробела). В этом случае поиск будет подходящими будут считаться все слова, начинающиеся с заданного образца и имеющие произвольное окончание. В то же время использование метасимвола, хотя частично и решает проблему, но нередко дает совершенно неприемлемый результат.

В меню "Число возвращаемых документов" указывается максимальное число ссылок на найденные документы, которые будут содержаться на странице, возвращаемой в результате поиска. Чем меньше выбранное число - тем более быстро будет получен результат.

Для начала поиска следует нажать кнопку "Поиск". Если при вводе ключевых слов произошла ошибка, то исправить ее можно с помощью кнопки "Сброс" и ввести текст заново.

В появившейся страницу "Результаты поиска по ключевым словам" будут собраны ссылки на найденные документы в виде: заголовок, фрагмент текста, адрес страницы и статистические данные.

При поиске учитывается:

  • количество слов из запроса найденных в документе;
  • частота встречаемости слов запроса в языке (редкие слова считаются более значимыми, более характерными);
  • отношение найденных слов к общему количеству слов в документе.

В соответствии с этими критериями найденные документы сортируются в выборке по убыванию степени соответствия запросу (графа "Очко" в результате) от 1000 - максимальное соответствие, до 0 - несоответствие. В начале выборки находятся наиболее соответствующие запросу документы.

Интересной особенностью данной ПС является возможность просмотра содержания найденного документа (без картинок) прямо со страницы ПС.

ПАУК

«ПАУК» (http://spider.raser.ru) был одним из первых русскоязычных поисковых серверов. Особенностью программы является наличие достаточно простого интерфейса, классификатора и нескольких отраслевых иерархических уровней. Однако логика отраслевой иерархии не весьма отработана, что затрудняет поиск раздела, в котором могут иметься требуемые данные. К недостаткам «Паука» можно также отнести то, что ПС обладает низкой оперативностью обновления данных, что приводит к достаточно позднему появлению новых серверов в ней.

Поиск информации осуществляется по названию документа, по первым строкам текста или по электронным адресам WEB-страниц. В запросах не поддерживаются логические операторы «И» и «ИЛИ», но разрешает вводить в запрос одно понятие с возможным усечением окончаний слов с помощью символа * . Данная ПС может использоваться как удобный путеводитель для начинающих пользователей.