Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Поисковые системы Яndex

Яnдех.Web – поисковый механизм для русскоязычного Интернет. Поисковая машина использует механизм Яndex-Web, областью поиска являются Web-сервера доменов 'su' и 'ru', а также иностранные русскоязычные сервера, в том числе - стран СНГ

Яnдех.site – это поисковый сервер, обеспечивающий удобный и быстрый поиск на Web-серверах. Это средство полнотекстовой индексации и поиска по страницам собственного Web-сервера с учетом морфологии русского и английского языков. Это - постоянно работающая программа, выполняющая запросы на проведение поиска и выделение найденных слов в найденных документах (разметки).

Система состоит из следующих частей:

  • индексатор - проходит по всем HTML-документам, лежащим на Web-сайтах, и создает индекс. Индекс дает возможность быстро проводить поиск по индексированным документам. Эта программа запускается регулярно, например каждой ночью, чтобы индекс всегда отражал текущее состояние Web-сайтов;

  • CGI-скрипт - передает запросы поисковому серверу, получает от него ответ и передает этот ответ пользователю;

  • Морфологический сервер - отвечает на запросы индексатора и поискового сервера. Он "знает" морфологию русского и английского языка.

Яnдех.dict – подключение модуля морфологии к существующим поисковым средствам. Задача - понимание и расширение запроса пользователя и передача обработанного запроса независимому поисковому механизму. Яn d ех работает уже с готовым индексом, созданным без учета морфологии языка

Принцип взаимодействия Яndex-Dict с поисковым механизмом - преобразование ("морфологизация") поискового запроса, то есть каждый элемент поискового запроса, опознаваемый как слово русского языка, заменяется на все его словоформы. Учет словосочетаний позволяет увеличить релевантность запроса, сократить его длину и позволяет увеличить быстродействие системы.

Если слово не существует в словаре ни как имя нарицательное, ни как собственное, то словарный сервер на основании имеющихся у него морфологических правил строит гипотезы возможной нормализации и словоизменения.

Словарный сервер работает как морфологическая надстройка к поисковым системам AltaVista и Rambler ( www.comptek.ru/alta.html, www.comptek.ru/ramb.html ). На этих страничках можно получить грамматический разбор запроса (что представляет собой результат работы словарного сервера), задав в поле "Режим" значение "разбор запроса". Последняя версия Яndex-Dict позволяет также учитывать согласование слов.

Для встраивания Яnдех.dict поисковый интерфейс должен поддерживать операции логического объединения (или) и обеспечивать длину запроса не менее 300 символов. К желательным свойствам поискового интерфейса следует отнести поддержку логического пересечения (и), обязательное наличие скобочных конструкций и способ указания точной словоформы (кавычек)

Яnдех.cd – индексация и поиск по статическому набору документов в виде html-файлов. Представляет собой мощное средство поиска с учетом морфологии русского и английских языков создателям локальных версий Web-сайтов и другим, кто использует формат html. В новом приложении Яnдех.dict реализован локальный вызов поисковой программы – т.е. пользователь может не иметь выхода в Интернет, а получать его эмуляцию на локальном компьютере.

Фиксированный объем текстов индексируется один раз. Индексный файл помещается вместе с исходными текстами. В определенную директорию кладутся поисковая страница и поисковый модуль. Для работы с поиском пользователь должен обратиться на поисковую страницу, которая обеспечивает вызов поискового модуля. Страница может быть помещена в закладке и\или вызываться по гиперссылке из любых страниц диска.

Яnдех.lib – библиотека для подключения к существующим базам и системам и предназначена для работы в многозадачной среде и способна одновременно обслуживать несколько поисковых запросов и проводить индексирование. Библиотека разрешает одновременную работу с несколькими БД.

Предназначается для проведения полнотекстового поиска с учетом морфологии русского и английского языков внутри использующих ее программных систем. Скорость индексирования 1-2 Мб в минуту.

Поисковые особенности включают выбор наиболее релевантных запросу документов, учитывающих такие факторы, как «контрастность слов», «близость слов друг к другу», «морфологические и синтаксические особенности заданных в запросе слов».