Сейчас на сайте
Сейчас на сайте 0 пользователей и 1 гость.

Синтаксический анализ

Уже 2 года запрос на естественном языке поисковой системы Яndex учитывает морфологию русского языка и использует механизм нечеткого поиска. В него встроен синтаксический анализ. Между словами запроса устанавливаются синтаксические зависимости которые используются для внутреннего преобразования запроса и дальнейшего отбора документов и ранжирования.

В результате сотрудничества Яndex с каталогом List.Ru, пользователи получили возможность ограничить поиск выбранной темой. Теперь на экране появляются только те тематические разделы, в которых встречаются запрашиваемые документы. Кроме того, результаты поиска включают категории и ресурсы, найденные по их описаниям.

На основе анализа запросов создан НИНИ-индекс, который позволяет следить за изменением интересов аудитории российского Интернет. Для популярных однословных запросов предлагаются дополнительные слова, уточняющие поиск. В новой версии имеется рубрика "Популярные находки", с документами, которые пользователи часто выбирали при данном запросе.

Яndex предлагает не только поиск в Интернет, но и индекс цитирования, подписку на запрос, поисковые форумы и другие интересные службы. Скорость индексации - не менее 2 Мб/минуту. Создаваемый индекс составляет около 1/3 объема текста (без картинок, тэгов и пр.), при этом записывается подробный адрес слова - с точностью до позиции в тексте, что потом позволяет искать с учетом близости. В базу входят нормализованные формы слов текста, сами документы не хранятся.

Индексирование проводится по всем словам в тексте, стоп-слова определяются статистически. Для интеллектуализации поиска используется словарь на 90 тыс. слов. При индексации происходит нормализация, то есть слово ставится в свою исходную форму (для существительных - именительный падеж единственного числа, для глаголов - неопределенная форма и т.д.) и в таком виде учитывается в базе. Алгоритм морфологического разбора умеет корректно обрабатывать и слова, не найденные в словаре. Морфология работает для русского и английского языка. Также индексируются числа.

Сопровождается самой большой и полезной справочной системой, предоставляя ответы практически на все вопросы, возникающие при поиске и публикации информации в Web.

ПС представляет собой русскоязычную лингвистическую оболочку с возможностью поиска на естественном языке и т.н. «академический поиск». Яn d ех предназначен для работы с большими объемами русских текстов всех типов – в виде файлов различных форматов, полей БД и страничек Интернет. Морфологический анализ слов текста происходит одновременно с индексацией, что дает возможность снятия омонимии.

Зона поиска – русская часть Интернет, включая домены “su” и “ru”, а также русскоязычные ресурсы в других доменах. Написан свой робот для обхода Web'а. "Новостной Яndex" - поиск новостей, в том числе в определенном временном интервале и в заданной рубрике.