Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Набор поисковых возможностей полнотекстовых систем

ПС, учитывающие морфологию русского языка, являются ИПС полнотекстового поиска, т.е. осуществляют поиск по текстовым документам разных форматов. Это могут быть текстовые поля БД, тексты стандартных форматов – txt, doc, html, rtf, xls. В этом случае под текстом подразумевается набор слов (выделенная по некоторым правилам последовательность букв), чисел и марок (сочетания букв и цифр или букв различных алфавитов).

Полнотекстовые системы работают со слабоструктурированными объектами - текстами. Базовый набор поисковых возможностей полнотекстовых систем таков:

  • boolean search - операции алгебры множеств, как внутри искомого выражения, так и над уже выполненными запросами;

  • fuzzy search - поиск по неполному или неточно написанному слову.

Полное инвертирование текстов предполагает хранение позиции каждого слова в документе. При такой обработке текста добавляются следующие возможности:

  • proximity search - поиск с учетом диапазона допустимых расстояний между словами ;

  • zone search - поиск в заданных структурных единицах текста .