Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Проблемы индексирования

Цель индексирования документов – возможность их быстрого поиска. Индекс – это набор слов документа или о документе, по которым этот поиск производится.

Основными критериями качества индексирующе-поисковых подсистем являются:

  • качество поиска, процент нерелевантных документов в списке найденных;

  • размер индекса по отношению к размеру документа;

  • скорость поиска по документу.

Развитие индексирования в документных системах происходило от ручного заполнения списка ключевых слов в системах первого поколения до автоматического полнотекстового индексирования сегодня, подразумевающего сохранение всех слов текста. Безусловно, удалось решить вопрос автоматического ввода документов в систему, но оставшиеся весьма омрачают картину. Число получаемых при поиске нерелевантных документов подчас достигает 90%, а размер индекса составляет в среднем не менее 40-60% объема документа. С учетом быстрого роста количества электронных документов острота этих проблем усиливается.