Проблемы индексирования

Цель индексирования документов – возможность их быстрого поиска. Индекс – это набор слов документа или о документе, по которым этот поиск производится.
Основными критериями качества индексирующе-поисковых подсистем являются:

качество поиска, процент нерелевантных документов в списке найденных;

размер индекса по отношению к размеру документа;

скорость поиска по документу.

Развитие индексирования в документных системах происходило от ручного заполнения списка ключевых слов в системах первого поколения до автоматического полнотекстового индексирования сегодня, подразумевающего сохранение всех слов текста. Безусловно, удалось решить вопрос автоматического ввода документов в систему, но оставшиеся весьма омрачают картину. Число получаемых при поиске нерелевантных документов подчас достигает 90%, а размер индекса составляет в среднем не менее 40-60% объема документа. С учетом быстрого роста количества электронных документов острота этих проблем усиливается.

Методы индексирования документов
Индексирование по "ключевым словам"
Инструменты, управляющие индексированием

‹ Ранжирование результатов
Вверх
Методы индексирования документов ›

Айтистанция
Добавить комментарий

Adblock
detector