Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Индексирование по "ключевым словам"

Ключевые слова - это слова определяющие содержание документа, характеризующие его смысл. Однако одни и те же слова в разном контексте могут быть, а могут и не быть “ключевыми, да и документ – документу рознь. Например, в договорах главное – кто, кому, как, когда, сколько и за что, а в тематических статьях по большому счету – только о чем. К тому же, определение “ключевых” слов человеком – является процессом субъективным, т.е. зависящим от эксперта их выделяющего, что крайне плохо для дальнейшего осуществления поиска. При такой общей постановке вопроса алгоритмизация задачи весьма трудна. Необходимо найти объективное определение “ключевых” слов пригодное для машины, которое бы позволило уйти от недостатков полнотекстового индексирования.

Для этого необходимо разделить все многообразие документов на виды с точки зрения их организации:

Структурированные документы – имеют четкую (известную) организацию содержания информации в документе, т.е. определенные поля данных, их последовательность и положение. Например: договора, акты, служебные записки и т.д. С точки зрения индексации и поиска этот вид документов самый простой. В нем “ключевые” слова известны заранее – это поля данных. Это хорошо структурированные документы, с обработкой которых нет проблем, поэтому данная группа документов в дальнейшем рассматриваться не будет.

Неструктурированные документы – не обладают структурой в разрезе полей данных. Например: статьи, книги и т.д.

Неструктурированные документы можно разделить на подвиды с точки зрения возможности выделения “ключевых” слов. В качестве предпосылки следует исходить из того, что метод определения характерных слов документа должен зависеть от типа его содержания, т.е. того, что в этом документе важно для возможности его контекстного поиска (поиске по содержанию). Таким образом, все неструктурированные документы можно классифицировать по двум группам (подвидам):

  • контекстно-индентифицируемые – описывают конкретные вопросы (статьи, заметки, книги и т.д. на определенную тему или по определенным вопросам);

  • контекстно-неиндентифицируемые – не несут информации по конкретным вопросам (например, большинство художественной литературы).

Контекстно-индентифицируемые документы – это документы, характеризуется тем, что в них имеется явно выделенная тема, о которой идет речь в тексте. Причем описание производится с помощью специальных терминов данной темы и сопроводительных слов их поясняющих. Анализируя задачи, цели и способы поиска таких документов можно заметить, что он происходит именно на основе этих самых терминов, которые и будут в данном случае “ключевыми” словами текста. Стоит отметить, что все нижеизложенное будет ориентировано в первую очередь именно на этот вид документов, т.к., пожалуй, что только они и представляют интерес для контекстного поиска.

Контекстно-неиндентифицируемые документы – это документы которые не имеют ярко выраженной “контекстной уникальности”. Обычно такие документы не несут информации по конкретным вопросам. Безусловно они имеют тему или даже не одну, но контекстный поиск по каким-либо терминам обычно бессмысленнен, т.к. локализовать конкретный документ этого типа какими-либо “ключевыми” словами крайне сложно. Ключевыми словами в них являются в лучшем случае имена собственные. Поиск их осуществляется либо по теме, с дальнейшей ручной обработкой списка найденных, либо в основном по автору и названию. Но это не исключает для них использование тех же механизмов индексации и поиска, что и для первого подвида.

В зависимости от подвида обрабатываемых документов, зависит технология выделения из них “ключевых” слов.