Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Учет языковой специфики в полнотекстовых системах

Учет языковой специфики в полнотекстовых системах обеспечивается алгоритмом морфологического индексирования. Такой алгоритм позволяет, с одной стороны, находить все формы искомого слова, а с другой стороны - использовать любую из форм слова при запросе (даже такую, которая не встречается в тексте). Глубина лексического анализа может быть различной:

  • объединение слов с общей основой (search-searches-searched, стол-столы-столами);

  • учет чередования основ (businessmen-businessman, go-went, идти - шел );

  • полный морфологический разбор, который для русского языка включает учет причастных и деепричастных форм глагола (делать-делаемый-делавший-делая-делав), а также объединение видовых пар глагола (делать-сделать).

Система с учетом морфологии языка умеет для всех слов этого языка делать анализ, т.е. понимать, формой какого слова они являются. Каждое слово языка в начальной форме имеет парадигму – совокупность всех своих словоформ, полученных при изменении слова по числам, падежам, родам и временам.

Полнотекстовой поиск предусматривает поиск по полному тексту или по всем текстовым полям документа или БД. Простейший текстовой документ – ASCII-текст в формате txt. Как правило обычный текстовой документ имеет свою структуру – деление на главы и параграфы, заголовки и колонтитулы, подписи к рисункам и таблицам. Текстовые редакторы позволяют делать эту структуру довольно сложной – выделять элементы текста различными шрифтами и начертаниями, выполнять списки и выравнивание и т.д.

Часто структура документа бывает не оформлена жестко и ясна интуитивно – деловое письмо, факсовое сообщение, электронное издания, т.е. документы со специализированными полями. ИПС должна уметь распознавать и такие документы. Поэтому в задачу полнотекстового поиска входит как расшифровка разных форматов, так и понимание внутренней структуры текста. В идеальном случае ИПС должна давать возможность настроить ее на определенные структуры. Эта настройка может производиться как формальным описанием данных, так и самообучением системы с обратной связью.