Учет языковой специфики в полнотекстовых системах

Учет языковой специфики в полнотекстовых системах обеспечивается алгоритмом морфологического индексирования. Такой алгоритм позволяет, с одной стороны, находить все формы искомого слова, а с другой стороны — использовать любую из форм слова при запросе (даже такую, которая не встречается в тексте). Глубина лексического анализа может быть различной:

объединение слов с общей основой (search-searches-searched, стол-столы-столами);

учет чередования основ (businessmen-businessman, go-went, идти — шел );

полный морфологический разбор, который для русского языка включает учет причастных и деепричастных форм глагола (делать-делаемый-делавший-делая-делав), а также объединение видовых пар глагола (делать-сделать).

Система с учетом морфологии языка умеет для всех слов этого языка делать анализ, т.е. понимать, формой какого слова они являются. Каждое слово языка в начальной форме имеет парадигму – совокупность всех своих словоформ, полученных при изменении слова по числам, падежам, родам и временам.
Полнотекстовой поиск предусматривает поиск по полному тексту или по всем текстовым полям документа или БД. Простейший текстовой документ – ASCII-текст в формате txt. Как правило обычный текстовой документ имеет свою структуру – деление на главы и параграфы, заголовки и колонтитулы, подписи к рисункам и таблицам. Текстовые редакторы позволяют делать эту структуру довольно сложной – выделять элементы текста различными шрифтами и начертаниями, выполнять списки и выравнивание и т.д.
Часто структура документа бывает не оформлена жестко и ясна интуитивно – деловое письмо, факсовое сообщение, электронное издания, т.е. документы со специализированными полями. ИПС должна уметь распознавать и такие документы. Поэтому в задачу полнотекстового поиска входит как расшифровка разных форматов, так и понимание внутренней структуры текста. В идеальном случае ИПС должна давать возможность настроить ее на определенные структуры. Эта настройка может производиться как формальным описанием данных, так и самообучением системы с обратной связью.

 

Оцените статью
Айтистанция
Добавить комментарий

Adblock
detector