Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Использование шаблонов

Создание токенов как последовательности из букв и цифр по некоторым правилам имеет очевидные недостатки для всех языков, в которых слова имеют словоформы – изменяются по числам, родам, падежам, временам. Поэтому при поиске информации пользователь достаточно часто вынужден вспоминать, как точно выглядит искомое слово, или вспоминать грамматику и склонять и спрягать слова для получения их парадигмы.

Частичное решение данной проблемы достигается использованием шаблонов ( знаков * и ?) при составлении запросов. Такие шаблоны неплохо работают в английском языке, но с русским языком гораздо сложнее. Имеются случаи, когда шаблоны не помогают:

  • слова, у которых в разных формах меняется основа ( супплетивные формы) – идти-шел, плохо-хуже, человек-люди, ребенок-дети;

  • слова с большим количеством словоформ. Список всех словоформ русского глагола с причастиями и деепричастиями, составляющими до 250 различных форм, пользователю без специального лингвистического образования практически не возможно. Тем более трудно определить, все ли словоформы из этого списка могут быть «накрыты» шаблоном;

  • слова с беглыми гласными и чередованиями. В словаре, используемом в ИПС, примерно 25% слов имеют чередования, которые не позволяют найти слово по шаблонам – искать-ищу, окно-окон, расти-рос;

  • короткие, из 3-4х букв слова – дом, хор, ель, зона… В русском языке ( как и в большинстве других языков) имеется общая закономерность: чем чаще слова используются, тем они короче. Применение шаблона в коротких словах приводит к появлению большого числа ненужных ссылок в списке найденных документов, т.н. шуму или мусору.