Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Особенности применения русского языка в поисковых системах

Русский язык по способу образования форма слова является флективным, т.е. в языке существуют флексии – часть слова (окончание), выражающее грамматическое значение при словоизменении (склонении, спряжении). Русский язык также является синтетическим языком – в слове объединено и лексическое и грамматическое значение. Слово в совокупности его форм называется лексемой (общая система лексических значений). Система словоформ, относящейся к одной лексеме, называется ее парадигмой . В русском языке наиболее сложную парадигму имеют глаголы. У неизменяемых слов лексема и словоформа совпадают. В словарях каждая лексема представлена одной из словоформ, которая называется словарной (исходной). В русском языке словарными формами являются:

  • для существительных – именительный падеж единственного числа;

  • для прилагательных – именительный падеж единственного числа мужского рода;

  • для глаголов, причастий и деепричастий – глагол в инфинитиве.

Все существующие словарные информационно-поисковые системы с учетом морфологии русского языка базируются на словаре русского языка, включающем 90 000 слов (словарных статей). Работы по формальному описанию русского языка непосредственно связаны с идеями автоматического перевода. Первые эксперименты начались в 1954 г, но до сих пор существующие автоматические переводчике умеют делать лишь более-менее грубый подстрочник и близко пока еще не подошли к уровню приличного художественного перевода.

Логичным шагом на пути создания гибкой русскоязычной поисковой системы стала бы программа, отыскивающая по одной заданной словоформе все остальные. Скажем, задаешь слово "падать" и получаешь все фрагменты текста, где встречаются его словоформы "падал", "падаю", "падаешь" и даже "упал", "упаду" (желательно, чтобы программа могла сама переводить глагол из несовершенной формы в совершенную, не меняя при этом смысла). Логично, но не особенно просто. И дело здесь именно в той самой изменяемости слов в русском языке.