Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Коротко про Яndex

Недавно появился такой продукт. Фирма «Аркадия», программистское подразделение компании CompTek International, выпустила в свет "Библейский компьютерный справочник", позволяющий производить поиск именно в этом режиме. Это первый в России законченный коммерческий продукт, реализующий систему лексического поиска. Слово "лексический" означает, что поиск ведется не по ограниченному набору ключевых слов, а по любому слову из текста, отталкиваясь от разных его форм. Разработанная технология позволяет работать фактически с любым текстом. Конечно, это только принципиальная возможность - на самом деле, для настройки приложения на определенный текстовый массив требуется очень большой объем работы.

Ядром продукта является интеллектуальный индексатор Яndex (от "язык" и index). Схематически работу программы можно представить следующим образом. Получив большой исходный текст, система в первую очередь индексирует его. Это означает, что встретив в тексте какое-либо слово, программа определяет его начальную форму (скажем, для глаголов это неопределенная форма, для имен существительных - именительный падеж единственного числа и так далее) и вносит в свой индекс. Индекс – это гигантский информационный массив, где хранятся преобразованные специальным образом текстовые составляющие всех посещенных и проиндексированных роботом html-страниц и тестовых файлов.

В результате получается список начальных форм всех слов, встречающихся в данном тексте с указанием тех вхождений, где данное слово используется. Затем, получив запрос на розыск какой-либо словоформы, программа определяет его начальную форму (специалисты называют этот процесс нормализацией) и ищет по заранее составленному индексу все вхождения, включающие данное слово. Результатом поиска является набор текстовых фрагментов, содержащих запрошенное слово во всех формах.

Помимо этих средств, составляющих ядро программы, в нее включен ряд вспомогательных функций, облегчающих работу с текстом. Во-первых, это своеобразный "навигатор", позволяющий мгновенно переходить к нужному фрагменту текста. Кроме того, в программе имеется тематический указатель, содержащий около 200 часто интересующих пользователей тем. Любую тему можно редактировать.

Найденный фрагмент можно забрать в буфер обмена и перенести затем в любое приложение Windows. Тем самым результат поиска может использоваться в любом текстовом редакторе: его можно вставлять в документы, редактировать, распечатывать и так далее.