Коротко про Яndex

Недавно появился такой продукт. Фирма «Аркадия», программистское подразделение компании CompTek International, выпустила в свет «Библейский компьютерный справочник», позволяющий производить поиск именно в этом режиме. Это первый в России законченный коммерческий продукт, реализующий систему лексического поиска. Слово «лексический» означает, что поиск ведется не по ограниченному набору ключевых слов, а по любому слову из текста, отталкиваясь от разных его форм. Разработанная технология позволяет работать фактически с любым текстом. Конечно, это только принципиальная возможность — на самом деле, для настройки приложения на определенный текстовый массив требуется очень большой объем работы.
Ядром продукта является интеллектуальный индексатор Яndex (от «язык» и index). Схематически работу программы можно представить следующим образом. Получив большой исходный текст, система в первую очередь индексирует его. Это означает, что встретив в тексте какое-либо слово, программа определяет его начальную форму (скажем, для глаголов это неопределенная форма, для имен существительных — именительный падеж единственного числа и так далее) и вносит в свой индекс. Индекс – это гигантский информационный массив, где хранятся преобразованные специальным образом текстовые составляющие всех посещенных и проиндексированных роботом html-страниц и тестовых файлов.
В результате получается список начальных форм всех слов, встречающихся в данном тексте с указанием тех вхождений, где данное слово используется. Затем, получив запрос на розыск какой-либо словоформы, программа определяет его начальную форму (специалисты называют этот процесс нормализацией) и ищет по заранее составленному индексу все вхождения, включающие данное слово. Результатом поиска является набор текстовых фрагментов, содержащих запрошенное слово во всех формах.
Помимо этих средств, составляющих ядро программы, в нее включен ряд вспомогательных функций, облегчающих работу с текстом. Во-первых, это своеобразный «навигатор», позволяющий мгновенно переходить к нужному фрагменту текста. Кроме того, в программе имеется тематический указатель, содержащий около 200 часто интересующих пользователей тем. Любую тему можно редактировать.
Найденный фрагмент можно забрать в буфер обмена и перенести затем в любое приложение Windows. Тем самым результат поиска может использоваться в любом текстовом редакторе: его можно вставлять в документы, редактировать, распечатывать и так далее.

‹ Особенности применения русского языка в поисковых системах
Вверх
Морфологическая обработка ›

Айтистанция
Добавить комментарий

Adblock
detector