Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Анализ текста-источника

Возьмем любой текст-источник и проанализируем его. Для автоматизации процесса можно заглянуть на интерактивную страничку www.shipbottle.ru/ir/, где функционирует соответствующий аплет (автор – А.Попов), или воспользоваться небольшой программкой MTAS (mtasprog.exe) (www.sas.upenn.edu/~bkat/dwnld.htm). (Внимательно прочтите инструкцию: для обработки русского текста придется написать небольшой файл-алфавит.) Если текстом-источником является файл на диске компьютера, то следует указать программе путь к нему, а она сама вычислит все необходимые параметры. В противном случае, например, когда текст-источник - страница в журнале, анализ придется сделать вручную.

Алгоритм действий:

  • подбирается текст-источник. Чем четче описание проблемы в тексте-источнике, тем качественнее и точнее окажется результат. Размытый и путаный текст-источник выудит из поисковой системы столь же бестолковые документы;

  • из текста удаляются стоп-слова (их можно просто вычеркивать);

  • вычисляется частота вхождения каждого термина. Причем делается это без учета морфологии слов. Так, слова ship и ships будут разными терминами. Не нужно учитывать и регистр, все буквы считаются строчными;

  • выписываются на отдельный лист термины в порядке убывания их частоты вхождения (первыми должны идти те, которые встречаются чаще);

  • выбирается диапазон частот. Он должен лежать где-нибудь посередине. Не нужно брать слишком часто или, наоборот, слишком редко встречающиеся термины. Выбор диапазона субъективен, следует ориентироваться на конкретный смысл текста. Необходимость выбирать диапазон вручную не должна смущать, т.к. термины выбираются не из текста, а из построенного по определенному закону упорядоченного списка;

  • из выбранного диапазона выписываются термины. В большом тексте в диапазоне может оказаться довольно много слов. Все их применить вряд ли удастся. Достаточно взять 10-20 терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. Причем не стоит ограничиваться только характерными терминами, даже если они кажутся наиболее удачными. В список должны попасть и общие слова (их лучше выбирать из средней части диапазона);

  • составляется запрос, располагая отобранные слова в порядке их следования в списке терминов. Запрос должен пониматься машиной как слова, связанные логическим оператором ИЛИ. Это очень важное требование. Чтобы результат не исказился, следует изучить особенности синтаксиса запросов конкретной поисковой системы;

  • запрос отправляется поисковой системе.

В ответ пользователь можете получить несколько миллионов ссылок. Если поисковая машина ранжирует результаты (а это еще одно необходимое условие), на первых страницах окажутся практически стопроцентно релевантные документы. Причем может быть, что документ - источник запроса (если его аналог существует в Интернет) вовсе не обязательно будет возглавлять список.

Предлагаемый метод поиска нельзя назвать универсальным. Далеко не все поисковые машины воспримут его одинаково. Свойства, которыми должна обладать поисковая система, чтобы применение такого метода было оправдано, зависят от следующих факторов: общий объем базы данных, механизм индексации, структура данных и т.д.