Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Поиск в пределах URL

Местоположение в Сети конечного документа, задается его адресной схемой - URL. Если документ размещен не в корневом каталоге сервера, то в URL между именами узла и самого файла появляются еще и названия соответствующих каталогов. Так, для гипотетической Web-страницы diplom .html, находящей в подкаталоге opm каталога ingenerny на сервере www.ssu.sumy.ua, URL выглядел бы следующим образом:

URL: http://www.ssu.sumy.ua/ingenerny/opm/diplom.html

Если указанный выше документ зарегистрирован поисковой системой, которая поддерживает полноценный поиск по элементам адреса, то выйти на данную страницу можно по любому из встретившихся слов, т. е ingenerny , opm , diplom и даже, возможно, по их фрагментам.

В зависимости от конкретной ИПС поиск в пределах URL может задаваться различными способами - либо с помощью специальных меню и окон поискового шаблона, как, например, на Рамблере, либо в режиме командной строки, как на AltaVista (напр., url: ssu . sumy ), Yahoo (u: ssu . sumy ) или Яндексе (url= "www. ssu . sumy *" ). Некоторые поисковые машины, в частности HotBot и Рамблер, поддерживают оба альтернативных варианта.

Большинство систем допускает комбинирование URL- запроса с ключевыми словами, входящими в текст документа. В расширенном поиске AltaVista это может быть выполнено в виде: url: opm AND "Информационные технологии проектирования" (вторым элементом запроса стоит фраза, являющаяся названием диплома).

Для старейших в Сети ИПС, работающих с файловыми архивами FTP, поиск по ключевым словам, входящим в названия файлов и каталогов, всегда оставался основной функцией. Фактически поиск проводился по элементам адреса, представление которого после становления WWW стало регламентироваться стандартом адресных схем URL. При этом достигалась универсальность индексирования: независимо от внутреннего содержимого файла, его формата - ИПС благополучно регистрировала ресурс. Однако по мере накопления объема информации пришлось столкнуться с очевидной проблемой - выйти на релевантный запросу ресурс с помощью скудного набора ключевых слов, входящих в его адрес, становилось все сложнее. Тогда были найдены решения, позволяющие сопровождать отдельные файлы дополнительным текстовым комментарием, который также индексировался, что должно было повысить контрастность отдельного ресурса в ИПС.

С приходом в Интернет Всемирной Паутины и ее основной информационной единицы - Web-страницы, для которой текстовая информация продолжает оставаться наиболее значимой, положение дел изменилось. В силу открытости формата Web-документа для свободного индексирования, началось бурное развитие поисковых машин WWW, делающих акцент теперь уже на внутритекстовом поиске. В то же самое время поиск по элементам URL многими поисковыми системами Паутины первоначально вообще не поддерживался. Сегодня он присутствует на большинстве ИПС и заявлен в проекте стандарта SESP для поисковых систем 1999 года в качестве обязательного атрибута. На данный момент URL-поиск становится мощным, а в некоторых случаях и уникальным инструментом решения поисковых задач. Однако с его применением связан ряд особенностей.

Web -мастер узла постоянно стремиться сократить до разумного минимума длину адресов, сохранив при этом их информативность, стремиться использовать в качестве названий каталогов и файлов короткие, но ёмкие и адекватные ресурсам имена. Вся файловая структура сервера обладает при этом большей стабильностью, чем содержимое отдельных документов, что в какой-то мере определяет область применимости и результативность URL-поиска.

На практике широко применяется поиск ресурсов на основе самого стабильного элемента URL - доменного имени сервера.