Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Введение в поисковые системы

Наше время называют информационным, и в последние годы масса людей уже почувствовала это, благодаря сформировавшейся коммуникационной инфраструктуре и, в немалой степени, технологии WWW. Для всех крупных организаций и огромного множества более мелких вопрос обеспечения удобного и свободного доступа к своей информации становится в ряд наиболее важных. Во всемирной паутине содержится огромное количество информации для ознакомления с которой не хватит жизни (и не одной).

Продолжается информационный бум – растут количество и объемы серверов в WWW, увеличиваются мощности локальных сетей. В современном мире большинству специалистам ежедневно приходится иметь дело с большими объемами текстов – это и новости, и официальные документа, и подшивки газет в электронном виде, и электронная почта, и WEB-страницы, и документация.

Объем текстов на русском языке в Интернет к середине 2000 г. превысил 180 Гб. Эти тексты размещены на более чем 17 млн. уникальных Web-страниц. В этой ситуации как никогда ранее важна роль русскоязычных ИПС, так как по мере развития Интернет вероятности существования нужной информации возрастает, а возможность ее нахождения уменьшается. Человечество столкнулось с ситуацией, при которой старые методы работы с информацией стали неэффективными, поскольку не обеспечивают быстрой реакции на огромный поток информации. Сегодня пользователи во всем мире страдают от несовершенства имеющихся поисковых средств.

Информация, ранее существовавшая лишь на бумаге, и поэтому, доступная всем, кому она могла быть полезна, но на поиск которой уходили огромное количество человеко-часов, трудоемкое составление аннотаций на научные и технические статьи - все это постепенно уходит в прошлое, уступая свое место серверам WWW, полнотекстовым поисковым системам и реляционным СУБД. Информацию, помещаемую на WWW, можно условно разделить на:

  • представленную в виде гипертекстов (обычные файлы в формате HTML);

  • размещенную в различных базах данных.

В первом случае речь идет о целом программном конвейере, позволяющем более чем на 90% уменьшить затраты ручного труда при изменении и пополнении материала. При этом автоматически соблюдается общий художественный стиль и т.д. В случае с базами данных информация уже организована, накоплена и обновляется с помощью традиционных приложений. Здесь речь идет о дополнительной возможности обращаться к данным из Internet/Intranet, а именно посредством универсального клиентского приложения просмотра - браузера - Netscape Navigator или Microsoft Explorer .

World Wide Web - это клиент-серверная система предоставления информации в гипермедийной форме. Средой Web является язык HTML (Hypertext Markup Language) - это язык разметки гипертекста и описания страниц, указывающий программе просмотра на пользовательском ПК, как отображать текст и графику, являющиеся содержимым данного узла Web. Программа просмотра Web - это интерпретатор HTML, она запрашивает и получает HTML-кодированные документы у сервера Web и отображает информацию в соответствии с имеющимися в коде командами HTML.

Серверный компонент этой клиент-серверной системы - компьютер с программным обеспечением, работающим в соответствии с протоколом передачи гипертекста http (hypertext transport protocol). В ответ на запрос сервер Web посылает запрашиваемые файлы пользовательским программам просмотра Web.

В большинстве случаев сервер Web передает по одной странице за один раз. (Конечно, эта страница может быть гораздо длиннее чем высота экрана дисплея.) Документы представляют собой гипертекст как в справочной системе Windows. Некоторые ключевые слова и изображения являются гиперссылками.

По ссылке можно оказаться на совершенно другом сервере. Наличие такого вида ссылок превращает Web по существу в одну гигантскую систему управления документами. Обычно программа просмотра выделяет гиперссылки подчеркиванием и цветом, отличным от цвета остального текста. Если щелкнуть по гиперссылке, программа просмотра выдает запрос на получение документа, на который данная ссылка указывает. Этот запрос обслуживает сервер Web . На жаргоне Web каждый запрос файла (текстового документа или графического документа) называется hit - обращение.