Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Пространственно-векторное представление базы данных

Пространственно-векторная модель позволяет получить результат, хорошо согласующийся с запросом. Причем документ может оказаться полезным, даже не имея 100% соответствия. В найденном документе может вовсе не оказаться одного или нескольких слов запроса, но при этом его смысл будет запросу соответствовать.

Достигается такой результат путем размещения всех документов БД в воображаемом пространстве (это может быть многомерное пространство, представить которое весьма трудно). Координаты каждого документа зависят от структуры терминов, в нем содержащихся (от весовых коэффициентов, положения внутри документа, от расстояния между терминами и т.п.). В результате окажется, что документы с похожим набором терминов разместятся в пространстве ближе друг к другу.

Предположим, мы хотим найти документы, касающиеся постройки моделей кораблей в бутылках. Составим запрос, например, такой: корабли в бутылках . Получив его, поисковая система удалит лишние слова, выделит термины и вычислит вектор запроса в пространстве документов. Установив некоторый диапазон соответствия, система выдаст документы. Эта область непременно захватит документы, повествующие о необычных увлечениях - хобби, классическом судомоделизме и т.п. В них может вовсе не оказаться некоторых слов запроса, однако документы останутся достаточно релевантными. Термины, относящиеся к вину, будут группироваться в другой точке пространства, и запрос их не затронет - "уравниловку" терминов удалось преодолеть. В пространственно-векторной модели термины взаимодействуют друг с другом, что повышает релевантность документов. Понятно, что пространственно-векторная модель лучше воспринимает запросы, составленные на естественном языке, чем матричная.

К сожалению, догадаться, по какой схеме работает та или иная поисковая система Интернет, очень трудно. Как правило, создатели держат ее в секрете. Выше изложены в простой форме лишь основы работы поисковой системы. В реальности механизм индексации и структура базы данных значительно сложнее. Однако полученных знаний уже достаточно, чтобы попытаться выработать оптимальную стратегию поиска информации в сети Интернет.