Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Многомерная модель данных

"Многомерный взгляд на данные наиболее характерен для пользователя, занимающегося анализом данных" - это утверждение сегодня стало уже почти аксиомой.

Однако, у, впервые прочитавшего это утверждение, возникают вопросы:

  • что такое многомерное представление?
  • откуда появляется многомерность в трехмерном мире?
  • чем многомерность отличается и чем она лучше ставшего уже привычным реляционного представления?
  • откуда могут появиться люди, мыслящие в четырех и более измерениях, и как это им удается?

Однако, пользователь, занимающийся анализом, сам не замечая того, действительно имеет многомерность мышления. Весь вопрос в том, что понимать под измерением.

Достаточно очевидно, что даже при небольших объемах данных отчет, представленный в виде двухмерной таблицы (Модели компьютеров по оси Y и Время по оси X), нагляднее и информативнее отчета с реляционной построчной формой организации.

Реляционная модель представления данных

Многомерная модель представления данных

Модель Месяц Объем   Июнь Июль Август
Celeron Июнь 12 "Celeron" 12 24 5
Celeron Июль 24 "Pentium" 2 18 -
Celeron Август 5 "Athlon" - 19 -
Pentium Июнь 2        
Pentium Июль 18        
Athlon Июль 19        

Но в любом магазине имеется не три модели товара, а значительно больше (например, 30), и анализ проводится не за три, а за 12 месяцев. В случае построчного (реляционного) представления будет получен отчет в 360 строк (30х12), который займет не менее 5-6 страниц. В случае же многомерного (в данном случае двухмерного) представления будет получена достаточно компактная таблица 12 на 30, которая уместится на одной странице и которую, даже при таком объеме данных, можно реально оценивать и анализировать.

И когда говорится о многомерной организации данных, вовсе не подразумевается то, что данные представляются конечному пользователю (визуализируются) в виде четырех или пятимерных гиперкубов. Это невозможно, да и пользователю более привычно и комфортно иметь дело с двухмерным табличным представлением и двухмерной бизнес-графикой.

При многомерном представление и описании структур данных основными понятиями, с которыми оперирует пользователь и проектировщик в многомерной модели данных, являются:

  • Измерение (Dimension)

Это множество однотипных данных, образующих одну из граней гиперкуба. Измерения играют роль индексов, используемых для идентификации конкретных значений (Показателей), находящихся в ячейках гиперкуба. Наиболее часто используемые в анализе измерения:

    • временные -Дни, Месяцы, Кварталы, Годы;
    • географических - Города, Районы, Регионы, Страны и т.д. В многомерной модели данных
  • Ячейка (Cell)

Это часть данных, получаемая путем определения одного элемента в каждом измерении многомерного массива. Ячейки гиперкуба могут быть пусты или полны. Когда значительное число ячеек куба не содержит данных, говорят, что он "разрежен".

Разреженность (Sparse)

Многомерная база данных называется разреженной, если относительно большой процент ячеек содержит пустые (утраченные) данные. Вполне обычны такие наборы данных, которые содержат 1%, 0.01% и даже меньшую долю возможных данных.

Показатель (Measure)

Иногда вместо термина "Ячейка" используется термин показатель (Measure) - это поле (обычно числовое), значения которого однозначно определяются фиксированным набором измерений.