Сейчас на сайте
Сейчас на сайте 0 пользователей и 0 гостей.

Corporate Information Factory, Корпоративное хранилище данных

Когда-то этот подход был известен под названием классического ХД ( Enterprise Data Warehouse , EDW). Корпоративное ХД является широко распространённым и уникальным репозиторием информации предприятия. Среда Хранилища предназначена только для чтения и состоит из детальных и агрегированных данных, которые полностью очищены и интегрированы; кроме того, в нем хранится обширная и детальная история данных на уровне транзакций. С точки зрения этого архитектурного решения ХД реализует свои функции, прежде всего, через подмножество зависимых Витрин данных.

Корпоративное ХД - хранилище данных - это:

  • проект корпоративного масштаба, охватывающий все отделы и обслуживающий нужды всех пользователей корпорации
  • не механическая коллекция Витрин Данных, а физически целостный объект.

Работа такого Хранилища начинается со скоординированного извлечения данных из источников. После этого загружается реляционная база данных с третьей нормальной формой, содержащая атомарные данные. Получившееся нормализованное ХД используется для того, чтобы наполнить информацией дополнительные репозитории презентационных данных, т.е. данных, подготовленных для анализа. Эти репозитории, в частности, включают специализированные Хранилища для изучения и "добычи" данных ( Data Mining ), а также Витрины Данных.

Реляционная база данных

Реляционная база данных - это совокупность отношений, содержащих всю информацию, которая должна храниться в базе. Физически это выражается в том, что информация хранится в виде двумерных таблиц, связанных по ключевым полям. В основе этих БД лежит реляционная модель, разработанная англо-американским ученым Эдгаром Коддом в 1960-70 гг.

При таком сценарии конечные Витрины данных создаются для обслуживания бизнес-отделов или для реализации бизнес-функций и используют пространственную модель для структурирования суммарных данных. Атомарные данные остаются доступными через нормализованное ХД. Очевидно, что структура атомарных и суммарных данных при таком подходе существенно различается.

Пространственная модель - dimensional model

Пространственная модель - это одна из моделей ХД, в которой данные организованы не по третьей нормальной форме, а в виде тематических таблиц, каждая из которых содержит характеристику отдельных категорий информации ( dimensions ). Основная цель пространственной модели - минимизировать время выполнения запроса, поэтому допускается денормализация данных. С этой же целью данные группируются вокруг центральной задачи (или вопроса), которую придется выполнять наиболее часто. Центральная таблица связана со всеми описательными таблицами, но последние напрямую не связаны между собой (так называемая архитектура "звезда").

Отличительные характеристики подхода Билла Инмона к архитектуре корпоративного ХД - хранилища данных :

  • использование реляционной модели организации атомарных данных и пространственной - для организации суммарных данных
  • использование итеративного или "спирального" подхода при создании больших ХД, т.е. "строительство" не сразу, а по частям. Это позволяет при необходимости вносить изменения в небольшие блоки данных или программных кодов и избавляет от необходимости перепрограммировать значительные объемы данных в ХД. То же самое можно сказать и о потенциальных ошибках: они также будут локализованы в пределах сравнительно небольшого массива без риска испортить все ХД
  • использование третьей нормальной формы для организации атомарных данных, что обеспечивает высокую степень детальности интегрированных данных и, соответственно, предоставляет корпорациям широкие возможности для манипулирования ими и изменения формата и способа представления данных по мере необходимости

Достоинства архитектуры корпоративного хранилища данных

  • непротиворечивость информации.
  • один набор процессов извлечения и бизнес-правил.
  • общая семантика.
  • централизованная, управляемая среда.
  • легко создаваемые и наполняемые витрины данных.
  • единый репозиторий метаданных.

Недостатки такого архитектурного решения ХД

  • реализация требует больших затрат.
  • высокая ресурсоемкость.
  • потребность в системах и ресурсах в масштабе всего предприятия.
  • рискованный сценарий ("все поставлено на карту").