Автор Анна Евкова
Преподаватель который помогает студентам и школьникам в учёбе.

Технологии хранилищ данных (Обзор технологии хранилищ данных, подходов и имеющихся решений.)

Содержание:

ВВЕДЕНИЕ

Актуальность темы. Сегодня, практически в любой организации сложилась хорошо всем знакомая ситуация - информация вроде бы где-то и есть, её даже слишком много, но она неструктурированна, несогласованна, разрознена, не всегда достоверна, её практически невозможно найти и получить. Почему она возникла? Дело в том, что, во-первых, основное назначение таких систем - оперативная обработка данных и отражение только текущего состояния и построить аналитические системы на их основе чрезвычайно сложно. Во- вторых обычно в любой организации функционирует несколько различных, несвязанных или слабо связанных систем, а выгруженные из них данные, как правило, имеют различную структуру, формат, стандарты представления.

Поэтому является весьма актуальным рассмотрение проблем интеграции, согласованности и достоверности информации. Именно на решение этих задача и на преодоление ситуации «отсутствия информации при ее наличии и даже избытке» и нацелена концепция Хранилищ Данных (Data Warehouse).

Цель работы. Повышение эффективности методов хранения информации предназначенной для аналитической обработки.

Объект исследования. Технология Хранилищ Данных.

История развития. Автором концепция Хранилищ Данных является W.H. Inmon, который изложил в 1992 году предложения по организации данных, которые затем постепенно переросли в технологию Хранилищ Данных (Data Warehouse). Эта идея была дополнена в 1993 году концепцией оперативной аналитической обработки данных (OLAP) Э.Кодда, и в результате их развития за прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ данных, предназначенных для поддержки принятия решений и аналитических исследований.

Недостатки объекта исследования Нет общих подходов к организации ХД. Высокая стоимость внедрения технология. Высокая сложность внедрения технологии. Все это препятствует широкому распространению этой технологии.

Практическая ценность. Результаты работы позволили:

  • получить возможность проводить нерегламентированный динамический анализ
  • сократить время получения и обработки статистической отчетности.

Тема 1. Обзор технологии хранилищ данных, подходов и имеющихся решений.

1.2 Концепция хранилищ данных.

Хранилище Данных (Data Warehouse) – предпредметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный для целей поддержки управления.

В основе концепции Хранилищ Данных лежат две основополагающие идеи:

  • Интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т.д.) в едином хранилище. В процессе интеграции должно выполняться согласование рассогласованных детализированных данных и, возможно, их агрегация. Данные могут поступать из исторических архивов корпорации, оперативных баз данных, внешних источников.
  • Разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.

Цель концепции ХД – прояснить отличия в характеристиках данных в операционных и аналитических системах (таблица 1), определить требования к данным (таблица 2), помещаемым в целевую БД Хранилища Данных, определить общие принципы и этапы ее построения.

Наиболее распространенной на сегодня ошибкой является попытка найти в концепции Хранилищ Данных некий законченный рецепт реализации информационной аналитической системы. Тем более, это не некий готовый программный продукт или некое готовое универсальное решение.

Предметом концепции ХД служат сами данные. Данные рассматриваются как самостоятельный объект предметной области, порожденные в результате функционирования ранее созданных информационных систем.

Для правильного понимания данной концепции необходимо уяснение следующих принципиальных моментов:

    • Концепция Хранилищ Данных - это не концепция анализа данных, скорее, это концепция подготовки данных для анализа.
    • Концепция Хранилищ Данных не предопределяет архитектуру целевой аналитической системы. Она говорит о том, какие процессы должны выполняться в системе, но не о том, где конкретно и как эти процессы должны выполняться.

Концепция Хранилищ Данных предполагает не просто единый логический взгляд на данные организации (как иногда это трактуется), а реализацию единого интегрированного источника данных.

1.3 Свойства хранилищ данных.

Подробнее опишем – какими свойствами должно обладать содержимое ХД:

  1. Предметная ориентация
  2. Интегрированность данных
  3. Инвариантность во времени
  4. Неразрушаемость - cтабильность информации
  5. Минимизация избыточности информации

1. Предметная ориентация

В отличие от БД в традиционных OLTP-системах, где данные подобраны в соответствии с конкретными приложениями, информация в DW ориентирована на задачи поддержки принятия решений.. Для системы поддержки принятия решений требуются "исторические" данные - факты продаж за определенные интервалы времени. Хорошо спроектированные структуры ХД отражают развитие всех направлений бизнеса компании во времени.

Поскольку в технологии ХД объекты данных выходят на первый план, то особые требования предъявляются к структурам БД, используемым для создания информационных хранилищ. Принципиально отличаются и структуры баз данных для OLTP сиитем и систем ХД. Во втором случае в них помещается только та информация, которая может быть полезной для работы систем поддержки принятия решений (DSS).

2. Интегрированность данных

Данные в информационное хранилище поступают из различных источников, где они могут иметь разные имена, атрибуты, единицы измерения и способы кодировки. После загрузки в ХД данные очищаются от индивидуальных признаков, т. е. как бы приводятся к общему знаменателю. С этого момента они представляются пользователю в виде единого информационного пространства.

Если в четырех разных приложениях пол клиента кодировался четырьмя различными способами, то в информационном хранилище будет использована единая для всех данных схема кодировки (например, f,m).

3. Инвариантность во времени

В OLTP-системах истинность данных гарантирована только в момент чтения, поскольку уже в следующее мгновение они могут измениться в результате очередной транзакции. Важным отличием ХД от OLTP-систем является то, что данные в них сохраняют свою истинность в любой момент процесса чтения.

В OLTP-системах информация часто модифицируется как результат выполнения каких-либо транзакций. Временная инвариантность данных в ХД достигается за счет введения полей с атрибутом "время" (день, неделя, месяц) в ключи таблиц. В результате записи в таблицах ХД никогда не изменяются, представляя собой снимки данных, сделанные в определенные отрезки времени. В ХД содержатся как бы моментальные снимки данных. Каждый элемент в своем ключе явно или косвенно хранит временной параметр, например день, месяц или год.

4. Неразрушаемость - cтабильность информации

В OLTP-системах записи могут регулярно добавляться, удаляться и редактироваться. В ХД, как следует из требования временной инвариантности, однажды загруженные данные теоретически никогда не меняются. По отношению к ним возможны только две операции: начальная загрузка и чтение (доступ). Это и определяет специфику проектирования структуры базы данных для ХД. Если при создании OLTP-систем разработчики должны учитывать такие моменты, как откаты транзакций после сбоя сервера, борьба с взаимными блокировками процессов (deadlocks), сохранение целостности данных, то для DW данные проблемы не столь актуальны - перед разработчиками стоят другие задачи, связанные, например, с обеспечением высокой скорости доступа к данным.

5. Минимизация избыточности информации

Поскольку информация в DW загружается из OLTP-систем, возникает вопрос, не ведет ли это к чрезмерной избыточности данных? Не обязательно. И это объясняется следующими причинами:

  • при загрузке информации из OLTP – систем в ХД данные фильтруются. Многие из них вообще не попадают в ХД, поскольку лишены смысла с точки зрения использования в системах поддержки принятия решений;
  • информация в OLTP-системах носит, как правило, оперативный характер, и данные, потеряв актуальность, удаляются. В ХД, напротив, хранится историческая информация, и с этой точки зрения перекрытие содержимого ХД данными OLTP-систем оказывается весьма незначительным;
  • в ХД хранится некая итоговая информация, которая в базах данных OLTP-систем вообще отсутствует;
  • во время загрузки в ХД записи сортируются, очищаются от ненужной информации и приводят к единому формату. После такой обработки это уже совсем другие данные.

1.4 Технологии и средства реализации.

Аналитические системы всегда предъявляли существенно более высокие, чем традиционные СОД, требования к аппаратному обеспечению и программному обеспечению. И, приступая к построению ХД, следует учитывать необходимость разрешения таких вопросов, как:

  1. неоднородность программной среды;
  2. распределенность;
  3. защита данных от несанкционированного доступа;
  4. построение и ведение многоуровневых справочников метаданных;
  5. эффективное хранение и обработка очень больших объемов данных.

1.5 Подходы и имеющиеся решения.

Data Warehousing Framework описывает связи между различными компонентами, используемыми в процессе создания, использования и администрирования хранилища данных. Ядром Data Warehousing Framework является набор продуктивных технологий, включающий в себя уровень транспортировки данных (OLE DB) и интегрированный репозитарий метаданных. Эти две технологии обеспечивают интегрируемость множества продуктов и инструментальных средств, используемых в процессе построения хранилища данных.

Создание хранилища данных требует применения набора инструментальных средств для описания логической и физической структуры источников данных и мест их назначения в хранилищах или киосках данных. Оперативные данные должны пройти этап очистки и преобразования перед помещением в хранилище или киоск данных, чтобы соответствовать сформированным на этапе проектирования спецификациям. Такой процесс поэтапной обработки данных на практике часто бывает многоуровневым, особенно в архитектурах, использующих общекорпоративные хранилища, но на приведенной выше схеме он изображен для экономии места в упрощенном виде.

Для обеспечения доступа к информации хранилища данных применяются инструменты конечных пользователей. В идеальном случае, пользовательский доступ осуществляется через некоторое средство работы с каталогами, предоставляющее возможность поиска именно тех данных, которые нужны пользователю для решения вопросов бизнеса, а также обеспечивающее необходимый уровень защиты, лежащий между пользователями и серверными системами.

Центром интеграции метаданных ("данных о данных"), совместно используемых разнообразными инструментами, участвующими в процессе построения хранилища данных, служит репозитарий Microsoft Repository. Эти совместно используемые метаданные обеспечивают прозрачную интеграцию множества инструментальных средств различных производителей, устраняя необходимость в специализированных интерфейсах между каждой парой продуктов.

Тема 2.  Проектирование Хранилищ Данных.

2.1 Планирование и проектирование.

Этот этап включает в себя следующие задачи:

Подготовка проекта. Включает в себя составление проектного соглашения. Здесь определяются цели ХД. Составляется календарный график выполнения работ.

Сбор требований. Здесь происходит уяснение целей бизнеса. Определяются предметные области. Составляется предварительная библиотека запросов.

Определение модели данных. Составляется модель данных ХД «звезда». Определяются объекты, отношения, элементы данных, спецификации защиты. Здесь определяем измерения и меры, а также иерархию измерений.

2.2. Разработка.

Этот этап включает в себя следующие задачи:

Построение БД Необходимо оценить неоходимый размер.

Построение, тест процесса переноса (загрузки) данных Определяем средства доступа к источнику, приемнику. Определение видов трансформации данных.

Прототипы запросов и отчетов

Оценка проекта. Здесь проводится анализ результатов.

Далее если оценка удовлетворительная, то переходим к следующему этапу. Если нет, то возвращаемся на один из предыдущих этапов.

Процедура начальной загрузки данных. Выполнение доступа к источникам, преобразование данных: унификация, изменение структуры, проверка на корректность и непротиворечивость, очистка, агрегирование.

Заключение.

  1. Был проведен анализ организации хранилищ данных
  2. Проведена оценка требуемого объема памяти и быстродействия в аналитических системах в зависимости от организации данных.
  3. Была разработана технология проектирования Хранилищ Данных
  4. Разработан алгоритм создания Хранилища Данных
  5. Апробация проведена в ведущей организации
  6. Тестовый проект выполненн в среде Windows 2000, на базе SQL Server 7.0 и MS Office 2000.

Список используемой литературы.

  1. Inmon W.H. Building the Data Warehouse // Wellesley, MA.: QED Publishing Group, 1992
  2. Codd E.F., Codd S.B., Salley C.T., E.F.Codd & Associates. Providing OLAP
    (On-Line Analytical Processing) to User-Analysts: An IT Mandate. - 1993.
  3. DePompa B. Основные тенденции развития информационных хранилищ
    //COMPUTERWORLD MOSCOW. – 1996. - №16
  4. DePompa B. Хотите получить прибыль - разберитесь со своими данными.
    // COMPUTERWORLD MOSCOW. – 1997. - №13
  5. Microsoft Corporation Компьютерные сети. Учебный курс. – М. Русская
    редакция,1997. – 696 с.
  6. Raden N.Моделирование информационных хранилищ //
    COMPUTERWORLD MOSCOW. – 1996. - №16
  7. Артемов Д., Погульский Г., Альперович М. Microsoft SQL Server 7.0 для профессионалов. – М.: Русская редакция, 1999. – 576 с.
  8. Баронов В.В. Автоматизация управления предприятиям. – М.: ИНФРА-М, 2000. – 239 с.
  9. Бритов П.А., Липчинский Е.А. Практика построения Хранилищ Данных:
    Система SAS //СУБД. - 1998. - №4-5
  10. Буров К. Обнаружение знаний в хранилищах данных // Открытые
    Системы. - 1999. - №5-6
  11. Ганьон Габриэль Хранилища данных: краткий обзор // PC Magazine/RE. –
    1999. - №10
  12. Гарбус Дж., Паскузи Д., Чанг Э. Database Design on SQL Server 7. Сертификационный экзамен – экстерном (экзамен – 70-029). – СПб.: Питер, 2000. – 560 с.
  13. Дейт К. Дж. Введение в системы баз данных. – К : Диалектика, 1998. – 784 с.
  14. Джулия Борт Витринам данных не мешает похудеть // Директору
    информационной службы. - 1999
  15. Зельцер A. Информационные хранилища в сетях предприятий
    //COMPUTERWORLD MOSCOW. – 1995. - №12
  16. Иванов П. Индивидуальный маркетинг на плечах информационных
    хранилищ // СomputerWeekly. – 1998. - №26-27
  17. Калянов Г.Н. Консалтинг при автоматизации предприятия. – М.: СИНТЕГ, 1997. – 316 с.