第一章 数据仓库

数据仓库(Data Warehouse)基础

DW 历史

Inmon: Top-down: 公司只建一个数据仓库。数据集市从数据仓库取数据

Kimball:Bottom-up: 先从数据集市开始,然后聚集成数据仓库。

Enterprise Warehouse-收集所有信息,然后在整个组织循环

Data Mart-数据仓库的一个子集,代表一个商业流程的数据

DW 定义

数据仓库是 subject-oriented, integrated, time-varying, non-volatile 的数据集合用于帮助决策(Inmon)

交易数据的特殊结构拷贝,有利于查询(Kimball)

1. subject-oriented: 只记录与决策系统相关的信息
2. Integrated: 一致性
3. Time Varying:时间记录的准确性
4. Non Volatile:不太会改变原始数据,更多的是增加数据

Data Warehouse现实商业中的定义: 支持决策系统, 分析环境,与存储数据形式无关

为什么要把DW与数据库分开?

1.性能
2.功能
3.目的-更容易分析数据

为什么要数据库?

只有一部分信息需要改变
添加
删除
更新
Normalization

DW与数据库比较

-w749

DW的构架

-w806

纬度模型(Dimensional Model or Star Schema)

组成-两部分

Fact Table

存储衡量变量
多对多
-w221

Dimension Table

存储解释信息
通常非常长
-w212

好处

  1. 简单
  2. 性能