数据仓库(Data Warehouse)基础
DW 历史
Inmon: Top-down: 公司只建一个数据仓库。数据集市从数据仓库取数据
Kimball:Bottom-up: 先从数据集市开始,然后聚集成数据仓库。
Enterprise Warehouse-收集所有信息,然后在整个组织循环
Data Mart-数据仓库的一个子集,代表一个商业流程的数据
DW 定义
数据仓库是 subject-oriented, integrated, time-varying, non-volatile 的数据集合用于帮助决策(Inmon)
交易数据的特殊结构拷贝,有利于查询(Kimball)
1. subject-oriented: 只记录与决策系统相关的信息
2. Integrated: 一致性
3. Time Varying:时间记录的准确性
4. Non Volatile:不太会改变原始数据,更多的是增加数据
Data Warehouse现实商业中的定义: 支持决策系统, 分析环境,与存储数据形式无关
为什么要把DW与数据库分开?
1.性能
2.功能
3.目的-更容易分析数据
为什么要数据库?
只有一部分信息需要改变
添加
删除
更新
Normalization
DW与数据库比较
DW的构架
纬度模型(Dimensional Model or Star Schema)
组成-两部分
Fact Table
存储衡量变量
多对多
Dimension Table
存储解释信息
通常非常长
好处
- 简单
- 性能