数据仓库与数据挖掘

数据仓库与数据挖掘1-2

数据仓库与数据挖掘1-2

第二章  数据模型

首先,我们需要了解,数据仓库是基于多维数据模型的,也就是说,数据具有多个维度。

2.1 多维数据集和:

一个多维数据集和R(D,M)包含两类属性: 其中,D={D1,D2,….,Dn},M={M1,M2,….,Mm}。 Di称为维属性,表示决策分析者对主题数据考察的角度。 Mj称为度量属性,描述决策分析者进行分析计算用的数值型数据

2.2 多维数据集和的表示:

  • 星型模型和雪花模型

星形模型:当所有维度表连接到事实表上的时候,整个图就像一个星星,故称之为星型模型。 星型架构是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连,不存在渐变维度,所以数据有一定冗余。因为有冗余,所以很多统计不需要做外部的关联查询,因此一般情况下效率比雪花模型高。

雪花模型:当有多个维度表没有直接连接到事实表上,而是通过其他维度表连接到事实表上时,其图形就像雪花,故称雪花模型。 雪花模型的优点是减少了数据冗余,所以一般情况下查询需要关联其他表。在冗余可接受的前提下使用星型模型。

星型模型和雪花模型的区别在于:维度表是直接连接到事实表还是其他维度表。

2.3多维数据集合上的代数操作:

  • 切片和切块
  • 聚集Aggregate

  • 幂聚集

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注