您的位置：首页 > 博客中心 > 数据库 >

OALP数据库优化之2 – Cube处理优化

时间：2022-03-14 00:49

当我们在OLAP数据库的世界中说起Process的时候，它至少可以分为两类：维度的处理跟Cube的处理，本部分只讨论cube的处理及优化，维度的处理优化会在另一部分讨论。

首先我们应该明确所谓处理(Process)这个概念，它可以简单的理解为将数据从一个或多个数据源加载、搬移到分析服务对象中的过程，对Cube处理来说就是加载到度量值组分区中的过程，所以Cube处理的优化其实归根结底是分区的处理优化。

处理过程简介

如下图所示，分区的处理过程可以分为两步：

Process Report Begin

事件ID为5，它表示所有OLAP数据库相关的处理报告的开始事件

Process Report Current

事件ID为7，它表示所有进度报告当前状态事件。例如，在处理期间，当前报表包含有关被处理的对象（维度、分区、多维数据集等）的处理信息

Process Report End

事件ID为6，它表示所有OLAP数据库相关的处理报告的开始事件

Process Report Error

事件ID为8，它表示所有处理报告错误事件

从我个人的使用情况来说，我一般只使用Process ReportEnd事件，因为所有的事件都是以Begin开始，中间经历Current最后以End或Error结束。因为我使用Profiler只是用来调优而不是找错，所以不需要Error事件；而任何出现在ProcessReport Begin的事件肯定最后会反应在Process Report End事件中(应该是这样的吧？)，所以ProcessReport Begin和Process Report End之间我们只需要Process Report End就可以了；对于ProcessReport Current，本人不是太明白这个事件是干什么的，不过它有一个其他事件无法代替的作用：假如度量值组有1千万数据，AS肯定是没办反一次性都读入内存然后处理的，所以它会每次读取比如10万数据来处理，然后再处理10万直至全部处理完，ProcessReport Current能捕获到现在为止处理的数据行数。

接下来我们要知道的是关于Profiler捕获到的数据都有哪些信息，说白了就是有哪些数据列。我们在此只列出最主要的数据列：

EventSubClass– OLAP数据库处理事件类，下面是一些主要的事件
Process
Merge
Delete
DeleteOldAggregations
Rebuild
Commit
Rollback
CreateIndexes
CreateTable
InsertInto
Transaction
Initialize
Discretize
Query
CreateView
WriteData
ReadData
GroupData
GroupDataRecord
BuildIndex
Aggregate
BuildDecode
WriteDecode
BuildDMDecode
ExecuteSQL
NowExecutingSQL
ExecuteModifiedSQL
Connecting
BuildAggsAndIndexes
MergeAggsOnDisk
BuildIndexForRigidAggs
BuildIndexForFlexibleAggs
WriteAggsAndIndexes
WriteSegment
DataMiningProgress
ReadBufferFullReport
ProactiveCacheConversion
Backup
Restore
Synchronize
TextData– 与事件相关的文本数据，大部分情况下是对事件的一种描述。比如对于Process事件在结束时会描述为“Finishedprocessing the XXX partition”
DatabaseName– 事件发生的数据库
ObjectName& ObjectPath 表示事件发生的对象以及该对象的路径
StartTime– 事件开始时间
Duration- 包含所报告的事件开始到结束的时间长度(只存在于ProcessReport End事件中)
EndTime- 包含所报告事件的结束时间(只存在于ProcessReport End事件中)
IntegerData– 包含与发生的事件关联的整形数据，例如已处理行数的当前计数(只存在于ProcessReport End和Process Report Current事件中)

下面我们以实际的例子来描述一下Profiler到底捕获了什么样的处理数据。对一个只有一个度量值组一个分区的Cube进行处理，Profiler捕获的事件如下：

BuildProcessing Schedule

Cube ProcessBegin

Measure Group Process Begin

PartitionProcess Begin

WriteData for Partition Begin

ExecuteSQL to get data from Source

ReadData Begin

ReadData Current – 到现在为止处理的数据行

ReadData End

WriteData for Partition End

BuildAggregation and Indexes Begin

BuildIndex

BuildAggregate

BuildAggregation and Indexes End

PartitionProcess End

Measure Group Process End

Cube ProcessEnd

处理过程的优化

毋庸置疑地有繁多的优化措施可以帮助我们提升Cube的处理效率，比如通过添加索引提升取元数据的速度，提升IO子系统，排除数据库锁等，但是在我们试图应用这些细的优化措施之前，我们应该首先确保我们应用了对Cube处理作用最大的技术：分区+增量处理。

毋庸置疑地有繁多的优化措施可以帮助我们提升Cube的处理效率，比如通过添加索引提升取元数据的速度，提升IO子系统，排除数据库锁等，但是在我们试图应用这些细的优化措施之前，我们应该首先确保我们应用了对Cube处理作用最大的技术：分区+ 分区合并+ 增量处理。

恰当的分区是提升查询机处理效率最有效的方式，假如我们一个销售事实表中包含了近10年的近亿数据，并且还在以每天几万条数据的方式在增长，那如果该度量值组只有一个分区，我们每天不得不对该度量值组做FullProcess，也就是每天都需要处理上亿的数据；但是如果我们是一天一个分区，那么我们每天只需要处理几万数据就可以了。所以分区让我们可以将历史的、固定不变的数据与最近的数据隔离开来，这样就只需要处理最近的少量数据就可以了。

不过实际中每天一个分区会造成管理的混乱，所以有时候我们可以只创建少量的分区，比如只有两个分区，一个表示历史分区，一个表示当前月数据的分区，这样每天我们只在当前月分区上做增量处理(给只处理一天的数据差不多，只是多了Merge的花费)，然后在下月的第一天我们将当前月分区的数据Merge到历史分区中。

如果每天的数据量不是特别大(比如千万甚至上亿)，该方式能够满足绝大部分的处理性能需求。

如果应用了上面简单的处理方式后还不能满足处理性能的要求，那么我们可能需要参考下面一些比较琐碎的优化方式：

源数据端的优化

所谓数据源端的优化其实就是关系型数据库的优化以及OLAP分区所对应的数据查询语句的优化，这主要有以下的方式：

如果可能的话为分区查询语句构建恰当的索引，不过我们必须同时考虑到索引对数据插入的负面影响
是每个度量值组的分区对应于至多一个关系型数据库表的分区，这样每个分区的数据查询语句只会访问一个表分区
尽量从分区的数据查询语句中去除JOIN，被JOIN得出的列应该被物理化到事实表中
如果有页面切分，我们可以重构索引来提升填充因子，同时可以采用数据压缩来降低IO
通过使用NOLOCK来降低数据库锁开销
事实表的设计遵循以下的最优设计

Surrogatekeys	tinyint, smallint, int, bigint
Datekey	int inthe format yyyyMMdd
Integermeasures	tinyint, smallint, int, bigint
Numericmeasures	smallmoney, money, real, float (Note that decimaland vardecimal require more CPUpower to process than money and float types)
Distinctcount columns	tinyint, smallint, int, bigint (If your count column is char, consider either hashing or replacing with surrogate key)

OLAP端优化

待续….

处理选项的优化

待续….

< 微软SQL Server第三方工具使用分享

数据库锁的粒度 >

相关推荐

xshell怎么连接数据库

MySQL数据库设计规范（仅供参考）

SQLServer字符串查找(判断字符串是否含数字或字母)

MySQL源码安装5.7-CentOS7

数据库常用架构和同步工作原理

Apache HBase 1.7.1 发布，分布式数据库

SQL Server 数据库分离和附加

sqlSugar 简单封装及使用案例

【MySQL】-索引类型

mysql的数据类型详解

电脑软件

飞豆微信多开助手 V2.0.0 官方安装版
2024-08-13

亚熙专属骂人工具 V1.0 绿色版
2024-08-13

迈迪通2018 V2.2.23 电脑版
2024-07-31

Whalebird V2.5.3 绿色免费版
2024-07-31

Teampel(团队协作软件) V5.0.92 多国语言安装版
2024-06-26

东方秀 V1.0 免费安装版
2024-06-26

OI语音 V1.1 官方安装版
2024-06-06

TQ云呼叫中心 V9.48.0 官方安装版
2024-06-06

火信 V1.3.8 官方安装版
2024-04-08

百玲语音智能聊天机器人 V1.0 绿色版
2024-04-08

视酷即时通讯 V2.5 官方安装版
2024-04-08

106短信群发平台 V1.0 绿色版
2024-04-01

帮我吧服务管理平台(帮我吧客户端) V5.3.7.0 官方安装版
2024-04-01

南山对讲 V1.0.2 绿色版
2024-03-18

Zoom视频会议 V5.13.7.12602 官方安装版
2024-03-18

可访 V2.2.55 官方安装版
2024-02-22

热门排行

1抖音字幕竖起来教程

2在农行掌上银行中进行注销的详细步骤

3智学网APP查看成绩的操作流程

4微信视频号私信关闭教程

5小红书升级更新的步骤讲解

6OPPOpad与手机跨屏互动的方法

7在智行火车票里进行退票的操作流程

8在平安金管家中绑定银行卡的详细讲解

9荣耀80gt缺点和不足

10携程旅行中订高铁票的详细操作方法

今日推荐

心动相机高清版

版本：v1.0.0.0611

大小：32.14MB

日期：2024-10-05

glaze安卓版

版本：v2.3.4

大小：12.81MB

日期：2024-10-05

逗拍民族服装特效正式版

版本：v10.1.0

大小：42.36MB

日期：2024-10-05

face甜甜相机正式版

版本：v1.3

大小：54.41MB

日期：2024-10-05

百变相机高清版

版本：v2.2.1

大小：17.71MB

日期：2024-10-05

萌印相机正式版

版本：vV1.02

大小：29.45MB

日期：2024-10-05

热门手游

古中国建造者官方版

版本：v1.0

大小：97.55MB

日期：2024-10-05

人类帮派跌落梦境完整版

版本：v1.0

大小：73.08MB

日期：2024-10-05

中华时代建设者正式版

版本：v1.0

大小：42.92MB

日期：2024-10-05

落樱2千乐之章官方版

版本：vAndroidM3839First_1.0.44

大小：913.59MB

日期：2024-10-05

逆袭之星途闪耀2官方版

版本：v1.0.0

大小：712.9MB

日期：2024-10-05

我的公众号完整版

版本：v1.0.3

大小：30.15MB

日期：2024-10-05