您的位置：首页 > 博客中心 > 数据库 >

sparkSQL1.1入门之九：sparkSQL之调优

时间：2022-03-14 01:27

spark是一个快速的内存计算框架；同时是一个并行运算的框架。在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的Amdahl定理。木桶原理又称短板理论，其核心思想是：一只木桶盛水的多少，并不取决于桶壁上最高的那块木块，而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上，系统的最终性能取决于系统中性能表现最差的组件。例如，即使系统拥有充足的内存资源和CPU资源，但是如果磁盘I/O性能低下，那么系统的总体性能是取决于当前最慢的磁盘I/O速度，而不是当前最优越的CPU或者内存。在这种情况下，如果需要进一步提升系统性能，优化内存或者CPU资源是毫无用处的。只有提高磁盘I/O性能才能对系统的整体性能进行优化。 gxlsystem.com,布布扣
Amdahl定理，一个计算机科学界的经验法则，因吉恩·阿姆达尔而得名。它代表了处理器平行运算之后效率提升的能力。并行计算中的加速比是用并行前的执行速度和并行后的执行速度之比来表示的，它表示了在并行化之后的效率提升情况。阿姆达尔定律是固定负载（计算总量不变时）时的量化标准。可用公式： gxlsystem.com,布布扣
这时大家就应该明白了，要跑完这200个Task就要跑200/3=67批次。如何减少运行的批次呢？那就要尽量提高查询任务的并行度。查询任务的并行度由两方面决定：集群的处理能力和集群的有效处理能力。

想要获取更好的表达式查询速度，可以将spark.sql.codegen设置为Ture；
对于大数据集的计算结果，不要使用collect() ,collect()就结果返回给driver，很容易撑爆driver的内存；一般直接输出到分布式文件系统中；
对于Worker倾斜，设置spark.speculation=true 将持续不给力的节点去掉；
对于数据倾斜，采用加入部分中间步骤，如聚合后cache，具体情况具体分析；
适当的使用序化方案以及压缩方案；
善于利用集群监控系统，将集群的运行状况维持在一个合理的、平稳的状态；
善于解决重点矛盾，多观察Stage中的Task，查看最耗时的Task，查找原因并改善；

相关推荐

电脑软件

热门排行

今日推荐

哈兔中文免费版

版本：v1.0.2

大小：43.26MB

日期：2024-10-07
惠家教完整版

版本：1.0.8

大小：3.24MB

日期：2024-10-06
金箍棒英语官方版

版本：10.0

大小：8.44MB

日期：2024-10-06
趣味校园在线版

版本：1.0.0

大小：98.09MB

日期：2024-10-06
学习猫官方版

版本：2.1.1

大小：12.43MB

日期：2024-10-06
暑假作业大师官方版

版本：1.0.0

大小：33.86MB

日期：2024-10-06

热门手游

冰火女孩hot run正式版

版本：v0.1

大小：56.34MB

日期：2024-10-06
双人冬运会正式版

版本：v1.0.0

大小：32.7MB

日期：2024-10-06
雪山冒险破解版

版本：v1.195

大小：72.66MB

日期：2024-10-06
篮球战役安卓版

版本：v2.3.2

大小：53.24MB

日期：2024-10-06
绿茵传奇破解版

版本：v4.2.9

大小：87.17MB

日期：2024-10-06
星级餐厅烹饪内测版

版本：v3.0.0

大小：100.18MB

日期：2024-10-06