大数据SQL优化：原理与实践

陈鹤杨国栋

更新时间：2025-02-10 16:29:49

最新章节：封底

封面

版权信息

内容简介

“数据之力技术丛书”编委会

前言

认知篇

第1章概述

1.1 大数据的发展历程

1.2 大数据为什么选用SQL

1.3 大数据SQL的弊端

1.4 为什么要调优

原理篇

第2章 SQL的本质

2.1 执行过程提炼

2.2 抽象语法树

2.3 SQL抽象语法树

2.4 Hive执行原理

2.5 Spark执行原理

2.6 Flink执行原理

实践篇

第3章任劳任怨的引擎

3.1 基于规则优化概述

3.2 基于代价优化的简析

3.3 两种优化的局限性

第4章调优解决方案

4.1 理解业务，选择需求

4.2 利用执行计划

4.3 利用统计信息

4.4 利用日志

4.5 利用分析工具

4.6 等价重写思想

第5章结构与参数调优

5.1 参数调优

5.2 利用Hint

5.3 合理的表设计

5.4.存储调整

第6章子查询优化案例解析

6.1 案例分享

6.2 深度剖析

第7章连接优化案例解析

7.1 案例分享

7.2 深度剖析

第8章聚合优化案例解析

8.1 分而治之

8.2 两阶段聚合

8.3 多维聚合转UNION

8.4 异常值过滤

8.5 去重转为求和/计数

8.6 使用其他结构去重

8.7 善用标签

8.8 避免使用FINAL

8.9 转为二进制处理

8.10 行列互置的处理办法

8.11 炸裂函数中的谓词下推

8.12 数据膨胀导致的任务异常

8.13 用MAX替换排序

第9章 SQL优化的“最后一公里”

9.1 谨慎操作NULL值

9.2 决定性能的关键—Shuffle

9.3 数据倾斜的危害

9.4 切莫盲目升级版本

9.5 引擎自优化的利弊

第10章实战案例分享

10.1 某电商业务营销活动实时指标优化方案

10.2 某金融业务风控行为实时指标优化方案

10.3 某银行监管项目实时指标优化方案

10.4 某内容平台数仓建设历程

10.5 订单冷备数据查询高可用方案

10.6 浅谈实时数仓建设

推荐阅读

作者简介

封底

更新时间：2025-02-10 16:29:49