count(distinct())效率优化

最新推荐文章于 2024-03-15 23:35:11 发布

jerry-89

最新推荐文章于 2024-03-15 23:35:11 发布

阅读量2.8w

点赞数 8

分类专栏： SQL优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eagle89/article/details/108621735

版权

SQL优化专栏收录该内容

23 篇文章 6 订阅

订阅专栏

如何提升自身sql效率，更快得到想要的数据，是每一个使用sql的同学都需要学习和关注的事情。

sql作为面向大众的数据提取工具，除了研发、数据分析师，产品经理及业务运营同学也都有应用需求。只要sql无语法错误，保持等待，或长或短都是可以输出结果的。但是在数据量庞大或数据逻辑复杂时，或碰上线上资源紧张，或者好不容易等了3小时、结果发现数据有点异常需要修改后重跑，不知道有没有同学有相同的经历。

低效是每位同学都不乐见的，而避免这个问题就要求我们学习优化sql的方法，从而减少自己等数的焦虑时光。

而其中最常见的低效sql，就是count(distinct)。

故本文，就来结合本人学习及自身实践经验，给大家几点优化的建议，并配上实际效率以供参考。

常规的count(distinct)通常都跟着group by一起进行。

示例如下：

select

b.name,

count(distinct a.user_id)

from table_a a

join table_b b on a.dashboard_id = b.id

group by name

order by count desc

常规优化点如下：

1.先聚集，后join。

具体指先将表内的内容进行简化和聚集计算，join是基于一层聚集以后再进行的操作

如下：

就是先将table_a按照dashboard_id进行了一次聚集，后续的join关联上name即可

select

b.name,

new_a.ct

from table_b as b

join (

select

dashboard_id,

count(distinct user_id) as ct

from table_a as a

group by dashboard_id

) as new_a

on new_a.dashboard_id = b.id

order by new_a.ct desc

2.缩小group计算的数据集，提前对数据表进行限制、处理；

先做处理，如下：

就是先对a表中每一个user_id进行distinct，然后在上层计数。即把count和distinct拆成两步走。

*注意，这点尽量选择关联id与去重字段关系为1:n 且n越大效率越高。当数据大多为1:1 这一步优化效率不明显

select

b.name,

log_counts.ct

from table_b as b

join (

select distinct_a.dashboard_id,

count(1) as ct

from (

select distinct dashboard_id, user_id

from table_a as a

) as distinct_a

group by distinct_a.dashboard_id

) as log_counts

on log_counts.dashboard_id = b.id

order by log_counts.ct desc

同时此点，还可以在join条件中添加多个限制条件，使匹配上的数据字段更少，缩小数据集，提高数据处理效率。如join on 条件1 and 条件2 and 条件3）

实际用例：

1. 使用最基本的count(distinct())搭配group by组合耗时9.85s

2.在left_join中添加多层and条件，耗时9.81s；收效不明显

3.调整为先聚集后，耗时2.45s，直接缩减为原始时间的25%，减少3/4的时间消耗。

4.最后缩小数据集，提前限制处理耗时2.74s

此处时间消耗要大于上一步优化结果。主要是由数据特性决定的。在数据量大，或者去重字段本身分类值多的情况下分拆先distinct反而会有所耗时。

总结上述例子：

在优化过程中，最明显有效的是尽量先聚集，再关联。再每部优化操作上，还需要了解数据情况、做好探查，才能找到适合的优化方式。否则可能反而做了无用功消耗资源。

另外，在使用count(distinct())时，需要注意后续是否有重复值计算，以防处理后得到了翻倍的数据值！

了解业务真正需求，探查数据表逻辑结构，才能最快的拿到正确的数。共勉。

关注

8
点赞
踩
46

收藏

觉得还不错? 一键收藏
4
评论
count(distinct())效率优化

如何提升自身sql效率，更快得到想要的数据，是每一个使用sql的同学都需要学习和关注的事情。sql作为面向大众的数据提取工具，除了研发、数据分析师，产品经理及业务运营同学也都有应用需求。只要sql无语法错误，保持等待，或长或短都是可以输出结果的。但是在数据量庞大或数据逻辑复杂时，或碰上线上资源紧张，或者好不容易等了3小时、结果发现数据有点异常需要修改后重跑，不知道有没有同学有相同的经历。低效是每位同学都不乐见的，而避免这个问题就要求我们学习优化sql的方法，从而减少自己等数的焦虑时光。而其中最常
复制链接

扫一扫

专栏目录

jerry-89 CSDN认证博客专家 CSDN认证企业博客

码龄12年

657: 原创

8219: 周排名

1094: 总排名

234万+: 访问

: 等级

1万+: 积分

1061: 粉丝

1197: 获赞

248: 评论

4007: 收藏

私信

关注

热门文章

分类专栏

最新评论

PG一键安装
雪莉acd: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Ceph出现”1 full osd(s)”，整个集群不可用的问题调查
ng_wind: 这样要用专门的命令改。例如： osd set-full-ratio 0.98 osd set-nearfull-ratio 0.92 osd set-backfillfull-ratio 0.99
PG一键安装
BTA面试题20: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
Plugin mysql_native_password reported: ‘‘mysql_native_password‘ is deprecated and will be removed i
普通网友: 写的真好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章
Plugin mysql_native_password reported: ‘‘mysql_native_password‘ is deprecated and will be removed i
pckzzy119: 写的很好！我也写了一篇获取【大厂面试真题解析、核心开发学习笔记、最新全套讲解视频、实战项目源码讲义、学习路线简历模板】的文章

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。