count(distinct())效率优化

如何提升自身sql效率,更快得到想要的数据,是每一个使用sql的同学都需要学习和关注的事情。

sql作为面向大众的数据提取工具,除了研发、数据分析师,产品经理及业务运营同学也都有应用需求。只要sql无语法错误,保持等待,或长或短都是可以输出结果的。但是在数据量庞大或数据逻辑复杂时,或碰上线上资源紧张,或者好不容易等了3小时、结果发现数据有点异常需要修改后重跑,不知道有没有同学有相同的经历。

低效是每位同学都不乐见的,而避免这个问题就要求我们学习优化sql的方法,从而减少自己等数的焦虑时光。

而其中最常见的低效sql,就是count(distinct)。

故本文,就来结合本人学习及自身实践经验,给大家几点优化的建议,并配上实际效率以供参考。

常规的count(distinct)通常都跟着group by一起进行。

示例如下:

select

  b.name,

  count(distinct a.user_id)

from table_a a

join table_b b on a.dashboard_id = b.id

group by name

order by count desc

常规优化点如下:

1.先聚集,后join。

具体指先将表内的内容进行简化和聚集计算,join是基于一层聚集以后再进行的操作

如下:

就是先将table_a按照dashboard_id进行了一次聚集,后续的join关联上name即可


    select

      b.name,

      new_a.ct

    from table_b as b

    join (

      select

        dashboard_id,

        count(distinct user_id) as ct

      from table_a as a  

      group by dashboard_id

    ) as new_a

    on new_a.dashboard_id = b.id

    order by new_a.ct desc

 

2.缩小group计算的数据集,提前对数据表进行限制、处理;

先做处理,如下:

就是先对a表中每一个user_id进行distinct,然后在上层计数。即把count和distinct拆成两步走。

*注意,这点尽量选择关联id与去重字段关系为1:n 且n越大效率越高。当数据大多为1:1 这一步优化效率不明显


    select

      b.name,

      log_counts.ct

    from table_b as b

    join (

      select distinct_a.dashboard_id,

      count(1) as ct

      from (

        select distinct dashboard_id, user_id

        from table_a as a

      ) as distinct_a

      group by distinct_a.dashboard_id

    ) as log_counts

    on log_counts.dashboard_id = b.id

    order by log_counts.ct desc

同时此点,还可以在join条件中添加多个限制条件,使匹配上的数据字段更少,缩小数据集,提高数据处理效率。如join on 条件1 and 条件2 and 条件3)

实际用例:

1. 使用最基本的count(distinct())搭配group by组合耗时9.85s

2.在left_join中添加多层and条件,耗时9.81s;收效不明显

3.调整为先聚集后,耗时2.45s,直接缩减为原始时间的25%,减少3/4的时间消耗。

4.最后缩小数据集,提前限制处理耗时2.74s

此处时间消耗要大于上一步优化结果。主要是由数据特性决定的。在数据量大,或者去重字段本身分类值多的情况下 分拆先distinct反而会有所耗时。

 

总结上述例子:

在优化过程中,最明显有效的是尽量先聚集,再关联。再每部优化操作上,还需要了解数据情况、做好探查,才能找到适合的优化方式。否则可能反而做了无用功消耗资源。

另外,在使用count(distinct())时,需要注意后续是否有重复值计算,以防处理后得到了翻倍的数据值!

了解业务真正需求,探查数据表逻辑结构,才能最快的拿到正确的数。共勉。

  • 8
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
oracle的sql优化方法 1.全表扫描和索引扫描   大数据量表尽量要避免全表扫描,全部扫描会按顺序每条记录扫描,对于>100万数据表影响很大。   Oracle中通过RowID访问数据是最快的方式   对字段进行函数转换,或者前模糊查询都会导致无法应用索引而进行全表扫描   对Oracle共享池和缓冲区中的Sql必须要大小写都完全用上才能够匹配上 2.顺序问题   Oracle按照从右到左的顺序对数据表进行解析。因此From最后面的表为基础表,一般要选择记录数最少的表作为基础表。   对于Where条件的顺序,过滤到最大查询记录数量的条件必须写在Where条件的结尾处。   Where条件中涉及到使用复杂函数判定的必须注意要写到Where条件的最前面 3.索引方面   记录数少的表保留有主键索引就可以了,不要再去建其它索引,全表扫描也很快   索引最好单独建立表空间,必要时候对索引进行重建   必要时候可以使用函数索引,但不推荐使用   Oracle中的视图也可以增加索引,但一般不推荐使用   *Sql语句中大量使用函数时候会导致很多索引无法使用上,要针对具体问题分析 4.其它   避免使用Select *,因为系统需要去帮你将*转换为所有的列名,这个需要额外去查询数据字典。   Count(1)和Count(*)差别不大。   多使用Decode函数来作简单的代码和名称间的转换,以减少表关联   使用Truncate替代delete来删除记录,但Truncate数据不记录日志,无法进行回滚   对于复杂的存储过程可以多次提交的数据的要多分多次Commit,否则长事务对系统性能影响很大   Distinct和Having子句都是耗时操作,应该尽可能少使用   在不需要考虑重复记录合并时候用Union All来代替Union   使用显性游标而不使用隐性游标,特别是大数据量情况下隐性游标对性能影响很大   是否使用函数的问题   用直接的表关联来代替Exist.用Exist或Not Exists来代理In。In进行子查询效率很差。 5.SQL语句分析   通过SQLPLUS中的SET TRACE 功能对Sql语句的性能进行分析   通过Toad或PL/SQL Developer对语句的性能进行和索引的使用情况进行分析   对Oracle缺省的优化不满意可以强制使用Hint,但一般不推荐使用   对Flag等只存储是或否信息的字段,一般不推荐建立索引。必要可以采用位图索引   *存在递归查询情况如果关联Table太多对性能会造成较大影响,往往推荐采用临时表转为分步骤操作提高性能   *尽量使用表关联查询而不使用函数,但涉及类似于代码表要重复关联多次取数据问题时候又适合使用函数
接下来进行 SQL2 的调优,和优化 SQL1 时一样首先开始查看分析 SQL2 语句的执行 计划,发现 SQL2 的执行计划也是全表扫描,这里 t1.name=的取值为 cc 的返回仅仅 10 条 记录,而 T1 表记录都在 5 千万左右, T2 表在 200 万左右,需要全扫这么大的两个表而获 取仅有的 10 记录吗? 这里又要再次利用到索引的原理, SQL1 是利用到了索引一般比表小的多的特点,现在 又是要利用啥呢?哦,利用索引的快速定位原理。假如我们在 name 列建了一个索引,而现 在是利用了索引的快速检索原理。索引有个最大的特点是有序排列,当表记录检索到 dc 等 以 d 打头的记录后, ORACLE 就停止遍历了!为啥,因为索引是有序的,当出现 d 打头的 记录后,绝对后面不可能再出现 c 打头的记录了,因为我们是查询=cc 的值,当然停住了。 随时停止检索相比遍历全表,明显是少做事和不做事,效率可以意料会提升不少。 那 SQL2 如何优化,哦,好简单,就是在 name 列建一个索引就好了。索引在这条 SQL 中因为可以让应用少做事和不做事,最终到了速度大幅度提升,果然,优化后的执行速度从 原来的 20 秒缩减为 1 秒。 到此优化完毕,短息后台进程由原来的每次执行 1 分钟多变为 2 秒多,速度提升了 30 多倍,积压情况大大缓解,系统运行恢复正常。 应该说这次优化总体是很成功的,客户也非常满意。不过我个人心中还是有少许疑惑之 处,什么疑问呢? 1. SQL1(Select count(*) from t1) 为什么要统计条数,得到条数的真正目的是什么? 2. SQL2 中的 distinct 取唯一值是为啥,难道表有重复记录? distinct 可是需要排序 的。 3. SQL2 中的 order by t1.col5; 排序是 T1 表的 col5 字段,展现字段又没有这个字 段,真的需要这个排序吗

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值