Count(Distinct) 怎样去重统计

  • 原创
  • |
  • 浏览:4008
  • |
  • 更新:

数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换:

方法/步骤

  1. 1

    1. 创建一张大表

    Count(Distinct) 怎样去重统计
  2. 2

    2.加载数据

    Count(Distinct) 怎样去重统计
  3. 3

    3.设置5个reduce个数

    Count(Distinct) 怎样去重统计
  4. 4

    4.执行去重id查询

    Count(Distinct) 怎样去重统计
  5. 5

    5.采用GROUP by去重id

    Count(Distinct) 怎样去重统计
  6. 5
    本页面未经许可获取自百度经验
  7. 6

    虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。

    END
经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。
作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。
展开阅读全部