Count(Distinct) 怎样去重统计原创|浏览:4011|更新:2019-11-21 18:15 12345分步阅读 数据量小的时候无所谓,数据量大的情况下,由于COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换:方法/步骤11. 创建一张大表22.加载数据33.设置5个reduce个数44.执行去重id查询55.采用GROUP by去重id5本页面未经许可获取自百度经验6虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。END经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。展开阅读全部