Hive之count(distinct xxx)优化写法

蔚落 2022-09-15 15:56 166阅读 0赞

先看一道某互联网公司的面试题：

题目描述  
计算每个省份的买家数的sq代码如下:

select
        province 
        ,count(distinct buyer_id)
    from orders
    where dt = '20211012'
    group by province

假设 orders表很大，每天有5千万订单，这个代码会有哪些问题，应该如何处理或者改写代码？

解答：这种写法逻辑上没问题，而它的底层引擎是mapreduce，是分布式计算的，但是在实际业务中如果数据量过大，相同重复的key过多的情况，所以自然会出现**数据倾斜**这种分布式计算的典型问题，这可能会导致某一个reduce处理的时间过长，如果换成这样的写法：

select
        count(distinct buyer_id)
    from orders
    where dt = '20211012'

那么只有1个reduce，那么处理的时间会更长。

[Distinct的执行原理是][Distinct]：将需要去重的字段以及group by 字段联合作为 key 将数据分发到 Reduce 端。

解决方案：所以对于这种去重统计，如果在数据量够大，我会采用count加group by去进行统计：

select 
        province
        ,count(1)
    from 
    (
        select
            province 
            ,buyer_id
        from orders
        where dt = '20211012'
        group by province,buyer_id
    )
    group by province

先对数据进行**去重减少数据量**，再做count聚合，这一定程度上减少了数据量，从而减少了数据倾斜的可能性。

总结：在数据量很大的情况下，使用count+group by替换count(distinct)能使作业执行效率和速度得到很大的提升，一般来说数据量越大提升效果越明显。

--------------------

以上内容仅供参考学习，如有侵权请联系我删除！  
如果这篇文章对您有帮助，左下角的大拇指就是对博主最大的鼓励。  
您的鼓励就是博主最大的动力！

[Distinct]: https://caizhengjie.blog.csdn.net/article/details/120752480

发表评论取消回复

表情：

评论列表（有 0 条评论，166人围观）

还没有评论，来说两句吧...

相关阅读

相关 CountDistinct 去重实现原理

主要了解各种方法的优点缺点和局限性以及对应其缺点的优化方法。 Hive / Spark / Kylin 中 count distinct 的实现原理：重点关注其中的多维

今天药忘吃喽~/ 2023年09月30日 12:18/ 0 赞/ 13 阅读

相关大数据开发之Hive优化篇1-Hive 优化概述

备注: Hive 版本 2.1.1 文章目录一.Hive的实现原理二Hive优化 2.1 选择合理的存储格式和压缩格式 2

淩亂°似流年/ 2023年01月08日 05:20/ 0 赞/ 218 阅读

相关 Hive之MapReduce性能优化

Hive优化一、Hive任务创建文件数优化 1.1 Map端文件合并减少Map任务数量一般来说，HDFS的默认文件块大小是128M，如果在Hive执行任务

爱被打了一巴掌/ 2022年12月08日 15:49/ 0 赞/ 325 阅读

相关 hive优化

-------------------- hive优化 -------------------- 1 Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询

太过爱你忘了你带给我的痛/ 2022年11月22日 12:45/ 0 赞/ 249 阅读

相关 hive优化

1.jobs数比较多的作业运行效率比较低 2.sum，count，max,min等UDAF,hadoop优化不怕数据倾斜问题 3.set hive.groupby.sk

左手的ㄟ右手/ 2022年10月10日 12:49/ 0 赞/ 279 阅读

相关 Hive之count(distinct xxx)优化写法

先看一道某互联网公司的面试题：题目描述计算每个省份的买家数的sq代码如下: select province ,count(

蔚落/ 2022年09月15日 15:56/ 0 赞/ 167 阅读

相关 hive优化

Map优化 1. 通过调整脚本的参数来设置map的个数，和设置block大小，block是影响map个数的关键因素直接设置map个数：set mapred.map.ta

深藏阁楼爱情的钟/ 2022年04月18日 02:33/ 0 赞/ 315 阅读

相关大数据Hive系列之Hive性能优化（全面）

一、介绍首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？ > 1. 数据量大不是问题，数据倾斜是个问题。 > 2. jobs数比较多的作业运

末蓝、/ 2022年04月18日 02:29/ 0 赞/ 477 阅读

相关 hive优化

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m

绝地灬酷狼/ 2022年03月16日 13:56/ 0 赞/ 330 阅读

相关 Hive个人心得笔记之Hive优化

Hive个人心得笔记之Hive优化一.Hive的优化 Hive的优化 1. 小表缓存：将小表的放入内存

悠悠/ 2021年12月11日 23:49/ 0 赞/ 429 阅读