Hive-优化调优[(Count(Distinct)去重统计]

Dear 丶 2022-09-16 13:22 187阅读 0赞

# Count(Distinct) 去重统计 #

Count(Distinct)只会开启一个reduce.如果数据量大的话,这个Job很难完成。

数据量小的时候无所谓，数据量大的情况下，由于 COUNT DISTINCT 操作需要用一个 Reduce Task 来完成，这一个 Reduce 需要处理的数据量太大，就会导致整个 Job 很难完成， 一般 COUNT DISTINCT 使用先 GROUP BY 再 COUNT 的方式替换,但是需要注意 group by 造成 的数据倾斜问题.

(1）案例实操  
1）创建一张大表

hive (default)> create table bigtable(id bigint, time bigint, uid string, keyword
    string, url_rank int, click_num int, click_url string) row format delimited
    fields terminated by '\t';

（2）加载数据

hive (default)> load data local inpath '/opt/module/data/bigtable' into table bigtable;

（3）设置 5 个 reduce 个数

set mapreduce.job.reduces = 5;

（4）执行去重 id 查询

hive (default)> select count(distinct id) from bigtable;

（5）采用 GROUP by 去重 id

hive (default)> select count(id) from (select id from bigtable group by
    id) a;

**总结:  
在数据量比较大的情况下,要做去重,是不建议采用count(distinct)去做去重,  
count(distinct)只会开启一个reduce来进行输出的,会发生数据倾斜。这个时候建议采用的是group by的方法来做处理。采用group by的话,group by 的字段会作为key,这个key会被分配到不同的reduce里面,在每个reduce里面做并行去重,最后再聚合输出。 虽然会多用一个 Job 来完成，但在数据量大的情况下，这个绝对是值得的。**

发表评论取消回复

表情：

评论列表（有 0 条评论，187人围观）

还没有评论，来说两句吧...

相关阅读

相关 CountDistinct 去重实现原理

主要了解各种方法的优点缺点和局限性以及对应其缺点的优化方法。 Hive / Spark / Kylin 中 count distinct 的实现原理：重点关注其中的多维

今天药忘吃喽~/ 2023年09月30日 12:18/ 0 赞/ 14 阅读

相关 HIVE调优之去重统计

SELECT COUNT( DISTINCT id ) FROM TABLE_NAME WHERE ...; ![hive_count_job1.jpg][] 对一个

傷城~/ 2023年08月17日 15:18/ 0 赞/ 116 阅读

相关 Hive Hive性能调优

最近慢慢把工作中涉及到的Hive知识和优化方法整理一下一、Hive 的mapreduce 在实际业务中，我们使用的Hive通常是基于map reduce计算方式的。通

一时失言乱红尘/ 2023年05月28日 12:47/ 0 赞/ 18 阅读

相关 Hive-调优，表的优化，谓词下推，负载均衡，去重统计

文章目录谓词下推(Predicate pushdown) MapJoin Group By

深碍√TFBOYSˉ_/ 2023年03月06日 05:45/ 0 赞/ 75 阅读

相关 hive 调优

1 1 Fetch抓取 1）理论分析 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT \ FROM employ

怼烎@/ 2023年02月16日 12:29/ 0 赞/ 22 阅读

相关 Hive调优篇

本文目录 1.压缩 Ⅰ.Map输出阶段压缩 Ⅱ.Reduce输出阶段压缩(建议开启) 2.文件存储格式(建议开启) Ⅰ.

Bertha 。/ 2022年10月05日 12:53/ 0 赞/ 286 阅读

相关 Hive-优化调优[(Count(Distinct)去重统计]

Count(Distinct) 去重统计 Count(Distinct)只会开启一个reduce.如果数据量大的话,这个Job很难完成。数据量小的时候无所谓，数据量大

Dear 丶/ 2022年09月16日 13:22/ 0 赞/ 188 阅读

相关 Hive-企业级调优(表的优化)

表的优化小表大表Join(MapJOIN) 案例实操大表 Join 大表空 KEY 过滤空 key 转换小

分手后的思念是犯贱/ 2022年08月28日 05:00/ 0 赞/ 202 阅读

相关 Hive调优

Hive存储格式选择和Hive 相关优化： [压缩参考][Link 1] Hive支持的存储数的格式主要有：TEXTFILE 、SEQUENCEFILE、ORC、PAR

ゝ一纸荒年。/ 2022年04月25日 01:48/ 0 赞/ 252 阅读

相关 Hive 性能调优

1. Join 优化 1. 大表放右边,小表放左边。 2. 多个表关联时,最好分拆成小段,避免大sql 3. 大表 join 大表可采

超、凢脫俗/ 2022年01月23日 21:01/ 0 赞/ 320 阅读