Hive 的优缺点及数据倾斜

墨蓝 2023-08-17 16:47 131阅读 0赞

### Hive 的优缺点及数据倾斜 ###

*   *   *  hive的特点
         *  hive的优缺点
         *  hive的数据倾斜
         *   *  什么是数据倾斜？
             *  hadoop框架特性
             *  数据倾斜的主要表现：
             *  不容易产生数据倾斜的情况：
             *  容易产生数据倾斜的情况：
             *  产生数据倾斜的原因：
         *  数据倾斜典型场景分析：
         *   *  大量的关联键为null值的时候
             *  关联键类型不统一
             *  大小表关联查询产生数据倾斜
             *   *  小表和小表关联
                 *  大表和小表（小于23.8M ）关联
                 *  大表和中表关联
                 *  大表和大表关联
         *  hive的优化

### hive的特点 ###

*  1）Hive 由 Facebook 实现并开源。
 *  2）是基于 Hadoop 的一个数据仓库工具。  
    hive是基于hadoop的，底层数据存储在hdfs上，计算时转换为mapreduce。  
    概念：数据仓库：data warehouse
    
        数据仓库和数据库：
          概念：
          	数据仓库针对于海量数据的存储。
          	数据库是针对小批量的数据的存储。
          
          应用场景:
          olap：On-Line Analysis Processing    在线分析处理
          	数据仓库擅长查询，不擅长insert delete update   
          	对于hive来说不支持delete、update；支持 insert ，但不建议使用，因为效率很低。
         	hive的数据加载方式：load 
          oltp：On-Line Transaction Processing  在线事务处理  
          	数据库擅长增删改：insert、delete、update 
        
          对事务支持上：
          对数据仓库来说，hive不支持事务（hive 3.0及以上新版本是支持的）。
          对数据库来说，支持事务
 *  3）hive可以将结构化的数据映射为一张数据库表。  
    例如如下数据：  
    ![在这里插入图片描述][20191014172849903.png]  
    数据中的一行对应表中的一行数据，数据中的每一个字段对应表中的一列  
    **hive只能做结构化数据，海量结构化数据**  
    hive是否可以完全替代mapReduce？  
    当然不可以！  
    mr不仅仅可以针对结构化数据，也可以处理半结构化数据，例如xml文件
 *  4）hive提供 HQL(Hive SQL)查询功能
 *  5）hive的底层数据是存储在hdfs上的。
 *  6）Hive的本质是将 SQL 语句转换为 MapReduce 任务运行  
    hive可以将sql中的一些关键字进行转换  
    关键字包括：join、group by、order by 等  
    hive在转化的时候，关键是提取sql里面的关键字。
 *  7)使不熟悉 MapReduce 的用户可以很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据，适用于离线的批量数据计算。

### hive的优缺点 ###

*  优点：  
    延展性好，hive中提供的内置函数271个，还支持自定义函数，可以自己用java去写。
 *  缺点：
    
     *  1、不支持 delete、update （修改、删除成本太高，根本原因是因为存储在hdfs上，要先获取namenode，还要找到副本进行操作）
     *  2、不支持事务（3.0版本支持事务，但了解即可）

### hive的数据倾斜 ###

#### 什么是数据倾斜？ ####

***什么是数据倾斜**？* 由于数据分布不均匀，造成数据大量集中于一点，造成数据热点。

#### hadoop框架特性 ####

*  不怕数据量大，怕数据倾斜
 *  jobs 数比较多的作业，运行效率相对比较低，例如 子查询比较多。
 *  sum、count、max、min等聚集函数，通常不会有数据倾斜问题。

#### 数据倾斜的主要表现： ####

任务长时间维持在95%～100%之间，或者100%附近，查看任务监控页面，发现只有少量reduce子任务没有完成。因为其处理的数据量和其它的reduce差异过大。  
单一reduce处理的记录数和平均记录数相差太大，通常达到好几倍之多，最长时间远大于平均时间。

HIVE的数据倾斜，本身是mr的数据倾斜，是reducetask数据分配不均匀。

#### 不容易产生数据倾斜的情况： ####

*  1）map jion （map端执行jion时，就没有reducetask任务）
 *  2）sum、max、min + group by （因为有combiner ，会合并一部分数据）
 *  3）不转换为mr任务的 （hive的转化过程，最终是转化为operator的操作，operator是分成两部分的操作: mr或hdfs，而 hdfs 这种任务有可能都不执行mapreduce，所以不会产生数据倾斜。）
    
     *  3.1 例如 fetch operator（底层类似于流类操作，直接拉取数据。eg:select \* from movie limit 10;）
     *  3.2 哪些操作不执行mr操作呢？  
        在Hive Configuration Properties中，有一个配置：`hive.fetch.task.conversion`， 对应3个值：none 、minimal、more

none ： 代表禁用，
    也就是说，如果将hive.fetch.task.conversion的值设置为none，那么所有的查询，都会执行mr
    
    minimal：
    在hive 0.10---0.13 中有这个。
       SELECT *, 
       where  过滤的字段只有是分区字段时, 
       LIMIT
    不执行mapreduce
    
    more ： hive的默认设置
      1）SELECT 原始字段, 
      2）FILTER （where） （所有字段的过滤）, 
      3）LIMIT 
    全部都不执行mapreduce

#### 容易产生数据倾斜的情况： ####

1）reduce join 
       2）group by 不和聚合函数一起使用时
       3）count(distinct )（目前版本已经做了优化，也不会再产生数据倾斜）

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMTE4NTU_size_16_color_FFFFFF_t_70]

#### 产生数据倾斜的原因： ####

A： key 分布不均匀
    B：业务数据本身的特性
    C：建表考虑不周全
    D：某些 HQL 语句本身就存在数据倾斜

### 数据倾斜典型场景分析： ###

真实的开发过程中，数据倾斜往往发生在join的时候。这里的join，往往是指 reduce join。  
数据倾斜发生的场景：

#### 大量的关联键为null值的时候 ####

eg：
    users  用户表：   UserId  address    10G数据量
    logs   日志表：   所有用户浏览网站的信息（有很多UserId 为null的值）  数据量为500G
    关联两个表：
    select * from users a join logs b on a.UserId=b.UserId;
    
    map端
        key:
            UserId   
        value: 表标识+其他
        
    shuffle：
        分区  null + 其他数据  
        排序
        分组
    
    reduce端：
        一个分区对应一个 reducetask ，所以 （null + 其他）的结果全部进入到某 1个reducetask中。假如日志中，null值占有一半，所以这个reducetask的数据，大约有 250G 。其它9 个reducetask总共处理250G数据量，每一个reducetask只处理不到28G的数据量。 
    reduce输出的时候，两层for循环进行关联，这样，某一个reducetask 的for循环数据量是其它reducetask数据量的几十倍，甚至上百倍，造成数据倾斜。
           for(){
               for(){
               join 匹配
               }
           }

**大量的关联键为null值的解决方法：**

1.1）将null值分散到多个reducetask中
    	 采用：null+随机数 ，得到eg：null123、null234	   
    select * 
    from users a 
    join logs b 
    on a.UserId=nvl(b.UserId,b.UserId+rand())
    
    
    
    1.2)null 值不参与关联，  最后将null值 ， 拼接到最后。  推荐使用。（除了进行关联，在关联过程中还减少数据量）
    select 
    * 
    from users a join 
    (
    select * from logs where UserId is not null 
    ) b 
    on a.UserId=b.UserId 
    union 
    select "","","",* from logs where UserId is null;

#### 关联键类型不统一 ####

如果关联键类型不统一，join时无法匹配，导致出现很多null值。

eg:
    users表的 UserId 是int类型
    logs表的  UserId 是string类型
    这样，userId同样是133，如果string类型的数据多一个空格，就会造成无法匹配
    select * from users a join logs b on a.UserId=b.UserId;

**关联键类型不统一解决方案：**修改数据类型 将数据类型统一

select * from users a join logs b on cast(a.UserId as string)=trim(b.UserId);

#### 大小表关联查询产生数据倾斜 ####

reduce join 时，只要key值分布不均匀，可能就会造成分区数据不均匀，进而造成数据倾斜。  
hive中的所有类型join方案：

##### 小表和小表关联 #####

小表和小表关联，默认使用mapjoin，无需优化

##### 大表和小表（小于23.8M ）关联 #####

小表和小表关联，也是mapjoin

##### 大表和中表关联 #####

如果中型大于>23.8M，但是在内存能够承受范围，理论可以执行mapjoin，但默认执行reduce join，会造成数据倾斜。这时为了效率，也为了解决数据倾斜，可以强制执行mapjoin。  
**方法： /*+mapjoin(需要强制加载到内存中的小表名称)*/**

eg：
    users   1G 
    logs   1T 
    
    select 
    /*+mapjoin(a)*/* 
    from users a join logs b on a.UserId=b.UserId;

##### 大表和大表关联 #####

大表和大表关联，这两个表，都无法放在内存，只能走reduceJoin

eg:
    users   500G   用户表  每当有一个用户注册  一条数据
            500000000用户  
            40w   
    logs    1T   日志表  每一个点击行为   一条数据  一天分析一次
            40w

解决方案：**对其中一个表进行瘦身**

1）求logs表中有哪些useriD 
    SELECT distinct UserId from logs;
    
    2)对users表进行瘦身
    create table users_final as 
    select 
    /*+mapjoin(a)*/b.*
    from (
    SELECT distinct UserId from logs
    ) a join users b on a.UserId=b.UserId; 
    users_final表 是最终需要的表。
    
    3)进行真正的关联
    select 
    /*+mapjoin(a)*/* 
    from users_final a join logs b on a.UserId=b.UserId;

### hive的优化 ###

数据倾斜，会影响mapreduce执行的效率，为了提高hive的执行效率，需要对其进行优化，参考 : [Hive 的优化方法][Hive].

[20191014172849903.png]: /images/20230809/d2aeac76e11646458e4137165e580435.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3UwMTMxMTE4NTU_size_16_color_FFFFFF_t_70]: /images/20230809/ebb8ea441f5149b38c1b9cfa76b50d92.png
[Hive]: https://blog.csdn.net/u013111855/article/details/106266965