Hive的MapReduce优化

小灰灰 2022-05-28 09:23 245阅读 0赞

> 纯属记录笔记…,没有实际操作过。

**MR优化**

*  map和reduce的个数
    
     *  一个分片就是一个块，一个块对应一个maptask
     *  Hadoop源码中有一个计算公式
        
         *  min(max\_split\_size,max(min\_split\_size,block\_size))
         *  min\_split\_size默认值0（最小分片大小）
         *  max取的时候取的是block\_size，block\_size默认是128
         *  max\_split\_size默认值256（最大分片大小）
         *  这个公式决定了map的个数
         *  肯定不能直接去修改HDFS的block\_size
         *  一般在实际的生产环境中HDFS一旦format格式化之后，block\_size大小不会去修改的
         *  通过修改max\_split\_size和min\_split\_size来影响map的个数
 *  并行执行
    
     *  针对有些互相没有依赖关系的独立的job，可以选择并发的执行job hive.exec.parallel
     *  是否开启并行执行的功能  
        hive.exec.parallel.thread.number
     *  设置并行执行的线程个数
     *  一般在工作中会选择去开启该功能
     *  根据实际的集群的状况和服务器的性能合理的设置线程数目
 *  JVM重用
    
     *  mapreduce.job.jvm.numtasks通过合理的测试，设置一个合理的数目
 *  推测执行
    
     *  当某个任务出现迟迟不结束的情况，那么会考虑开启推测执行，开启一个一模一样的任务去完成
     *  两个任务谁先完成，就会关闭另一个
     *  分为map端的推测和reduce端的推测
     *  不好的地方：过多的消耗资源  
        mapreduce.map.speculative  
        mapreduce.reduce.speculative
     *  额外消耗节点资源
        
         *  可能会出现重复写入的情况，产生异常
 *  hive本地模式
    
     *  业务场景：处理小数据集的时候，速度会更快一些 hive.exec.mode.local.auto
     *  本地模式的限制：数据的输入大小不能超过128MB
     *  本地模式的限制：map数不能超过4个
     *  本地模式的限制：reduce的个数不能超过1个