轻松入门大数据 第8章 零基础:极速入门数据仓库工具Hive 8.1 初识Hive 8.1.4 【重要必掌握】Hive架构
轻松入门大数据
文章目录
- 轻松入门大数据
- 第8章 零基础:极速入门数据仓库工具Hive
- 8.1 初识Hive
- 8.1.4 【重要必掌握】Hive架构
第8章 零基础:极速入门数据仓库工具Hive
8.1 初识Hive
- Hive产生背景
- Hive是什么
- Hive优缺点
- Hive架构
- Hive部署
- Hive参数设置
- Hive访问方式
8.1.4 【重要必掌握】Hive架构
Hive的架构 ***************【非常重要,必须掌握】
看一张图:
从图中可以解读到
Hive 的访问方式:
- Cli:命令行
- JDBC/ODBC:代码 HiveServer2(HS2)
WebUI:HUE Zeppelin HiveServer2(HS2)
通过Thrift Server协议和Driver 进行通信
Driver: ***************【Hive 最核心的部分,后面我们会讲到源码】
- 解析器:SQL(String) ==> AST(抽象语法树)
- 编译器:AST ==> 逻辑执行计划
- 优化器:逻辑执行计划进行优化
- 执行器:执行计划 ==> 底层引擎的作业(MR/Tez/Spark)
select deptno,count(1) cnt from emp group by deptno;
MetaStore:元数据【Hive 能够扩展的核心所在】
- 元数据:描述数据的数据(够抽象)
举个栗子:
三个字段:id,name,age
stu.txt ==> HDFS上的文本数据【普通文本数据】
1,pk,31
2,zs,30
3,ls,31
我们如何使用SQL对HDFS上的数据进行操作呢?
需求:要把表HDFS上的数据映射成一张表
hdfs://hadoop000:8020/stu.txt
==>>>
表:stu
表字段:
- id int 1(index:该字段在表中的第几列)
- name string 2
- age int 3
分隔符:逗号
【小结】
- Hive的元数据是存放在MySQL里面
- Hive的数据是有2个部分构成
- Hive数据是存放在HDFS上的
- Hive元数据是存放在MySQL中的
MySQL肯定就要做主从了,不然MySQL一寄掉,全寄
还没有评论,来说两句吧...