hadoop-hdfs 缺乏、安全感 2022-04-10 04:38 279阅读 0赞 ## HDFS: ## HDFS即Hadoop的分布式文件系统,以**流式数据访问模式**来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件,多用户写入,任意修改文件。 HDFS是Hadoop的应用用到的一个最主要的分布式存储系统一个HDFS集群主要由一个NameNode会和很多个Datanode的组成:Namenode会管理文件系统的元数据,而Datanode的存储了实际的数据.HDFS的体系结构在[这个][Link 1]有详细的描述。本文档主要关注用户以及管理员怎样和HDFS进行交互[.NMFS ][.NMFS][架构设计][Link 1]中的[图解][.NMFS]描述了Namenode,Datanode和客户端之间的基本的交互操作。基本上,客户端联系Namenode以获取文件的元数据或修饰属性,而真正的文件I / O操作是直接和Datanode的进行交互的。 ## 实现思路: ## HDFS会将用户上传的问题切割为一小块的数据集分配给数据节点节点上,并且将分配的数据节点节点和文件信息存储到的NameNode节点上,客户端访问文件时,访问的是namenode的节点,名称节点节点将对应文件的datanome节点返回给客户端,客户端再次去的DataNode节点中取数据集 如图: ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMzI1NzM0_size_16_color_FFFFFF_t_70][] ## HDFS元数据维护机制(持久化): ## NameNode: 存储虚拟路径,元数据 DataNode: 存储真实数据的blok(数据块) SecondaryNameNode: 维护NameNode虚拟路径,元数据持久化问题 ![watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMzI1NzM0_size_16_color_FFFFFF_t_70 1][] 文档参考 链接:[http][Link 1]:[//hadoop.apache.org/docs/r1.0.4/cn/hdfs\_design.html][Link 1] [Link 1]: http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html [.NMFS]: http://hadoop.apache.org/docs/r1.0.4/cn/images/hdfsarchitecture.gif [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMzI1NzM0_size_16_color_FFFFFF_t_70]: /images/20220403/a09cf682cacf405a8bb850baa2623a33.png [watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQwMzI1NzM0_size_16_color_FFFFFF_t_70 1]: /images/20220403/0328d8053a564d4d8783e765ad1546ef.png
还没有评论,来说两句吧...