Hadoop的Archive归档命令

心已赠人 2022-03-16 15:22 273阅读 0赞

hadoop不适合小文件的存储，小文件本省就占用了很多的metadata，就会造成namenode越来越大。Hadoop Archives的出现视为了缓解大量小文件消耗namenode内存的问题。

采用ARCHIVE 不会减少文件存储大小，只会压缩NAMENODE 的空间使用
概述
Hadoop存档是特殊格式的存档。Hadoop存档映射到文件系统目录。Hadoop归档文件总是带有* .har扩展名

Hadoop存档目录包含元数据（采用_index和_masterindex形式）

数据部分data（part- *）文件。

_index文件包含归档文件的名称和部分文件中的位置。
在这里插入图片描述

如下：原始文件四个文件
在这里插入图片描述
经过hadoop archive之后：

执行的命令是：hadoop archive -archiveName words.har -p /words -r 1 /wordhar

生成的文件在/wordhar/words.har
在这里插入图片描述
执行该命令后，原输入文件不会被删除，需要手动删除

hadoop fs -rmr /words

其中part-0是数据文件

在mapreduce中，会忽略以下划线开头的文件，也就是说上图的_SUCCESS,_index,_masterindex是不会处理的

那么这样一来就只会处理数据文件part-0

job设置的输入路径是
在这里插入图片描述
运行mapreduce中执行的map数量是1

分片为一个
在这里插入图片描述
map数量为一个

发表评论取消回复

表情：

评论列表（有 0 条评论，273人围观）

还没有评论，来说两句吧...

相关阅读

相关 Oracle Archiving: 归档策略错误导致的归档失败案例

在Oracle数据库中，归档策略是保证数据永久存储的重要环节。如果归档策略设置错误，可能会引发归档失败的情况。以下是一个可能的案例： 1. **情况描述**：在一个大型生

缺乏、安全感/ 2025年02月23日 07:33/ 0 赞/ 29 阅读

相关 MySQL数据库归档工具之【pt-archiver】

当MySQL数据库积累了大量历史数据时，有效地管理这些数据变得至关重要。为了避免影响数据库性能，并确保其顺畅运行，我们可以利用工具来对历史数据进行归档。是Percona ...

爱被打了一巴掌/ 2024年05月01日 04:28/ 0 赞/ 127 阅读

相关 MySQL使用pt-archiver归档历史数据

t-archiver可以将表按照指定条件归档到历史数据库中，也支持文件导出，对于归档清理线上历史数据非常方便。如果要归档表的数据到历史数据库的表中，需要预先在历史数...

傷城~/ 2024年04月18日 00:43/ 0 赞/ 132 阅读

相关个人博客设计之博文归档（archive）

经历一个月，终于敲完自己个人博客网站的代码了，收获挺大。这篇博文讲讲在博文归档设计方面的收获。在进行表设计的时候，自己将博文的添加时间设计为时间戳存储，这样的话在存储的时候，写

女爷i/ 2022年08月09日 16:48/ 0 赞/ 278 阅读

相关 Hadoop Archives Guide(hdfs文件归档介绍和例子)

Hadoop Archives Guide(hdfs文件归档介绍和例子) 一、概括介绍： 1)、简介英文：Hadoop archives are special for

短命女/ 2022年06月01日 08:43/ 0 赞/ 226 阅读

相关 Oracle归档日志 ORA-00257:archiver error解决办法清理Oracle归档日志

ORA-00257:archiver error解决办法出现ORA-00257错误（空间不足错误），通过查找资料，绝大部分说这是由于归档日志太多，占用了全部的硬盘

朱雀/ 2022年05月11日 04:50/ 0 赞/ 387 阅读

相关 Hadoop的Archive归档命令

hadoop不适合小文件的存储，小文件本省就占用了很多的metadata，就会造成namenode越来越大。Hadoop Archives的出现视为了缓解大量小文件消耗name

心已赠人/ 2022年03月16日 15:22/ 0 赞/ 274 阅读

相关 Hadoop Archives Guide(hdfs文件归档介绍和例子)

Hadoop Archives Guide(hdfs文件归档介绍和例子) 一、概括介绍： 1)、简介英文：Hadoop archives are special for

分手后的思念是犯贱/ 2022年02月27日 06:46/ 0 赞/ 361 阅读

相关 Hadoop HDFS archive 存档

hdfs 存储小文件弊端每个文件均按块存储，每个块的元数据存储在 NameNode 的内存中，因此hadoop 存储小文件会非常低效。因为大量的小文件会耗尽 NameN

约定不等于承诺〃/ 2022年02月24日 08:25/ 0 赞/ 277 阅读

相关【深入学习iOS开发（五）】Archive（归档）

Archive（归档） Archives provide a means to convert objects and values into an architecture

Dear 丶/ 2022年01月05日 19:45/ 0 赞/ 323 阅读