专注于 JetBrains IDEA 全家桶,永久激活,教程
持续更新 PyCharm,IDEA,WebStorm,PhpStorm,DataGrip,RubyMine,CLion,AppCode 永久激活教程

解决HDFS上小文件的存储

1、 从源头上解决,在上传到HDFS之前,就将多个小文件归档
使用tar命令 带上参数-zcvf
示例:

tar -zcvf xxx.tar.gz  小文件列表

1、 如果小文件已经上传到HDFS了,可以使用在线归档
使用hadoop archive命令
示例:

hadoop archive -archiveName xxx.har -p /文件目录 小文件列表 /存放目录

在线归档的功能实际是一个MR程序,这个程序将HDFS已经存在的多个小文件归档为一个归档文件!

1、 在本地查看har包里的归档文件,一定要带上har://协议,只有ls不列出归档文件!

hadoop fs -ls har:///xxx.har

1、 下载归档文件

hadoop fs -get har:///xxx.har/xxx文件

文章永久链接:https://tech.souyunku.com/21741

未经允许不得转载:搜云库技术团队 » 解决HDFS上小文件的存储

JetBrains 全家桶,激活、破解、教程

提供 JetBrains 全家桶激活码、注册码、破解补丁下载及详细激活教程,支持 IntelliJ IDEA、PyCharm、WebStorm 等工具的永久激活。无论是破解教程,还是最新激活码,均可免费获得,帮助开发者解决常见激活问题,确保轻松破解并快速使用 JetBrains 软件。获取免费的破解补丁和激活码,快速解决激活难题,全面覆盖 2024/2025 版本!

联系我们联系我们