博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop添加LZO压缩支持
阅读量:4694 次
发布时间:2019-06-09

本文共 1338 字,大约阅读时间需要 4 分钟。

启用lzo的压缩方式对于小规模集群是很有用处,压缩比率大概能降到原始日志大小的1/3。同时解压缩的速度也比较快。

安装

准备jar包

1)先下载lzo的jar项目

2)下载后的文件名是hadoop-lzo-master,它是一个zip格式的压缩包,先进行解压,然后用maven编译。生成hadoop-lzo-0.4.20。

3)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/

[root@bigdata-01 common]$ pwd/export/servers/hadoop-2.7.4/share/hadoop/common[root@bigdata-01 common]$ lshadoop-lzo-0.4.20.jar

4)scp同步hadoop-lzo-0.4.20.jar到其他节点

配置

1)core-site.xml增加配置支持LZO压缩

io.compression.codecs
org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.SnappyCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec
io.compression.codec.lzo.class
com.hadoop.compression.lzo.LzoCodec

2)scp同步core-site.xml到其他节点

 

测试

1)启动hive创建lzo表

CREATE TABLE lzo_test (id STRING,name STRING)partitioned by (dt STRING)row format delimitedfields terminated by '\t'STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

2)导入数据

load data inpath '/xxx/xxx/2019-07-25' into table lzo_test partition(dt='2019-07-25');

 

转载于:https://www.cnblogs.com/blazeZzz/p/11244543.html

你可能感兴趣的文章
妙味——getByClass
查看>>
JavaScript 严格模式(use strict)
查看>>
Hibernate学习笔记
查看>>
Java接口
查看>>
HTML5 初步了解
查看>>
在CI框架中的配置整合amfphp
查看>>
蓝桥杯 ——无重复组合——C++
查看>>
React Native在开发过程中遇到的一些问题(俗称:坑)
查看>>
自控力阅读思维导图
查看>>
结构体的应用-成绩录入初步
查看>>
【UVa 712】S-Trees
查看>>
一次MySQL(INNODB存储引擎) 死锁捉虫记
查看>>
python urllib、urlparse、urllib2、cookielib
查看>>
ListBox和ComboBox绑定数据简单例子
查看>>
QQ聊天窗口上的广告与QQ弹窗广告的完美屏蔽去除
查看>>
weblogic连接池问题总结(转载)
查看>>
C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 数据权限增强、范围权限增强...
查看>>
基础概述
查看>>
MySQL中BLOB字段类型介绍
查看>>
Redis Sentinel机制与用法(一)
查看>>