一般选择ORC+bzip/gzip作为数据源的存储,选择则ORC+Snappy作为中间数据的存储,分区表单文件不大可以采用gzip压缩,桶表需要用bzip或lzo支持分片的方式压缩
设置压缩建表时指定"stored as orc tblproperties ("orc.compress"="gzip")"
设置set hive.exec.compress.intermediate=true开启中间数据压缩
然后设置mapred.map.output.compression.codec指定中间数据的压缩方式
设置 set hive.exec.compress.output=true 开启输出文件压缩
然后设置 mapred.output.compression.codec 指定输出文件的压缩方式。