常用网站架构,辽宁建设工程信息网审计报告,网站后台有显示前台没有,邢台网站定制1. Hive常用的存储格式
TEXTFI textfile为默认存储格式 存储方式#xff1a;行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive 无法进行合拆分
SEQUENCEFILE sequencefile二进制文件#xff0c;以key,value的形式序列到文件中 存储方式#xff1a;行存储 可…1. Hive常用的存储格式
TEXTFI textfile为默认存储格式 存储方式行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive 无法进行合拆分
SEQUENCEFILE sequencefile二进制文件以key,value的形式序列到文件中 存储方式行存储 可以分割、压缩 一般选择block压缩 优势是和Hadoop api中的mapfile相互兼容的
RCFILE 存储方式数据按行分块 每块按照列存储 压缩快 快速列存取 读记录尽量涉及到的block最少 读取需要的列只需要读取每个row group的头部定义 读取全量数据的操作 性能可能比sequence没有明显的优势
ORC 存储方式:数据按行分块每块按照列存储 压缩快 压缩按照列存取 效率比rcfile高是rcfile的改良版本
Apache ORC
ORCOptimizedRC File存储源自于RCRecordColumnar File这种存储格式RC是一种列式存储引擎
对schema演化修改schema需要重新生成数据支持较差而ORC是对RC改进但它仍对
schema演化支持较差
主要是在压缩编码查询性能方面做了优化。RC/ORC最初是在Hive中得到使用最后发展势头不错独立成一个单独的项目。PARQUET
Apache Parquet
源自于google Dremel系统可下载论文参阅Parquet相当于Google Dremel中的数据存储引擎
而Apache顶级开源项目Drill正是Dremel的开源实现。
Apache Parquet 最初的设计动机是存储嵌套式数据比如Protocolbufferthriftjson等将这类数据存储成列式格式
以方便对其高效压缩和编码且使用更少的IO操作取出需要的数据
这也是Parquet相比于ORC的优势
它能够透明地将Protobuf和thrift类型的数据进行列式存储在Protobuf和thrift被广泛使用的今天与parquet进行集成
是一件非容易和自然的事情。
除了上述优势外相比于ORC, Parquet没有太多其他可圈可点的地方
比如它不支持update操作数据写成后不可修改不支持ACID等。Avro格式 自定义格式
2. Hive压缩算法