深圳网站搜索,长沙网站seo按天计费,优化网站排名推荐公司,如何优化网站排名1.存储格式 textfile、sequencefile、orc、parquet sequencefile很少使用#xff08;不介绍了#xff09;#xff0c;常见的主要就是orc 和 parquet 建表声明语句是#xff1a;stored as textfile/orc/parquet行存储#xff1a;同一条数据的不同字段都在相邻位置#xff…1.存储格式 textfile、sequencefile、orc、parquet sequencefile很少使用不介绍了常见的主要就是orc 和 parquet 建表声明语句是stored as textfile/orc/parquet行存储同一条数据的不同字段都在相邻位置所以当要查找某一条记录所有数据时行存储查询速度比较快 列存储以列来聚集数据相同字段的值聚集在一起所以当查询某一个指定列的所有数据时列存储查询速度比较快 Textfile 行式存储这是hive表的默认存储格式默认不做数据压缩方便查看和编辑占用空间大I/O性能低磁盘开销大数据解析开销大数据不支持分片即代表着会带来无法对数据进行并行操作。 Orc 行列式存储将数据按行分块每个块按列存储其中每个块都存储着一个索引支持none和zlib和snappy这3种压缩方式默认采用zlib压缩方式不支持切片orc存储格式能提高hive表的读取写入和处理的性能。 Parquet 列式存储是一个面向列的二进制文件格式不可直接读取文件中包含数据和元数据所以该存储格式是自解析的在大型查询时效率很快高效parquet主要用在存储多层嵌套式数据上提供良好的性能支持默认采用uncompressed不压缩方式。 2.压缩方式 gzip、zlib、snappy、lzo 这四种压缩方式。 压缩不会改变元数据的分割性即压缩后原来的值不变。 建表声明语句是tblproperties(orc.compressSNAPPY)压缩率的话gzip压缩率最佳但压缩解压缩速度较慢 压缩速度的话snappy压缩解压缩速度最佳但压缩率较低 是否可切片的话gzip/snappy/zlib是不支持切片而lzo支持切片 3.应用场景
选压缩方式 1.数据量极其大且不经常用来做计算的数据可采用GZip因为其压缩占比最高但压缩解压缩速度最慢。 2.数据量不大且经常需要用来计算的数据可采用Snappy或者Lzo常常还用来搭配orc和parquet存储格式实现大幅度的数据压缩存储。 选存储格式 1.hive生产环境下时常是采用orc或者parquet这2种存储格式但最好是做好统一别一个数仓里的表存储格式百花齐放我建议就是数仓各层统一采用orc存储格式拥有一定的压缩率且压缩解压缩速度也适中 2.orc存储格式zlib压缩方式适合用作数仓ODS层表设计因为这层一般是业务贴源层来入库数据和备份查询频率打不大而orc存储格式snappy压缩方式适合用作数仓DW层表设计这公共层表一般查询较频繁所以要考虑下查询时解压缩速度 3.一般数据量预测会很大的话才不选用orc存储格式主要是为了避免map端数据倾斜因为orcsnappy不支持分割文件操作所以压缩文件只会被一个任务读取压缩文件很大的话就会造成mapper处理该文件极其耗时这就是所谓的map读取文件出现数据倾斜