营销型企业网站建设方案,怎么做网站公众号,电商平台项目商业计划书,wordpress 小说sequence file序列化文件 介绍优缺点格式未压缩格式基于record压缩格式基于block压缩格式 介绍
sequence file是hadoop提供的一种二进制文件存储格式一条数据称之为record#xff08;记录#xff09;#xff0c;底层直接以key, value键值对形式序列化到文件中
优… sequence file序列化文件 介绍优缺点格式未压缩格式基于record压缩格式基于block压缩格式 介绍
sequence file是hadoop提供的一种二进制文件存储格式一条数据称之为record记录底层直接以key, value键值对形式序列化到文件中
优缺点
优点 二进制格式存储比文本文件更紧凑支持不同级别压缩基于record或block压缩文件可以拆分和并行处理适用于MapReduce程序 局限性 二进制文件不方便查看特定于hadoop只有java api可用于阈值进行交互。尚未提供多语言支持
格式
根据压缩类型有3汇总不用sequence file格式未压缩格式record压缩格式block压缩格式sequence file由一个header和多个record组成。以上三种格式均由使用相同的header结构如下所示前3个字节为SQE表示该文件是序列文件后跟一个字节表示实际版本号例如SEQ4或SEQ6.HEADER中其他也包括keyvalueclass名字压缩细节metadata Sync marker。sync marker同步标记用于可以读取任意位置的数据
未压缩格式
未压缩的sequence file文件由headerrecordsync三个部分组成。其中record包含了4个部分record length记录长度key length键长keyvalue每隔几个record100个字节左右就有一个同步标记
基于record压缩格式
基于record压缩的sequence file文件由headerrecordsync三个部分组成。其中record包含了4个部分record length记录长度key length键长keycompressed value被压缩的值
基于block压缩格式
基于block压缩的sequence file文件由headerblocksync三个部分组成block值得是record block可以理解为多个record记录组成的块。注意这个block和hdfs中分块存储的block128M是不同的概念。block中包括:record条数压缩的key长度压缩的keys压缩的value长度压缩的values。每隔一个block就有一个同步标记block压缩比record压缩提供更好的压缩率。使用sequence file时通常首选块压缩