校园互动平台网站建设,个人网站 程序,男生做污污的视频网站,管廊建设网站目录 论文简介动机#xff1a;为什么作者想要解决这个问题#xff1f;贡献#xff1a;作者在这篇论文中完成了什么工作(创新点)#xff1f;规划#xff1a;他们如何完成工作#xff1f;离线训练阶段#xff1a;在线压缩阶段 理由#xff1a;通过什么实验验证它们的工作… 目录 论文简介动机为什么作者想要解决这个问题贡献作者在这篇论文中完成了什么工作(创新点)规划他们如何完成工作离线训练阶段在线压缩阶段 理由通过什么实验验证它们的工作结果自己的看法(作者如何得到的创新思路) 论文简介 作者 Jinyang Liu,∗Sheng Di,† Kai Zhao,∗Sian Jin,‡ Dingwen Tao,‡ Xin Liang,§ Zizhong Chen,∗Franck Cappello†¶ 发表期刊or会议 《2021 IEEE International Conference on Cluster Computing (CLUSTER)》 CCFB 发表时间 2021 动机为什么作者想要解决这个问题
AE 在图像压缩中表现优异但将AE应用于误差有界的科学数据压缩时面临以下挑战
存在许多类型的自动编码器每种都具有不同的架构或训练方法因此确定最有效的AE模型具有挑战性在误差有界模型中采用具有适当配置设置的自动编码器并非易事自动编码器AE生成的潜在向量需要进一步压缩在最小化潜在向量存储开销的同时保持高重建质量
缺乏科学数据所需的误差控制机制且直接应用于科学数据时存在模型选择、参数配置和潜向量存储开销等挑战 AE 通过最小化整体重建误差如均方误差 MSE进行训练但这种 “平均意义” 的优化无法保证每个数据点的误差都被限制在极小范围内。但是科学数据需要逐点误差可控 贡献作者在这篇论文中完成了什么工作(创新点)
深入研究了各种自动编码器模型的特征基于SZ模型开发了一种误差有界的自动编码器框架针对所设计的基于自动编码器的误差有界压缩框架中的主要阶段进行压缩质量优化包括微调块大小和潜在向量大小以及优化潜在向量的压缩效率。使用五个真实的科学数据集对提出的解决方案进行了评估并与其他六项相关工作进行了比较。实验表明我们的解决方案在所有测试的压缩器中表现出极具竞争力的压缩质量 规划他们如何完成工作
离线训练阶段
1.数据分块 将训练数据划分为固定大小的块如 2D 数据块 32×323D 数据块 8×8×8确保每个块内的数据具有局部相关性便于 AE 捕捉细粒度特征
2.选择AE模型 通过对比 8 种 AE 模型如 VAE、WAE、SWAE 等选定 切片 Wasserstein 自动编码器SWAE 作为核心模型。SWAE 因重建误差低PSNR 最高达 43.9见表 I、计算稳定相比 VAE 无随机采样和高效性相比 WAE 计算成本低被选中 为什么选SWAE 与其他测试的自编码器相比SWAE在科学数据上显示出更少的重建损失与传统的变分自编码器VAE不同SWAE中的编码和解码计算都是决定性的。VAE如[53]-[57]实际上是计算输入数据的均值和方差并根据先验分布的均值和方差对潜在向量进行采样。因此在相同输入的多次运行中VAE中作为编码器输出的潜在向量会有所不同这使得VAE对于数据压缩任务不稳定 3.网络架构
编码器由卷积块组成卷积层 GDN 激活函数逐步降低特征图维度生成低维潜在向量。解码器镜像对称的反卷积块反卷积层 iGDN 激活函数将潜在向量重建为数据块。训练目标最小化重建数据与原始数据的 L1 损失同时通过 SWAE 的损失函数约束潜在向量的分布提升泛化能力
在线压缩阶段
1.数据分块 按训练阶段的块大小分割输入数据确保 AE 模型可直接应用。
2.双预测器动态选择 对每个数据块分别使用AE 预测和Lorenzo 预测器传统线性预测方法计算两者的 L1 损失选择损失较小的预测结果
AE 预测通过预训练的编码器生成潜在向量经量化压缩后存储再由解码器重建数据。Lorenzo 预测利用邻近数据点线性预测如 2D 数据使用 3 邻点3D 数据使用 7 邻点适用于低误差界或数据平稳的块。 大致流程就是先根据loss决定选择AE还是Lorenzo然后量化编码HuffmanZstd
举个例子
输入块HURRICANE-U 的 8×8×8 块512 个浮点数2048 字节。
自编码器或LorenzoSWAE 压缩为 36 维潜在向量144 字节初始 CR2048/144≈14.22。
量化 假设潜在向量值范围 [ − 5 , 5 ] [-5, 5] [−5,5]误差界限 e 0.2 e0.2 e0.2量化步长 Δ 0.1 \Delta0.1 Δ0.1确保量化误差 Δ / 2 0.05 \Delta/20.05 Δ/20.05 经解码器后满足 e 0.2 e0.2 e0.2。
每个值量化到整数例如 z i 3.456 → q i 85 z_i3.456 \rightarrow q_i85 zi3.456→qi85。 36 维向量原本 36×4144 字节量化后假设用 8 位整数表示减到 36×136 字节。
Huffman 编码
量化整数 [85, 23, 45, …]Huffman 编码后假设减到 25 字节基于频率优化。
Zstd 压缩
Zstd 进一步压缩到 20 字节捕获模式冗余。
压缩比 CR 2048 20 102.4 ≈ 100 \text{CR} \frac{2048}{20} 102.4 \approx 100 CR202048102.4≈100
3.量化与编码
误差量化对预测误差进行线性量化确保量化后的误差在用户指定的误差界 e 内。若误差超过范围标记为 “不可预测数据”U单独存储。对量化后的误差和潜在向量分别进行 Huffman 编码和 Zstd 压缩生成最终的压缩数据。 Huffman 编码先处理量化后值的局部冗余基于频率生成紧凑的比特流Zstd 再处理比特流中的全局模式如序列重复进一步压缩。 理由通过什么实验验证它们的工作结果
实验数据使用五个来自不同领域的真实应用数据集包括 CESM气候模拟数据、RTM地震成像数据、NYX宇宙学模拟数据、Hurricane飓风模拟数据和 EXAFEL分子结构 X 射线衍射数据
对比方法将 AE-SZ 与六种其他有损压缩器进行比较包括经典的误差有界压缩器 SZ2.1、ZFP0.5.5基于 SZ 框架的 SZauto、SZinterp以及基于自动编码器的科学数据压缩器 AE-A、AE-B
评估指标 率失真通过绘制峰值信噪比PSNR和比特率的关系曲线评估压缩质量。 “率失真”Rate-Distortion是评估有损压缩质量的核心概念其本质是衡量 压缩后的数据量率Rate与重建数据的失真程度Distortion 之间的权衡关系。 率压缩后的数据量通常用比特率Bit Rate 表示即 每数据点占用的比特数比特率越低代表压缩比越高 失真Distortion重建数据的误差本文用峰值信噪比PSNR 衡量单位为分贝dB 相同压缩比下的可视化比较在相同压缩比下重建数据的视觉质量。 压缩速度和解压缩速度分别计算压缩速度original size/compression timeMB/s和解压缩速度reconstracted size/decompression timeMB/s。
实验结果与分析
率失真结果AE-SZ 在率失真方面明显优于其他基于 AE 的有损压缩器在低比特率高压缩比情况下比 SZauto、SZ2.1 和 ZFP 的率失真更好在高比特率下与 SZ2.1 质量相当。解压缩数据可视化在高压缩比情况下AE-SZ 重建数据的视觉质量良好优于 SZauto、SZ2.1、ZFP 和 SZinterp 等压缩器。AE-SZ 预测器性能在中等误差界约 5E-3 至 2E-2范围内AE-SZ 中的自动编码器在预测数据块时比 Lorenzo 更具优势随着误差界减小Lorenzo 预测器在更多数据块上表现更好。压缩速度和自动编码器训练速度由于神经网络计算成本较高AE-SZ 的压缩速度约为传统有损压缩器的 10%-40%但比其他基于自动编码器的压缩器快 30× 至 200×AE-SZ 中自动编码器的训练时间比 AE-A 更短或相近。 自己的看法(作者如何得到的创新思路)
提出基于卷积自动编码器的误差有界压缩框架 AE-SZ通过优化自动编码器结构、混合预测机制及隐向量压缩策略在 5 个真实科学数据集上实现了相比传统方法如 SZ、ZFP更高的压缩比高压缩比场景下提升 100%-800%和重建质量为科学数据高效压缩提供了新方案