营销网站做推广,在线登录qq网页版,网站排版的优点,自己做博客网站和百家号的区别论文地址#xff1a;https://arxiv.org/pdf/2503.06671 代码地址#xff1a;https://github.com/dslisleedh/ESC 关注UP CV缝合怪#xff0c;分享最计算机视觉新即插即用模块#xff0c;并提供配套的论文资料与代码。 https://space.bilibili.com/473764881
摘要
本研究… 论文地址https://arxiv.org/pdf/2503.06671 代码地址https://github.com/dslisleedh/ESC 关注UP CV缝合怪分享最计算机视觉新即插即用模块并提供配套的论文资料与代码。 https://space.bilibili.com/473764881
摘要
本研究解决了Transformer在高效图像超分辨率SR任务中的高计算开销问题。基于对自注意力层间重复性的观察本研究引入了一个名为卷积注意力ConvAttn的卷积化自注意力模块它利用单个共享的大卷积核和动态卷积核来模拟自注意力的远程建模能力和实例依赖加权。通过利用ConvAttn模块本研究显著减少了对自注意力及其相关内存密集型操作的依赖同时保持了Transformer的表示能力。此外本研究克服了将Flash Attention集成到轻量级SR领域的挑战有效地缓解了自注意力固有的内存瓶颈。本研究使用Flash Attention将窗口大小扩展到32×32而不是提出复杂的自注意力模块在Urban100 ×2上PSNR显著提高了0.31dB同时延迟和内存使用量分别降低了16倍和12.2倍。基于这些方法本研究提出的网络名为“用卷积模拟自注意力ESC”与HiT-SRF相比在Urban100 ×4上PSNR显著提高了0.27dB延迟和内存使用量分别降低了3.7倍和6.2倍。大量实验表明尽管大部分自注意力被ConvAttn模块取代ESC仍保持了Transformer的远程建模能力、数据可扩展性和表示能力。
引言
Transformer在高效图像超分辨率中的应用用卷积模拟自注意力
本研究致力于解决Transformer在高效图像超分辨率SR任务中的高计算开销问题。当前随着多媒体内容和生成模型需求的显著增长SR技术的重要性日益凸显因为它能够使用户在资源受限的条件下享受高质量内容。因此实际部署已成为SR任务中的一个关键考虑因素促使许多SR研究在提高性能的同时降低计算复杂度和参数规模。Transformer在SR任务中取得了比卷积神经网络CNN更优越的性能同时具有更低的计算量和更少的参数因此受到了广泛关注。通过自注意力机制捕获长距离依赖关系和执行依赖于输入的加权Transformer展现出强大的表征能力和增强的性能尤其是在训练数据量增加时。然而许多研究忽略了自注意力机制造成的过度内存访问这是由于需要实例化分数矩阵以及利用内存密集型操作如张量重塑和窗口掩码所导致的。在SR架构中由于需要处理大特征图而没有patchify stem或下采样阶段内存访问问题更加严重。例如即使SwinIR-light的计算量和参数规模分别比重建×2比例高清图像的CNN少14.5倍和17倍但其延迟却高4.7倍内存使用量也高2倍。因此尽管Transformer的性能很有前景但在资源受限的设备如消费级GPU上部署它们仍然具有挑战性。
本研究的初步分析表明自注意力机制执行的相似性建模和提取的特征在多层之间保持高度一致。这一发现表明自注意力机制可能会提取重叠的特征这意味着可以通过使用高效的替代方案来降低计算开销而不损害表征能力。基于此发现本研究提出了一种设计策略仅在每个块的第一层保留自注意力机制而用本研究提出的高效替代方案——卷积注意力ConvAttn模块——替换其余层。为了有效地模拟自注意力的长距离建模和依赖于实例的加权ConvAttn模块采用双重机制运作。首先它通过在整个网络中应用具有共享的13×13大核的卷积来简化自注意力的长距离交互仅针对一部分通道进行操作。其次生成动态核以捕获依赖于输入的加权模仿自注意力的自适应特性。通过结合这些组件ConvAttn模块显著减少了对内存密集型自注意力的依赖同时保持了Transformer的表征能力。
通过用ConvAttn替换大部分自注意力层本研究利用这种效率进一步增强了剩余的自注意力层。具体而言本研究扩大了自注意力的窗口大小在仅略微增加计算量的情况下显著提高了性能。然而增加窗口大小会导致分数矩阵扩大从而大幅增加峰值内存使用量。为了解决这个问题本研究将Flash Attention引入到轻量级SR任务中以避免实例化分数矩阵。本研究的优化实现允许将窗口大小扩展到32×32同时将延迟和内存使用量分别减少16倍和12.2倍。基于这些方法本研究介绍了一种名为“用卷积模拟自注意力ESC”的轻量级SR网络。与ATD-light相比所提出的ESC在Urban100 ×4上PSNR提高了0.1dB同时速度提高了8.9倍。此外ESC-light在Urban100 ×2上PSNR超过ELAN-light 0.29dB同时延迟降低了22%。本研究通过引入ESC-FP进一步验证了ESC在降低计算量和参数规模至关重要的场景下的有效性ESC-FP在Manga109 ×4上的性能优于MambaIRV2-light同时计算量和参数规模分别减少了20%和32%。通过广泛的实验本研究证明了即使大部分自注意力被ConvAttn模块取代ESC仍然充分利用了Transformer的优势包括其大的感受野、表征能力以及关于数据量的可扩展性。本研究通过深入的实验支持了这些结果表明所提出的ConvAttn模块提取的特征与自注意力机制相似。
论文创新点
本研究提出了一个名为ESC的高效图像超分辨率网络旨在降低Transformer在计算和内存方面的开销。本研究的创新点主要体现在以下几个方面 ✨ 基于卷积的注意力模块ConvAttn ✨ 本研究观察到Transformer中自注意力机制的层间特征存在高度相似性这表明自注意力机制在不同层提取的特征存在冗余。基于此本研究设计了ConvAttn模块它结合了共享的大核卷积和动态生成的深度卷积核以模拟自注意力机制的长距离建模能力和实例依赖的加权能力。ConvAttn模块有效地替代了Transformer中除了每个块的第一层以外的其他自注意力层从而显著降低了对内存密集型自注意力操作的依赖同时保持了Transformer的表示能力。 共享大核卷积: ConvAttn 模块中的共享大核卷积LK贯穿整个网络负责捕获全局上下文信息和长距离依赖关系。LK 的参数在所有层之间共享从而减少了模型的整体参数量和计算开销并有助于稳定训练。 ⚙️ 动态深度卷积核: ⚙️ 为了模拟自注意力机制的实例依赖加权ConvAttn 模块引入了动态深度卷积核DK。DK 根据输入特征动态生成能够捕获特定实例的局部特征。DK与 LK 协同工作在降低内存开销的同时实现了对全局和局部特征的有效建模。 ⚡️ Flash Attention的集成: ⚡️ 为了进一步降低自注意力机制的内存开销本研究将Flash Attention集成到轻量级SR任务中。Flash Attention 通过避免显式计算和存储注意力矩阵显著减少了自注意力操作的内存占用和延迟。本研究优化了 Flash Attention 的实现使其能够支持更大的窗口大小32x32从而在轻量级SR任务中实现了性能的显著提升。 多尺度特征融合: ESC 网络巧妙地融合了局部和全局特征。ConvFFN 模块提取局部特征而 ConvAttn 模块捕获全局上下文信息。通过将这两个模块的输出进行融合ESC 网络能够有效地利用多尺度信息从而提高了图像超分辨率的性能。
通过这些创新本研究提出的ESC网络在多个图像超分辨率基准数据集上取得了显著的性能提升同时显著降低了计算和内存开销。此外本研究还证明了 ESC 网络在数据扩展性和任意尺度超分辨率任务上的有效性进一步验证了其优越的泛化能力和实用价值。
论文实验