当前位置：首页 > news >正文

西安网站免费制作家具全屋定制

news 2025/11/22 2:12:39

西安网站免费制作,家具全屋定制,天津做不锈钢的网站,创网易邮箱账号LKD-Net#xff1a;用于单幅图像去噪的大型核卷积网络摘要基于深度卷积神经网络(CNN)的单幅图像去噪方法已经取得了很大的成功。以往的方法致力于通过增加网络的深度和宽度来提高网络的性能。目前的方法侧重于增加卷积核的大小#xff0c;以受益于更大的接受野来增强其性能…LKD-Net用于单幅图像去噪的大型核卷积网络摘要基于深度卷积神经网络(CNN)的单幅图像去噪方法已经取得了很大的成功。以往的方法致力于通过增加网络的深度和宽度来提高网络的性能。目前的方法侧重于增加卷积核的大小以受益于更大的接受野来增强其性能。然而直接增加卷积核的大小会带来大量的计算开销和参数。为此本文设计了一种由深度分解大核卷积块(DLKCB)和信道增强型前馈网络(CEFN)组成的大核卷积去雾块(LKD块)。所设计的DLKCB可以在不引入大量参数和计算开销的情况下将深度大核卷积分解为较小的深度卷积和深度膨胀卷积。同时设计的CEFN在前馈网络中加入了信道注意机制以利用重要的信道并增强健壮性。通过组合多个LKD块和上下采样模块实现了大核卷积去霾网络(LKD-Net)。评估结果证明了所设计的DLKCB和CEFN的有效性并且我们的LKD-Net的性能优于最先进的LKD-Net。在SOTS室内数据集上我们的LKD-Net显著优于基于Transformer的方法Dehamer仅有1.79%的#参数和48.9%的Flop。我们的lkd-net的源代码可以在https://github.com/SWU-CS-MediaLab/LKDNet找到。引言单幅图像去模糊是计算机视觉中的一个不适定问题。雾霾会遮挡图像中的对象这会严重导致信息降级(例如颜色失真、可见性降低)。这种信息退化在一些场景中可能会导致严重的后果如自动驾驶和对抗性攻击。因此如何去除单幅图像中的雾霾成为计算机视觉领域的一个挑战。单幅图像去霾的目的是从观测到的雾霾图像中估计出潜在的无雾霾图像。早期的图像去模糊方法主要基于大气散射模型(Narasimhan和Nayar 2000)和纳亚尔2002)(Narasimhanand Nayar 2002)表述如下其中I(Z)是雾霾图像J(X)是无霾图像A是中等全局大气光t(X)是介质透射图t(X)的公式可以表示为其中β是大气的散射系数d(X)是场景深度。根据公式1和公式2如果我们估计一幅雾霾图像的全球大气光和介质透射图我们就可以从观测到的雾霾图像中得到潜伏性无霾图像。然而这种基于先验的模型容易受到不同情景先验的影响因此稳健性较差正在逐步被淘汰。最近的深度卷积神经网络(KrizevskySutskever和Hinton 2012)(CNN)在单幅图像去杂方面取得了成功基于深度学习的图像去杂方法可以分为两大类arxiv2209.01788v1[cs.cv]2022年9月5日。第一类基于CNN的方法主要集中在增加网络的深度和宽度或者设计一个大的核卷积来提高图像去哈的性能(Guo等人。2022b)、(秦等人2020)、(吴等人2021)、(董等人。2020a)。将大核函数引入到CNN中可以扩大CNN的感受野并在学习的潜伏域空间中捕获更多的结构化信息。然而扩展卷积核的大小会导致更多的计算开销和参数这是因为与核大小的二次计算复杂性(Ding等人。2022年)。第二类是基于Vision Transformers(又名VITS)的方法(Guo等人2022A)(赵等人2021)。VITS中的MHSA机制采用大核操作能够整合来自大接受野的信息并能模拟长距离依赖关系。可以看出基于CNN和基于视觉变换的方法中的大核操作都可以有效地构建一个大的有效接受场来提高性能。然而大内核操作的计算代价很高因为内核大小会平方增加参数和浮点运算(Flop)的数量。此外还发现基于CNN和基于视觉变换的图像去噪方法对前馈网络(FN)中的通道同样重要。然而FN中的各种信道特征具有附加的加权信息。如果对它们一视同仁FN会花费大量资源在不重要的信道上进行不必要的计算从而显著降低网络优化的效率。图1SOTS室内布景不同除杂方法的结果。比较了Maxim、Dehamer、AECR-Net、FFA-Net、PFDN、MSBDN和我们的LKD-Net的性能。网络参数由圆和Flop的半径表示并以对数轴表示。值得注意的是我们的LKD-Net在模型复杂度较低的情况下获得了较高的PSNR。因此本文设计了一种新型的大核卷积去雾块(LKD块)来解决上述局限性。具体地说受卷积分解机制的启发(Guo等人2022b)(Zamir等人2021)设计了一种大核卷积块的分解(DLKCB)来取代VITS中的多头自我注意(MHSA)。DLKCB通过将传统的大深度核卷积分解为小的深度卷积和深度膨胀卷积的组合在不增加更多计算开销和参数的情况下增加了有效感受野并在特征之间建立了长距离信息。在此基础上设计了信道增强型前馈网络(CEFN)将信道注意力机制(HU、SHEN和SUN 2018)集成到传统的FN中通过利用FN中的重要和关键信道来提高网络优化的效率。通过将DLKCB和CEFN相结合我们实现了大核卷积去霾块(LKD块)它可以作为一个插件添加到CNN和VITS的深层体系结构中用于高级和低级计算机视觉任务。本文将LKD块加入到多个U-Net类去杂网络中以实现高性能的单图像去杂(记为LKD-Net)。据我们所知我们的LKD-Net是第一个将大深度方向的核卷积用于单幅图像去噪任务的方法。图1显示了LKD-Net和SOTS室内布景上比较的最先进的方法。我们可以注意到我们的LKDNet在SOTS(Li等人2019)室内集合上的性能优于以前的基于Swin Transformer的(Guo等人2022A)而计算开销和参数要少得多。此外LKD-Net具有与基于变压器的方法相同的放大能力。我们的LKD-Net的主要贡献可以概括如下我们提出了LKD-Net一种高效的端到端多U-Net式深度结构用于单幅图像的去雾化。LKD-Net通过使用显著更少的参数和更低的计算开销而优于最先进的方法。设计了大核卷积去雾块(LKD Block)它可以作为一个插件模块来增强CNN和Transformers体系结构的性能。同时对于单幅图像的去除任务LKD块比基于transformer的方法更高效和有效。设计了分解大核卷积块(DLKCB)它将大的深度卷积分解为小的深度卷积和深度扩张卷积在不增加大量参数和计算开销的情况下增加了有效感受野。设计了通道增强型前馈网络(CEFN)能够有效地挖掘和整合FN中具有更多关键信息的通道进一步提高了网络优化的健壮性和效率. 相关工作单幅图像去噪方法可以分为基于先验知识的方法、基于神经网络的方法和基于变压器的方法。基于先验的图像去模糊方法。这些方法主要依赖于大气散射模型和人工先验。DCP(HeSunand Tang2009)建议在估计介质传输图之前使用暗通道。(朱Mai和Shao 2014)提出了通过使用线性模型对模糊图像的场景深度进行建模来预先进行颜色衰减的建议。(BermanTreibitz和Avidan 2016)提出了一种使用非局部先验的去雾化算法该算法使用数百个不同的颜色簇很好地近似RGB空间中无雾霾图像的颜色。然而这些基于先验的方法都存在易受不同场景影响的缺点导致健壮性较差。基于CNN的图像去模糊方法。由于CNN(KrizevskySutskeverand Hinton 2017)具有较高的语义抽象能力DehazeNet(Cai Et Al 2016)将CNN用于单幅图像的去混方法是使用CNN估计介质传输图并通过大气散射模型恢复雾霾图像。FFA-Net(Qin Et Al 2020)利用神经网络构建了一种特征融合注意机制以灵活地处理不同的通道信息和像素信息。AECR-NET(Wu等人。2021)通过使用下采样和对比学习提高了FFA-Net的性能。然而这些基于CNN的方法只关注于增加网络的深度和宽度而不是核的大小。这一点主要是因为直接扩展卷积核的大小会导致引入更多的计算开销和参数考虑到核的大小的二次计算复杂性。基于变压器的图像去模糊方法。自从(Dosovitski Et Al 2021)将Transformer引入计算机视觉以来VITS在各种任务上都超过了传统的基于CNN的方法包括单一图像任务。例如(Song等人2022)提出了Dehazeformer它使用Swin Transfmer作为主干在SOTS(Li等人2019)数据集上大大超过了所有以前基于CNN的方法。一些方法(Liu Et Al 2022)、Ding et al 2022(Ding Et Al 2022)将CNN转化为类似变压器的CNN结构并在各个领域取得了可喜的结果。然而这些方法通常在处理令牌上花费大量资源并且忽略了不同信道在FN中具有完全不同的信息权重从而导致网络效率较低。方法总体架构我们的主要目标是开发一种高效的深度模型将模糊的观测图像恢复为无雾霾的图像。如图2(A)所示LKD-Net是一种类似UNET的体系结构是一种包含多个LKD块的多尺度分层框架具有在不保持额外计算成本的情况下提高性能的显著优势。下采样层使用不相交的卷积将图像分割成不相交的小块并增加通道数。上采样层使用PixelunShuffle(LeDig等人2017)来聚集相应的下采样层补丁并减少通道数量。SK Fusion(Song等人2022)被用来取代级联融合层它使用通道注意机制来融合不同分支的特征。软重构(Song Et Al 2022)层被用来取代全局残差学习在全局残差学习之前引入弱约束从而获得更好的网络性能。将一个模糊图像I2RH×W×3送入LKD网络恢复其对应的无模糊图像^J2RH×W×3。具体地模糊输入图像I首先经过3×3卷积得到嵌入F1 2 R H×W×C的低层特征其中H是图像的高度W是图像的宽度C是通道数。然后将浅层特征F1送入三层对称编解码器结构进行深度特征提取最终得到F52RH×W×C输出。SK融合用于通过融合来自相同编码层和解码层的特征来帮助网络更好地恢复图像。此外对于得到的F5使用软重建进行3×3卷积以获得无模糊图像^J。图2(A)大型核心卷积网络(LKD-NET)体系结构。(B)LKD Block的架构。大核卷积去雾块如图2(B)所示我们的LKD块主要包含两个模块设计的DLKCB和CEFN。DLKCB用于空间维度信息的处理通过增加有效感受野有利于网络保留更多的空间结构信息。CEFN用于处理不同信道的信息。与传统的前馈网络(FN)相比CEFN通过利用信道关注度提高了网络优化的效率(HuSheninand Sun 2018)。CEFN可以不平等地对待不同的频道使网络更加关注关键信息较多的频道。此外我们的LKD块可以被认为是一个类似于Transformer的CNNS插件它使用设计的DLKCB来取代Transformer中的MHSA来提高性能并使用CEFN来取代CNN中的FN来提高效率。因此LKD块可以用作CNN和VITS中的插件模块用于高级和低级计算机视觉任务。此外我们的DLKCB架构具有与基于Transformer的架构相同的纵向扩展能力(Liu等人2021b)(Dosovitski等人。2021)方法使我们的网络能够更好地适应与传统CNN相比具有不同计算性能的设备。详细的实验结果将证明我们的LKD块相对于其他体系结构的效率。分解大核卷积块大的感受场增加了深层模型在特征域空间中捕获更多结构化信息的能力(Wu等人2021)这对图像去混至关重要。最流行的方法是通过堆叠几个小卷积来增加网络的深度(Qin等人。2020)、(Wu等人2021)、(董等人2020a)(例如3×3卷曲)以增加感受野。然而这种方法可以增加理论接受场但在增加有效接受场(ERF)方面受到限制(Luo等人2016)。大量的作品(LongShelhamer和Darrell 2015)(Peng等人2017)(YuKoltun和Funkhoer 2017)已经证明了ERF在视觉任务执行中的关键作用。最近的工作(Ding Et Al 2022)表明大的深度卷积可以有效地增加ERF。然而直接使用大的深度方向卷积会带来大量的计算开销和参数。为了缓解这个问题我们建议分解大核卷积块如图2(B)所示。大核卷积的分解细节如图3所示而常规的大核卷积沿深度方向的分解卷积被分解为沿深度较小的卷积和沿深度膨胀的卷积。参数P(Kd)和触点F(Kd)的大深度卷积的分解方程表示如下其中K表示核大小d表示膨胀率。如图4所示我们比较了直接使用大深度卷积和分解ConvNeXt上大深度卷积的参数数量(Liu等人2022)。我们可以观察到参数差距随着网络和内核的大小而变得更加显著因此我们认为我们的DLKCB在大型网络中将更加有效。如图5所示我们还发现在实践中大核深度卷积的分解可以获得更大的ERF。细节可以在消融研究中看到。频道增强型前馈网络的一些研究(Qin Et Al 2020)(HuSheninand Sun 2018)已经表明不同的频道特征具有完全不同的权重信息。换句话说一些通道特性在网络优化中并不是特别重要。因此如果我们平等对待这些渠道我们将把资源放在不那么关键的信息上并影响网络的性能。为此我们提出了CEFN如图2(B)所示。我们将信道关注度引入到传统的前馈网络中允许传统的前馈网络对不同的信道特征进行重新加权。此外在(Guo等人2022b)(Li等人2021)的基础上我们在传统的FN中加入了3×3的深度卷积使其能够编码相邻像素在特征空间上的位置信息。CEFN的公式表示如下其中表示逐个元素的乘法。X2RH×W×C和^X2RH×W×C是输入和输出特征映射。Norm是批量归一化。α是一个可学习的缩放参数。F_N是前馈网络。CA表示通灵注意力其公式如下所示其中σ是Sigmoid函数GAP表示全局平均池操作。详细的实验表明我们的CEFN比应用于变压器(Liu等人2021B)、(Song等人2022)、(Dosovitski等人2021)和MLP(Liu等人2021A)的FN更有效。图3大深度卷积的分解图。原来的大深度卷积分为较小的深度卷积和深度膨胀卷积。蓝色网格表示卷积核的位置黄色网格表示卷积中心。该图表明13×13深度卷积可以与5×5深度卷积和5×5深度膨胀率为3的深度卷积相结合。图4对于不同的核大小ConvNeXt上的深度卷积和深度卷积的分解之间存在参数差异。实验实现细节我们将LKD-T、LKD-S、LKD-B和LKD-L按照它们的参数数量和计算开销分为四类分别对应于极小、小、基本和大。表2列出了这些变体的配置详细信息。所有型号都在两个NVIDIA Titan XP图形处理器上使用PyTorch 1.10.1实现。利用AdamW(Loshchiov And Hutter 2019)优化器对LKD网络进行了优化其指数衰减率β1和β2分别等于0.9%和0.999。将初始学习率设置为0.0002并使用余弦退火法调整学习率。批次大小设置为16面片大小设置为256×256并随机裁剪。我们只使用L1损耗来优化我们的LKD网络。我们在默认情况下对21×21卷积进行分解这在工作中被证明具有最佳的参数性能折衷(Guo等人2022b)。数据集和评估度量我们的实验是在驻留数据集上进行评估的(Li等人。2019年)。Reside是单幅图像去噪任务中最常用的数据集之一它包含五个子集室内训练集(ITS)、室外训练集(OTS)、合成目标测试集(SOTS)、真实世界任务驱动测试集(RTTS)和混合主观测试集(HSTS)。ITS子集包含13,990个图像对而OTS子集包含313,950个图像对。SOTS包含500对室内和500对室外测试图像。遵循客观评价协议(Qin Et Al 2020)(Wu Et Al 2021)(Song Et Al 2022)我们的LKD-Net分别在300个时期的ITS和30个时期的OTS上进行训练并在SOTS子集上进行评估。同时使用峰值信噪比(PSNR)和结构相似性指数(SSIM)来评估LKDNet和比较现有方法的性能。关于驻留数据集的结果我们定量地比较了我们的LKD-Net和最先进的图像去污方法的性能包括DCP(HeSunand Tang 2009)DehazeNet(Cai et al。2016)、AOD-Net(董等人2020a)、GFN(Ren等人2018)、GridDehazeNet(Liu等人2019)、MSBDN(董等人。2020b)、人阵(DONG和PAN 2020)、FFA-NET(Qin等人。2020)、AECR-Net(Wu等人2021)、UDN(Hong等人2022)、Dehamer(Guo等人2022a)、Maxim(Tu等人2022)。对比结果如表1所示。可以看出我们的LKD-L算法在SOTS室内数据集上的性能优于所有方法。在仅用56%的参数个数的情况下它在PSNR评估度量上比以前最好的方法UDN提高了0.86dB。特别是与基于变形金刚的方法Dehamer相比LKD-L在峰值信噪比评价指标上比Dehamer高3.08分贝仅有1.79%的参数个数和48.9%的FLOP这表明基于变形金刚的方法可能不是低级别计算机视觉任务的最佳选择。此外得益于LKD-Block奇妙的体系结构LKD-Net的所有变体都取得了良好的性能因此我们相信LKD-Net是一种可扩展的方法使其能够适应广泛的不同性能的设备。在SOTS室外数据集上我们的LKD-L的性能不如UDN和Dehamer但差异并不是特别显著(最大差异仅为0.36dB)。然而它们的参数数量是LKD-L的几倍我们认为我们的网络实现了更好的参数性能权衡。我们还将我们的LKD-Net与最先进的图像去浊方法进行了定性的比较可视化结果如图6所示。我们可以看到GridDehzeNet和FFA-Net不能成功地去除图像中的模糊。Dehamer在户外场景中表现得很好。然而它在室内场景中也受到颜色失真的影响(例如第二行字符的背景颜色发生变化)。相比之下Maxim在室内场景中表现得很好。然而颜色过饱和发生在室外场景中(例如第三列中的列车灯光过饱和)。与它们相比从我们的LKD-Net中恢复的图像明显更接近地面真相。通过烧蚀实验验证了LKD网络中各部件的有效性并使用最小模型LKD-T进行了烧蚀分析。我们首先构建一个基本网络作为我们的基线它是通过将深度卷积的21×21分解替换为7×7深度卷积来实现的。将CEFN放入常规前馈网络(FN)用级联取代SK Fusion用全局残差学习取代SR。随后我们将不同的模块替换到基本网络中构造了四种不同的变体(1)BaseSF用SK Fusion替换Base中的级联。(2)BaseSFSR用软重构代替BaseSF中的全局残差学习。(3)BaseSFSRDLK用21×21的深度卷积分解代替BaseSFSR中的7×7深度卷积。(4)BaseSFSRCEFN将BaseSFSR中的常规前馈网络(FN)替换为CEFN。(5)我们的用深度卷积的21×21分解代替BaseSfSRCeFn中的7×7深度卷积。这些模型在其数据集上进行训练并在SOTS室内集上进行评估。表3总结了这些模型的性能。 DLK的有效性。与BASESFSR相比DLK可以显著提高PSNR 1.95dB和SSIM增加了0.007而只引入了0.022M#参数和0.33G Flopps。此外我们还用其他常规的大深度卷积进行了烧蚀实验以展示我们的DLK的优势。表4显示与9×9深度卷积和21×21深度卷积相比我们的DLK使用更少的计算开销和参数获得了更好的性能。我们认为DLK的高效率的主要原因是与传统的大深度卷积相比它可以捕获更大的ERF。为了支持我们的观点我们使用公共工具(代码可在(Ding等人2022)处获得)来可视化LKDNet L3输出的要素地图质心的ERF。如图5所示我们可以观察到DLK 21×21中的红点分布比LK 9×9和LK 21×21中的红点分布更大、更广这表明DLK 21×21确实获得了更大的电流变液。我们还在表5中提供了定量分析其中t代表一个阈值。例如如果t20%且r44%则意味着20%的像素贡献位于4.4%的总像素区域中。我们可以看到DLK 21×21比LK 9×9和LK 21×21具有更平滑的高贡献像素分布这证明了我们的观点即DLK高效的主要原因是它可以有效地捕获更大的ERF。 CEFN的有效性。与BaseSFSR相比CEFN显著提高了性能峰值信噪比提高了1.55dbSSIM提高了0.005仅引入了0.019M#参数和0.2G Flop。我们认为CEFN有效性高的主要原因是渠道关注机制(胡、沈、孙2018)让CEFN更专注于拥有重要信息的渠道。表1在ITS和OTS数据集上培训的各种除杂方法在PSNR、SSIM、参数数目(#Param)和浮点运算(Flop)方面的定量比较。我们使用粗体和下划线分别表示最高和第二高的结果。符号“-”表示该号码不可用。注意Flop是在256×256大小的图像上测量的. 表2LKD-Net配置详情。表3不同结构LKD-T的烧蚀研究图6定性地比较SOTS集上的图像消除方法(放大以获得更好的视图)。前两行是SOTS室内图像后两行是室外图像。第一列是模糊的输入图像最后一列是对应的地面事实。表4不同核大小的常规深度卷积的比较。表5高贡献面积比r的ERF的定量分析。r越大高贡献像素的分布越平滑因此ERF越大。结论提出了一种适用于高性能单幅图像去噪的LKD-Net。所设计的DLKCB能够有效地捕获ERF并对远程信息进行建模而所设计的CEFN能够有效地增强FN中的信道维度特征。评估结果表明LKDNet的性能优于最先进的方法并显著优于基于变压器的Dehamer方法。因此我们认为我们的LKD-Net是一种有效和通用的端到端图像恢复方法可以用于视频去噪和其他低层计算机视觉任务如图像去噪、去雨、去模糊、超分辨率等。此外DLKCB中深度卷积的分解可用于CNN和VITS以提高低级别和高级视觉任务的性能。

查看全文

http://www.pierceye.com/news/577238/