当前位置：首页 > news >正文

html5响应式网站源码建设积分兑换官方网站

news 2025/11/20 0:26:22

html5响应式网站源码,建设积分兑换官方网站,成都网站建设3六六,汕头网站制作公司价格Class-Guidance Network Based on the Pyramid　Vision Transformer for Efﬁcient Semantic Segmentation of High-Resolution　Remote Sensing Images 摘要多分类语义分割中类之间的小差异和类内的大变化是全卷积神经网络的“编码器-解码器”结构没有完全解决的问题#…Class-Guidance Network Based on the Pyramid　Vision Transformer for Efﬁcient Semantic Segmentation of High-Resolution　Remote Sensing Images 摘要多分类语义分割中类之间的小差异和类内的大变化是全卷积神经网络的“编码器-解码器”结构没有完全解决的问题导致对容易混淆的类别的不精确感知。为了解决这个问题在本文中我们认为足够的上下文信息可以为模型提供更多的解释线索。此外如果我们能够挖掘每个语义类的类特定感知信息我们可以在解码过程中增强属于相应类的信息。因此我们提出了基于金字塔视觉变压器PVT的类引导网络。具体来说以PVTA为编码器网络接下来的解码过程由三个阶段组成。首先我们设计了一个利用并行分支处理和不同的扩张率将接收场扩展到不同的程度。其次我们提出了一个语义引导块利用高级特征来引导低级特征的通道增强。第三我们提出了类引导块来实现相邻特征的类感知引导并通过渐进方法实现细化分割。根据波茨坦和瓦辛根数据集的实验发现该方法的总体准确率分别为88.91%和88.87%。一、导言随着高分辨率遥感地球观测的快速发展和卫星数据分辨率的不断提高遥感影像的鲁棒语义分割对于地球观测[1]、土地利用[2]、土地覆盖[3]和城市规划[4]、[5]至关重要在更早的时代传统的machine-learning-based技术试图利用少量的手工特征即形状、纹理和颜色来实现分割遥感影像中地物的数字对象标识符。然而各种地物的复杂分布使得保持鲁棒性和泛化变得困难导致精度和移动性差[6]、[7]、[8]。很久以前由于特征表示能力强以卷积神经网络CNN为代表的深度学习方法被引入遥感影像的语义分割并取得了巨大的进展。 [9]受限于初始CNN的固定输入大小全卷积神经网络FCN[10]被提出来成功地解决了这一问题同时FCN的编码器-解码器结构已经成为当前深度学习方法的主流框架详细来说编码器旨在通过执行一系列卷积运算来产生多级特征解码器专注于聚合编码特征的有用信息并将其融合以输出最终分割结果基于这样的“编码器-解码器”框架近年来出现了众多网络它们总是采用公共骨干网作为编码器如VGG[11]、ResNet[12]和DenseNet[13]并在解码器中采用各种策略来克服巨大的类内方差和较小的类间差异带来的挑战。起初由于只有光谱信息不足以区分地面物体和复杂的周围环境因此利用多尺度背景信息来辅助地面物体的识别[14]一些研究人员已经尝试了很多通过多尺度训练或特征融合来有效获取和融合多尺度信息这可以解决场景物体大小不一带来的问题。随后一些研究[15]、[16]试图从全局角度建立远距离依赖以获取足够的全局上下文信息。此外由于卷积运算的感受域有限已经提出了许多扩展感受域和丰富上下文信息的工作。HRNet[17]采用并行方法来保持高分辨率表示并融合多个特征。U-Net[18]通过跳过连接将深层语义信息与浅层详细信息结合起来然而它只能从单个尺度输出特征。一些网络利用扩张卷积或反卷积以在各个级别扩展感受野以提供更全面的空间上下文建模以改进多尺度特征表示[19]、[20]、[21]、[22]。DeepLabV3[23]开发了atous空间金字塔池ASPP以捕获各种尺度的上下文信息并使用具有不同扩张率的多个平行层atous卷积允许atous卷积生成的特征图具有与输入相同的分辨率使每个输出神经元在不增加核参数数量的情况下具有更大的感受野大小。为了建立局部和全局的关系并获得更多的尺度上下文信息用更高层次的语义学对模型进行编码以获得不同的接收域信息。PSPNet[24]引入金字塔池模块PPM来聚合来自多个接收域大小的信息并对不同区域的全局上下文信息进行整合通过上采样将其分配给每个像素获得了优秀的像素和预测结果但计算效率相对较差。 ABCNet[25]通过双边架构捕捉高分辨率遥感图像中丰富的空间细节和全局上下文信息并设计特征聚合模块来融合两条路径获得的特征但上下文路径呈现复杂的参数和计算。MANet[26]采用不同扩张率和全局平均池化GAP的两层无角卷积并行提取多尺度上下文信息以解决遥感图像中目标大小差异大的问题并嵌入通道注意机制来融合语义特征。变压器[27][28][29]以其通过自聚焦获得全局上下文知识的能力在最近的视野中大放异彩。一般来说CNN的成功取决于其两个固有的归纳偏差即平移不变性和局部相关性。视觉转换器的结构中通常不存在这一特征导致需要大量数据来超越CNN的性能。一般来说CNN可以获得更有效的局部特征。[30]然而CNN有限的接收场使得获取全局信息具有挑战性而转换器可以捕获长距离依赖关系。因此通过组合CNN和变压器网络结构可以最好地保留局部和全局特征同时继承每个特征的好处。 STransFus[31]将swin变换器模型与预训练的Resnet34相结合作为CNN主干并使用分段模型提供丰富的粗粒度和细粒度特征表示。ICTNet[32]解码设计swin变换器块和卷积块CB部署和交错提取特征以及编码器阶段的编码特征聚合。CCTNet[30]结合了CNN和变换器分支捕获的本地和全局上下文信息以避免破坏它们各自的特征。基于前述我们将金字塔结构引入变换器框架PVT金字塔视觉变换器[33]以生成多尺度特征图。 PVT仍然生成一个全局感受场它更适合语义分割等内涵预测任务。与ViT[34]相比[35]它也使用非卷积模型来代替CNN主干具有学习高分辨率表示的优势同时还开发了渐进收缩金字塔和空间缩减注意力层以降低计算成本和资源消耗[33]。与前人的工作不同我们认为由于遥感图像中存在较小的类间方差和大的类内方差更容易出现误分类和遗漏。为了解决这个问题在本文中我们从两个角度进行探讨。一方面我们认为遥感图像覆盖的地物范围很广足够的上下文信息可以为模型提供更多的解释线索。另一方面如果我们能够挖掘每个语义类的类特定感知信息我们就可以在解码过程中增强属于相应类的信息。因此我们提出了基于PVT的类-导网络。详细地说PVT-v2-b2作为编码器网络CNN作为解码器将避免破坏CNN和变压器各自的特性。下面的解码过程由三个阶段组成。首先参考实践[36]多尺度上下文信息对增强编码特征具有重要意义。一般情况下每一层的感受域是固定的这会丢失一些信息失去区分不同视域的能力例如中心附近的重要部分。此外根据[20]感受野中的像素对神经节点输出的贡献是不一样的更具体地说感受野中心的像素的贡献更大。因此基于这些我们使用类似于inception[37]和ASPP[23]的思想设计了一个感受野块RFB我们利用不同核大小的多分支池化结构并利用对偏心的无定形卷积。第二由于粗糙的上采样操作地理对象的空间位置和边界信息严重丢失导致结构不完整和边界粗糙。同时大多数网络的特征表示能力不足以应对容易混淆的地理对象。[16]然而高级语义特征和低级视觉特征之间存在固有的语义差异直接融合不同级别的特征会导致表示错误。鉴于上述问题我们提出了语义引导块SGB利用高级特征来引导通道中低级特征的增强。并为每个通道学习一个自适应权重以确定哪些通道需要更多关注。第三当发现对高层特征进行直接多层卷积运算得到的分割结果比较粗糙时我们建立了一种类感知引导机制通过一种新颖的类引导块CGB挖掘类感知信息即利用粗分割结果引导融合两个相邻特征进行更精细的分割。在本文中将变换器的全局上下文与CNN的局部细节相结合将有助于提高遥感图像语义分割模型的质量本文的结果具有以下三个明显的特点。 1设计了多尺度感受野扩展模块以获得更丰富的上下文信息。 2通过类别关系矩阵提高前景的感知 3CGB逐层引导特征融合和增强输出更精细的分割结果。二、方法如图1所示我们提出的基于PVT的类制导网络的总体架构基于典型的编码器-解码器结构。特别是我们采用预训练的PVT-v2-b2作为编码器网络从输入的遥感图像中提取多级编码特征。之后我们开发了一套新颖而强大的解码策略来解释多级编码特征。整个解码过程可以分为以下三个阶段。 1在第一阶段为了实现多尺度上下文信息的提取我们引入了一个RFB来扩展感受域丰富每一层特征的多尺度上下文信息。 2在第二阶段我们提出了SGB来利用最高级别的语义信息来实现对其他低级特征的增强。 3在第三阶段在分割结果相对粗糙的情况下我们提出了CGB来实现相邻特征的类感知引导并输出精细的分割结果。表I提议网络的详细架构基于渐进式策略我们最终可以获得详细的分割结果。表I描述了提议网络的详细架构。通过全局自适应池化获得扩展感受野的四层特征图以获得信道响应图然后与前一层特征相乘相加完成高级特征和低级特征的融合。 A.金字塔视觉变压器PVT PVT继承了CNN和变压器的优点在那里它可以作为CNN骨干网的直接替代品。PVT的整体架构如图所示图2. PVT的整体架构设置细粒度图像块4×4像素作为输入整个金字塔架构分为四个阶段以产生各种尺度的特征图输出分辨率从高到低逐渐降低从4条到32条。所有阶段的架构相似由贴片嵌入和变压器编码器层组成。[33]。图2。它不仅可以在图像的密集分区上训练以实现高输出分辨率还可以使用渐进收缩金字塔来减少大型特征图的计算。并采用空间缩减注意力SRA来进一步减少学习高分辨率特征时的资源消耗。计算公式如下[33] B.接受野阻滞Receptive Field BlockRFB 如前所述在PVT-v2-b2实现特征提取后我们尝试引入足够的上下文信息我们设计了RFB。如图3所示所提出的RFB由四个并行分支组成。在每个分支的开头我们都使用1×1卷积来降低输入特征的原始通道维数。对于第一个和第二个分支我们将它们视为输入特征的原始信息分别用于最终的残差结构和级联。对于最后三个分支我们使用三个连续的卷积操作具有不同的核大小和atware速率。我们使用四个并行分支的原因是我们试图构建一个并行结构接受域呈指数变化。详细地说1×7、7×1处理的接受域和1×5、5×1处理的接受域是1×3、3×1处理的接受域的四倍和两倍。此外1×1卷积的使用是为了降低输入特征的原始维数我们使用元素加法和级联来尝试对空间和通道方面的原始信息进行聚合。具体来说我们首先使用核大小为1×2k−3和2k−3×1的两个卷积从两个垂直方向捕获信息然后我们利用2k−3k2的3×3卷积来扩展输入特征的感受野。随后我们将最后四个分支b2、b3、b4、b5连接在一起。最后我们使用残差连接添加第一个分支的特征和连接的特征并伴随ReLU激活函数来进一步增加处理后特征的非线性。在这一系列操作下通过扩大感受域和丰富多尺度上下文信息来增强输入特征。 ASPP模块结构[21]、[38]作为本文并行卷积多尺度上下文提取方法的基础。许多模块使用atous卷积或大型卷积以粗略地增加感受野。ASPP使用不同的扩张速率将多个Atrous卷积特征连接到最终的特征表示。我们的输入图像具有高分辨率。要在ASPP中实现足够大的感受野必须采用足够大的扩张比。然而随着扩张速率的增加例如d24atous卷积变得越来越无效[20]。因此我们对ASPP的改进是使用多个卷积改变atous速率并且每个分支都是一个字符串而不仅仅是一个简单的卷积操作这可以捕获更多的上下文信息。然后连接每个分支的输出结果以创建多尺度特征图。 C.语义指导块Semantic Guidance BlockSGB 众所周知最高级别的特征总是拥有足够多的语义信息这些语义信息与关于类和属性的抽象信息相关。为了抑制较高的误报率一般分割容易将背景中的一些物体判断为前景本文设计了SGB来加强前景之间的联系增强前景和背景之间的差异。具体来说我们提取网络中最深的全局特征向量计算当前特征中场景和目标之间的语义关系从而得到关系矩阵可以进一步用于增强图像中的前景特征并减少误报。本文通过GAP从全局特征中生成通道权重全连接层自适应学习这些权重最后通过乘以这些权重调整融合特征对于每个金字塔级别关系建模的流程细节如图3所示。对于更高级别的特征图　　低级特征图这里H、W、C分别表示图像的高度、宽度、通道数我们首先对深层特征图Fh使用全局自适应池化得到通道响应图R为然后我们进行1×1卷积来降低R的维数我们可以得到R0。R0的通道数是R的一半。然后我们对R0使用sigmoid函数并将其替换为概率R1作为让每个通道的权重范围从0到1即这些C通道的权重值这样我们就可以在训练过程中从关系矩阵中知道哪个通道更重要哪个通道不太重要。我们可以通过关联空间场景的相关上下文来提高前景特征的识别能力。然后我们将R1与降维F l相乘完成高级特征和低级特征的融合得到最终融合特征的特征图F。 D.班级指导块Class Guidance BlockCGB 密集金字塔网络[39]将金字塔池模块与两个卷积层相结合以实现多分辨率高水平和低水平特征融合。此外特征金字塔网络[40][41]被设计为通过向上采样后将更高级别的特征与更低级别的特征相结合并将额外的语义信息从上到下整合到具有足够空间信息的更低级别的特征中从而连接较低级别和更高级别的语义信息。基于此我们通过使用shallogh空间细节和深度强语义学来改进特征图这有利于恢复对象的细节和多尺度上下文建模。随后设计了CGB。在所提出的CGB中较高层次的特征由CB处理得到粗分割结果。粗分割结果用于指导两个相邻特征的融合随后的解码输出更加准确。具体来说对于前一层预测的使用我们提出了一种渐进式引导策略利用前一层预测帮助特征的相邻层学习相对确定的空间关系。关于前者的预测它已经对每个像素拥有相对特定的语义类我们使用Sigmoid函数将每个像素与每个类的相应概率分配由此产生的误差将被融合过程大大消除我们可以清楚地增强特征并输出更精细的分割结果。根据这种策略逐层引导特征增强得到四个输出结果四个特征的融合对应四个输出最后一个输出结果是最精确的输出。具体步骤如下。对于更高级别的特征图　　低级特征图首先对F l进行上采样使其大小变为RB×C×H×W然后我们将高级特征和低级特征逐个元素相加得到M属于RB×C×H×W。然后我们将最后一个粗略分割结果的通道分离出来得到Pi Pi　RB×1×H×Wi1,2…N。对Pi进行sigmoid运算Pi上每一点的概率值表示该点的像素属于该类别的概率然后将M乘以得到每个类别的增强特征MiλRB×C×H×W i1,2…N。逐个元素添加每个类别元素的特征得到特征图O为最后可以通过三个卷积输出最终结果。三、实验结果和分析 A.数据说明本文选取ISPRS官网链接的Potsdam和Vaihingen数据集作为实验数据样本两个数据集的图像及其对应的标签如图4所示。 1波茨坦波茨坦数据集图像具有5厘米的空间分辨率。数据集中的每个图像都包含一个仿射变换文件可用于根据需要将其分解为更小的图像。数据采集由GeoTIFF的三个波段组成。该数据集还提供tiff存储形式的图像通道组合包括IR-G、R-G-B和R-G-B-IR。在本实验中选择带有边界标签的图像作为标签图像包括六类不透水表面、建筑物、低矮植被、树木、汽车和杂波。我们使用图像2_13、2_14、3_13、3_14、4_13、4_14、4_15、5_13、5_14、5_15、6_13、6_14、6_15和7_13作为测试集2_10作为验证集其余的作为训练集。 2VaihingenVaihingen数据集图像空间分辨率为9 cm包括33个真正射照片平均空间尺寸为2494×2064。地面实景包括与ISPRS Potsdam基准相同的七个类别。我们使用4、8、12、14、20、24、29、33和38作为测试集30作为验证集其余作为训练集。根据与Postdam相同的数据切割方法实验中仅使用红色、绿色和蓝色通道。 B.实验参数设置参数集应在实验前精确建立和识别。我们在NVIDIA GeForce RTX3090 GPU上训练网络它们完全具有24GB RAM。对于这两个数据集中的每一个我们分别训练我们提出的网络。表II描述了一些数据描述和训练细节。训练环境是Pytorch1.8.1和cuda11.1使用Adam优化器。我们根据训练纪元调整学习率。初始学习率设置为10-4每50个纪元衰减十次共100个纪元。因为经过实验精度达到饱和100个时期的状态。以多类交叉熵作为损失函数用语义分割中常用的另外两个损失函数Dice损失和NLLLoss进行消融实验证明其有效性。 C.评估指标选择整体准确度OA、平均intersection-over-unionmIoU和F1-markF1作为我们的评估标记以充分评估该方法的语义分割结果。此外对于像素级分类任务当类别不均匀时利用精度和召回进行预测分别由8和9计算 OA表示整体像素的整体评估结果公式如下 F1分数是召回率和准确率的综合衡量标准其公式如下 IoU是指类别与真实标签的预测结果之间的交集和并集之间的比率。mIoU是指所有类别的IoU平均值其公式如下在所有公式中N代表类别的数量N1代表所有类别加上背景。许多指标是基于混淆矩阵计算的其中一些定义如下真正、真负、假正和假负TP、TN、FP和FN。TP和FP分别是正确和错误预测为前景的前景像素数TN和FN分别是正确和错误预测为背景的背景像素数。 D.与现有作品的比较如前所述我们设计的基于PVT的前景感知网络模型是PVT与传统卷积解码器相结合的分割网络目的是丰富具有长期依赖关系和局部模式的全局上下文信息以提高分割精度。因此对分割精度的数值评估进行了实验研究包括UNet2015、PSPNet2017、DeepLabV32018、HRNet2020、ABCNet2021、MANet2020和SegNet2017。 1波茨坦数据实验结果波茨坦数据集用于第一系列实验可视化比较结果如图5所示分别表示裁剪后和裁剪前的可视化结果。很明显PSPNet产生了低精度的分割结果并且不够鲁棒性以保留微妙的前景边缘这导致提取的建筑物形状不规则和边界模糊。本文中使用的策略导致建筑物的边缘线更直直角更明显。几乎所有预测区域都与参考标签匹配。由于变压器对全局关系进行建模的能力PVT可以比CNN模型更准确地分割巨大的对象如建筑物。此外其他模型方法在低植被和树木方面表现出严重下降的性能。在本文中通过计算相关性得到权重矩阵并对特征值进行自适应增强或衰减使类的像素值表示更加准确从而可以看到树木和低植被之间的小类之间的差异。所提出的方法在这些具有挑战性的类别中显示了更平滑的结果。我们计算了每个类别的IoU以及每个被检查模型的其他指标的平均值。表III提供了调查结果的摘要。从结果可以看出本文提出的基于PVT的前景感知网络在F1 Ave、OA、mIoU中排名第一在F1平均中获得85.79%的结果在OA中获得88.91%的结果在mIoU中获得77.32%的结果。UNet是所有使用CNN作为骨干的网络中最好的。与我们的方法相比F1 Ave、OA和mIoU分别提高了0.95%、1.33%和1.49%。虽然在比较五种技术时考虑了特征融合但没有考虑特征融合的权重。我们提出的方法可以通过学习融合特征的权重来进行修改。结果我们的方法可能会对数据进行分类更准确地消除误报更有效地解决容易混淆类别的错误感知问题。例如很容易对低植被和高树木进行错误分类。但是我们的方法在这两个类别中表现更好IoU分别上升了1.95%和2.76%。这些结果证明了我们解码器设计的有效性。此外与其他类别相比车辆类别是一个小目标不透水表面类别是一个大目标。这两个类别的IoU值分别增加了0.46%和2.28%这表明我们提出的多尺度上下文提取方法PVT可以解决两个对象的大小和形状悬殊过大的问题并在大规模数据集中获得更大的收益。因此基于变压器的网络在语义分割方面提供了与大多数基于ResNet的方法相比具有竞争力的准确性。为了验证我们的整个过程我们验证了预测1-4的准确性结果如表四所示。通过我们的CGB获得了四层特征融合输出结果。最后的输出结果是最详细的。与第一次粗分割结果相比mIoU可以提高4.58%证明本文设计的编解码结构可以更准确地提取特征有效地融合特征从而提高分割性能。 2Vaihingen数据实验结果第二组实验是在Vaihingen数据集上进行的。视觉比较结果如图6所示。观察到其他方法分割结果中的汽车是粘附的和不完整的识别出的汽车边界信息不够准确。我们的方法可以在没有粘度的情况下准确地绘制完整的形状和区分小地物如汽车。此外在HRNet、DeeplabV3和PSPNet产生的数据中可能会看到一些缺失和错误提取的区域建筑物边缘周围有明显的失真。UNet和ABCNet减少了不正确划分和缺失划分的发生。比较表明我们的方法提取了更全面的较小建筑对于所有比较模型我们计算了每个类别的F1和其他指标的平均值。结果总结在表五中。结果表明我们的方法对Vaihingen数据集的OA为88.87%F1的平均值为82.05%mIoU为71.79%分别比其最接近的竞争对手UNet高出1.48%、3.5%和3.73%。虽然Vaihingen的数据量相对小于Potsdam但我们的方法仍然取得了更好的性能。特别是对于车辆类别IoU增加了3.59%。由于树木和建筑物阻挡了占训练图像像素一小部分的汽车因此很容易被错误划分或遗漏。网络模型我们提出使用PVT提取不同尺度的特征解码器设计部分自适应融合不同层次的语义信息。因此即使前景对象在图像中占据很小的区域也可以对其进行恢复和组合以生成有效的特征并进行准确的分割。在实验结果中尽管类别分布不均匀但平均准召在所有类别中分别上升了0.79%和3.63%。数值结果和可视化结果证实了我们方法的有效性。此外我们还验证了Predic1-4的准确性如表VI所示。与第一次粗分割的结果相比类别引导到最后一次的输出结果可以提高16.07%。这证明我们提出的网络架构显示出比其他五种模型更好的分割性能。 E.计算和参数效率我们在表VII中报告了在两个数据集上进行训练和测试的运行时间以及不同模型的参数数量。在这个表中有两个指标具体如下。 1参数是指模型中包含的参数数量用于度量模型的大小计算空间复杂度。与其他大规模网络如HRNet70M参数、MANet59M参数、SegNet29M参数相比我们的架构25M参数的参数明显更少。 2每秒帧数FPS表示网络每秒可以处理的图像数量或处理图像以评估检测速度所需的时间时间越短速度越快我们的架构有比绝大多数传统CNN更低的时间复杂度。 F.消融实验消融实验结果本文选用PVT作为编码器在解码部分以UNet结构的U形结构为基线由RFB、SGB、CGB三组分组成在ISPRS Potsdam和Vaihingen数据集上对烧蚀实验进行了评估并对烧蚀研究进行了定量检验以证明本研究中解码器三阶段技术的功效表VIII显示了消融实验结果。 1基线我们选择PVT作为特征提取的编码器并将输出的四层特征图输入到解码器解码部分以UNet结构的U形结构作为“基线”基线可以作为评估网络组件性能的标准。 2基线RFB在解码器中RFB被设计为捕获全局上下文信息分支和处理每一层的特征并获得不同的特征图因此一个简单的变体更能捕捉多尺度上下文信息。与基线相比“基线RFB”的性能将证明RFB的有效性。 3BaselineSGBandBaselineRFBSGB丰富的空间信息对于语义分割至关重要因此需要创建具有多尺度和高级语义信息的特征图。为了利用最高级别的特征为其他低级特征提供语义指导我们提出了SGB。该表显示“基线SGB”在mIoU方面比“基线”高出0.76%和0.25%而“基线RFBSGB”比“基线RFB”高出0.67%和0.43%证明了SGB在特征融合方面的功效。 4基线CGB和基线RFBCGB CGB通过逐层特征增强、每个类别逐个元素特征添加以及上下文和空间信息融合来实现四层特征融合。在mIoU方面“基线CGB”比“基线”高1.79%和0.77%而“基线RFBCGB”比“基线RFB”高0.67%和0.60%证明了这种分段融合方法的有效性。 5BaselineRFBSGBCGB结合工作解码器设计的三个组件的方法实现了更高的精度。与“基线”相比“BaselineRFBSGBCGB”的分割性能在mIoU中提高了3.02%和1.23%证明本文提供了最佳融合方案。此外我们在Vaihingen数据集中通过烧蚀实验比较不同损失函数的性能以证明本文中用作损失函数的多类交叉熵的可靠性实验数据结果和可视化结果如表IX和图7所示本文中使用多类交叉熵作为损失函数对于大多数类别的分割效果和准确性是最好的。 IV.结论引入PVT作为编码器成为像素级密集预测任务设计的纯变压器骨干显示了多尺度建模在远距离视觉依赖方面的优势。在有限的计算和存储资源下PVT可以灵活学习多尺度和高分辨率的细粒度特征并将其与流行的ResNet提取的特征图进行比较证明其具有比CNN更强大的特征表达能力。它还可以帮助区分容易混淆的地理对象。我们利用CNN开发了一种特殊的解码和分割方法称为类引导网络并设计了三个模块来高精度和高效率地恢复特征。在获得精确的多尺度特征时我们使用相关性来监控各种场景中像素之间的关系。然后我们建立了类感知引导机制来挖掘类感知信息并通过渐进方法实现精细分割。我们使用烧蚀研究来证明每个模块的有效性。本研究仅限于研究如何提高网络模型的分割精度。PVT对于高分辨率输入的计算复杂度仍然很高。未来我们鼓励进一步研究变压器和CNN的深度集成。在此基础上我们讨论如何计算复杂度并获得高效的分割方法。承认作者非常感谢ISPRS提供的数据集和W. Wang等学者提供的PVT相关知识点。

查看全文

http://www.pierceye.com/news/153345/