校园电子商务网站建设,最好的wordpress商城主题,网络推广工作好做不,整站优化 快速排名领域转移
根据分布移位发生的具体部分#xff0c;域移位可分为三种类型#xff0c;包括协变量移位、先验移位和概念移位 协变量移位: 在协变量移位的情况下#xff0c;源域和目标域的边际分布是不同的#xff0c;即ps(x)∕ pt(x)#xff0c;而给定x的y的后验分布在域之间…领域转移
根据分布移位发生的具体部分域移位可分为三种类型包括协变量移位、先验移位和概念移位 协变量移位: 在协变量移位的情况下源域和目标域的边际分布是不同的即ps(x)∕ pt(x)而给定x的y的后验分布在域之间保持相似即ps(y|x)≈pt(y|x)(图1)。当不同的传感器、遥远的地理区域或不同的时间窗采集相同光谱波段的数据时就会发生协变量移位。例如Landsat-8和Sentinel-2都提供可见光和近红外波段的观测。然而其传感器之间的中心波长、带宽和空间分辨率的变化可能导致Landsat-8数据和Sentinel-2数据之间的协变量偏移即使在观测相同的土地覆盖时也是如此(Wu et al. 2022)。同样当使用无人机图像进行植物病害识别时由于光照条件的变化在一天中的不同时间窗口收集数据时预计会发生协变量移位(Liu and Wang, 2021)。 先验移位: 在先验移位的情况下条件分布具有很高的相似性但源域和目标域的标签空间的先验分布不同即ps(y|x)≈pt(y|x)和ps(y)∕ pt(y)(图2)。当源域和目标域的标签空间不同时就会发生先验移位。例如在土地覆盖分类中源域数据集通常包含包含许多土地覆盖类别的广阔区域每种类型的出现频率相同。相比之下目标领域可能限于一个较小的地理区域其特征是标签的分布非常不同。因此我们预计这两个领域之间将发生重大的先验转变。 概念转移: 在概念转移中特征变量和响应变量在源域和目标域中的关系是不同的。具体来说协变量的边际分布是相同的但条件分布是不同的即ps(x)≈pt(x)和ps(y|x)∕ pt(y|x)(图3)。当遥感观测未能捕捉到影响因素时会发生条件移位。例如两个国家的玉米田即使具有相似的反射率其产量也可能不同因为灌溉或虫害防治等因素可能影响作物产量但遥感观测无法完全捕捉到这些因素从而导致特征变量与响应变量之间的关系不同。另一个例子是土壤水分估算由于土壤质地和气候的变化相同的光谱反射率值可能对应不同地区不同的土壤水分值。 为了解决领域转移问题提高机器学习模型的可移植性人们提出了将知识从数据丰富的源领域转移到数据稀缺的目标领域。其思想是将模型在源域中学习到的知识和特征表示转移到目标域中完成任务减少所需的数据量提高模型在目标域中的精度和效率。基于不同类型域转移的特点和标记数据的可及性开发了不同的迁移技术。 迁移学习技术的分类 基于微调的迁移学习
基于微调的TL (FTL)是深度神经网络(DNN)的一种流行TL技术已广泛应用于各种遥感应用(Gadiraju和Vatsavai, 2020;Wang等人2018b)。FTL涉及首先在Ds中预训练模型并在Dt中微调其参数(图4)。为了学习鲁棒和可推广的特征表示使用大型、多样化的数据集预训练模型至关重要。因此源样本的数量通常大于目标样本的数量(Ns Nt)并且源和目标域中的学习任务是相关的。然而当目标域中的标记样本不足时对整个神经网络进行微调可能导致过拟合(Mehdipour Ghazi et al. 2017)。幸运的是深度学习模型具有分层架构可以在不同的层学习不同的特征。研究发现最初的层倾向于捕捉通用特征而后面的层更多地关注特定任务(Yosinski et al. 2014)。因此一些研究冻结了预训练的深度学习架构的早期层的权重并通过微调或重新训练最后几层来定制给定任务的模型(Abdalla et al. 2019)。超光速的一个优点是它允许先进的预训练模型适应各种领域。流行的深度架构如GoogLeNet (Szegedy等人2015)VGG (Simonyan和Zisserman, 2015) ResNet-50 (He等人2016)是在具有数百万图像的大型数据集上训练的如ImageNet (Deng等人2009)。通过超光速这些模型可以适用于只有少量数据样本的新任务并且仍然经常获得最先进的结果。此外由于FTL在目标域中使用标签它可以解决所有类型的域转移。然而需要注意的是FTL的有效性取决于Ds和Dt中学习任务的相关性。当预训练任务和新任务在同一范围内时(如图像分类)它更有可能起作用。 多任务学习
与单任务学习为一个任务建立模型不同多任务学习(MTL)是一种TL技术其中训练单个模型同时执行多个任务(Zhang and Yang, 2022)。在MTL中每个学习任务都可以看作是一个域。MTL的目标是最大化模型的泛化性并提高模型在一个或多个任务上的性能。所有领域都有一个共享的特性集而它们的学习任务不同但又相关。对MTL模型进行训练以提取对两个任务都有信息的跨域特征从而提高模型的泛化性。例如神经网络通常用于MTL其设计为每个域具有一组共享的中间层和特定于任务的输出层(图5)(Feng et al. 2021;Nguyen等人2019)。权重共享中间层作为特征提取器提取可泛化和鲁棒的特征而独立的任务特定层用于对每个任务进行预测。在MTL中从每个任务获得的知识是共享的与为每个任务训练单独的模型相比可以提高性能。为多个任务训练单个模型也可以作为一种正则化形式这可以防止对任何单个任务的过拟合并提高模型的泛化性能。此外MTL可以提高可用数据的利用率。当难以为每个任务单独获取大量标记数据时可以使用MTL来为多个任务利用标记数据的可用性。MTL的有效性取决于任务的相关性高相关性的任务允许模型学习对每个领域有用且可转移的知识(Zhang and Yang, 2022)。通常MTL中的每个域都应该共享相同的特征空间。最近一些关于不同领域的相关性和冗余的研究放宽了这一限制并使MTL可以在多种类型的输入上工作(Zamir等人2019)。 Few-shot学习
few -shot learning (FSL)是一种机器学习技术其中训练模型使用很少的标记样本来推广到新任务(Wang et al. 2020)。与FTL相比FSL对标记数据样本的数量有严格的要求。在FSL中使用了各种技术如元学习和度量学习(Wang et al. 2020;Yang et al. 2022)。此外FTL侧重于使预训练模型适应相关任务如果没有额外的微调或再训练可能无法很好地泛化到显著不同的任务或领域而FSL旨在处理不同的任务并更容易泛化到新的和未见过的数据。支持集和查询集是FSL的两个重要组成部分(图6)。具体来说支持集是一个小的标记样本集合用来帮助学习新的任务。查询集是一组来自目标域的未标记样本用于模型评估。查询集通常包含来自与支持集相同的类的示例但与支持集中的示例不同。查询集用于评估在给定支持集中有限的标记示例的情况下模型泛化到新示例和类的能力。FSL中的支持集和查询集可以看作分别类似于源域和目标域。基于样本可用性FSL方法可以大致分为三种类型包括few -shot(每个类的几个训练样本)One-shot(每个类的单个训练样本)和zero -shot(每个类的零训练样本)(Lu et al. 2023)。根据学习策略的不同FSL方法可以进一步分为四种类型(Wang et al. 2020;Yang et al. 2022)包括基于数据的FSL、基于度量的FSL、基于优化的FSL和基于模型的FSL。提出了基于数据的FSL方法通过生成合成数据样本的数据增强来解决新任务缺少标记训练数据的问题。这种方法包括学习生成模型如变分自编码器或生成对抗网络(GAN)。基于度量的FSL是研究最广泛的方法(Sung et al. 2018)其中模型旨在学习一个度量或相似性函数该函数可以将查询示例与任务的支持示例进行比较并根据相似性进行预测(图6)。基于支持集和查询集之间的相似性得分模型可以对未见过的查询样本进行推断和预测。基于优化的FSL旨在学习一个合适的初始化参数并在不过度拟合的情况下在几个步骤内更新模型参数。基于模型的FSL试图从模型体系结构的角度实现快速适应。示例包括基于外部存储器的方法其中在模型中添加额外的存储器模块以存储少数未见过的样本的特征信息(Wang et al. 2020;Yang et al. 2022)。总之FSL使模型能够快速适应和推广到具有有限标记数据的新领域。FSL利用来自类似任务的先验知识使他们能够有效地学习新概念。更重要的是FSL提供了高度的灵活性使模型能够很好地泛化到不可见的任务这使得FSL适用于经常出现新数据和任务的现实应用程序。相应地FSL可以用来解决先前的转移并对新的和未见过的任务表现出很强的适应性。
无监督域自适应
无监督域自适应(UDA)通过基于标记的源数据和未标记的目标数据对齐源和目标域中的特征分布来解决域移位问题(图7)(Tuia et al. 2016)。在UDA设置下Ds和Dt具有相同的学习任务Ds中有足够的标记样本而Dt中只有未标记样本(Zhao et al. 2022b)。UDA模型通常被设计成具有两个目标的共轭体系结构分别完成主要学习任务和减少域漂移的任务。主要目标是通过最小化相应的损失函数例如回归的均方误差(MSE) (Sun et al. 2022)和分类的交叉熵损失(Kwak and Park, 2022)来学习基于源域标记样本的任务特定模型。另一个目标是通过减少域移来对齐Ds和Dt之间的特征分布。基于特征对齐策略UDA方法大致可分为基于转换的方法、基于差异的方法、基于对抗的方法和基于生成的方法(Kouw和Loog, 2019;Wang and Deng, 2018)。基于转换的方法将源域和目标域的实例映射到具有可转移组件的子空间。代表性的例子包括传递分量分析(TCA) (Pan et al. 2011)它通过使用权重矩阵对源数据和目标数据的核特征进行线性组合将它们转换成一个共同的特征空间。基于差异的方法通过最小化其分布差异来对齐源和目标特征例如最大均值差异(Othman等人2017)、Wasserstein差异(Shen等人2018)和矩差异(Zellinger等人2017)。然而基于差异的方法通常涉及高复杂性的差异计算(Chadha和Andreopoulos, 2019)。最近基于对抗性的模型由于其训练简单和在最小化领域转移方面的成功而变得越来越流行。基于对抗性的模型通过对抗性学习进行训练直到源域和目标域对齐。领域对抗神经网络(DANN)是最流行的基于对抗的UDA模型之一(图8)其中使用领域分类器来测量领域移位并针对领域分类器对抗性地训练特征提取器以提取领域不变特征(Ganin等人2017)。此外基于生成的方法基于GAN来实现源域和目标域之间的风格转换(Bellocchio et al. 2020)。这些方法通常使用生成器通过转换源数据以匹配目标域的样式来减少域移位。本质上UDA通过对齐源域和目标域中的特征分布来减少域漂移。它使ML和DL模型在不同的领域之间更加一般化和可转移而不需要从目标领域获得标记的数据样本。UDA方法利用标记和未标记的数据从而提高了模型在目标任务上的性能。大多数UDA方法旨在减少协变量移位。一些UDA的变体如部分域自适应(PDA)可以通过部分对齐共享标签空间中的源域和目标域来解决先验偏移(Gu et al. 2021;Zhang et al. 2018)。还提出了减少概念转移的UDA方法例如最大分类差异(MCD) (Saito et al. 2018)。 Self-supervised学习
上述TL技术可以有效地减少对标记目标样本的依赖但仍然需要来自源域的训练样本。然而识别一个相关的源域仍然需要时间我们可以从中学习相关的知识并标记数据。减少对源标签的依赖并实现标签效率的一种有希望的方法是自监督学习(SSL)其中模型学习预测输入数据的某些属性或特征而不需要显式标签或注释(Jaiswal等人2020;Liu et al. 2023b)。SSL通过构建作为一种监督形式的借口任务来引入监督信号。根据模型架构和学习目标主流SSL方法可以归纳为三类(Liu et al. 2023b)包括基于生成的SSL、基于对比的SSL和生成-对比的SSL(图9)。具体而言基于生成的SSL通常采用学习重构输入数据的自编码器架构(图9 (a))。它由一个将输入数据x压缩成低维表示z的编码器和一个输出重构数据x的解码器组成。通过最小化重构误差它学习到有用的数据表示。例子包括在自然语言处理(NLP)中预测给定前一个单词的下一个单词(Brown et al. 2020)。基于对比的SSL涉及训练编码器以获取表征z该表征z捕获相似样本(正对(x, xpos))之间的共享特征同时识别不同样本(负对(x, xnegative))之间的差异(图9 (b))。通常正对由同一样本的两个不同视角组成通过随机数据增强获得而负对则使用数据集中不相关的样本形成(He et al. 2020)。通过最小化对比损失编码器被训练来提取有意义的特征z并在未标记的数据中区分相关模式从而促进下游任务的改进泛化。示例包括识别图像中打乱补丁的正确位置(Misra和Maaten, 2020)。生成-对比SSL也称为基于对抗性的SSL也利用了自动编码器架构。一个称为鉴别器的附加组件被引入并与自编码器一起训练(图9 ©)。鉴别器的作用是区分自编码器产生的生成数据x和原始输入数据x。自编码器和鉴别器以对抗的方式进行训练以最小化生成数据和原始数据之间的分布差异。自编码器和鉴别器之间的这种相互作用促进了高质量表征z的发展并有助于模型很好地推广到下游任务。例子包括着色(Cheng et al. 2015)和喷漆(Iizuka et al. 2017)。SSL方法适用于源域中没有标记样例的情况。在SSL阶段训练模型来解决需要理解和从数据中捕获相关信息的借口任务而不需要显式标记。这允许模型利用大量可用的未标记数据并学习有价值的知识。学习到的表示可以通过微调等技术适应特定的下游任务其中ssl训练的模型在特定于下游任务的较小标记数据集上进一步训练。总之特定任务的最佳TL技术取决于各种因素如标记数据的可用性、源和目标学习任务的相关性以及学习任务的目标。具体来说如果目标域中可用的标记数据数量有限则可以考虑利用数据丰富的源域中预训练模型中的知识。如果手头有多个相关的任务可以应用MTL通过在任务之间共享信息来提高一个或多个任务的性能。如果一个人主要处理先验转移并且目标是将模型推广到新的任务那么FSL可能是最佳选择。当源域和目标域具有相同的学习任务并且目标域中没有可用的标签时最适合使用UDA。最后当没有合适的源域并且有大量未标记的数据可用时最好使用SSL。此外混合迁移学习(HTL)结合了两种或多种不同的迁移学习方法在某些条件下可能是一种有效的技术。例如有研究将FTL和UDA结合起来使用预训练的深度模型作为UDA的主干(Sicilia et al. 2023)。研究人员还通过SSL对未标记的遥感图像进行模型训练以学习具有代表性的特征。然后训练后的模型通过FTL适应下游任务(Cong等人2022)。html可以解决个别TL技术的一些限制。然而优势将取决于具体的应用程序和所使用数据的质量。