当前位置：首页 > news >正文

备案网站系统网线制作心得体会

news 2025/12/29 1:30:30

备案网站系统,网线制作心得体会,丰台路网站建设,长春网站排名优化论文链接#xff1a;Continual Learning with Pre-Trained Models: A Survey 代码链接#xff1a;Github: LAMDA-PILOT 持续学习#xff08;Continual Learning, CL#xff09;旨在使模型在学习新知识的同时能够保留原来的知识信息了#xff0c;然而现实任务中#xff…论文链接Continual Learning with Pre-Trained Models: A Survey 代码链接Github: LAMDA-PILOT 持续学习Continual Learning, CL旨在使模型在学习新知识的同时能够保留原来的知识信息了然而现实任务中模型并不能很好地保留原始信息这也就是常说的灾害性遗忘Catastrophic forgetting问题。传统的CL方法需要从头开始训练模型从随机初始化参数开始训练目前基于大规模数据训练得到的预训练模型为持续学习带来了新的研究思路预训练模型鲁棒的泛化性给予新任务学习较为成熟的参数也因此基于预训练模型的CL方法已逐渐成为研究热点。作者将基于预训练模型的CL方法分为三种Prompt-based方法、representation-based方法和model mixed-based方法。 1. Prompt-based 方法在使用模型全局tuning的方式适应下游任务时预训练模型的泛化性能会被严重削弱因此Prompt-based方法在保持预训练模型参数权重不变的条件下增加额外可学习的Prompt tuning 模块来实现对下游任务的泛化这样就能较好地保持原模型的泛化性能。 Vison Prompt TuningVPT在feature patch中串联了一组可学习的参数P然后使用最小化交叉熵损失的方式将特定任务的信息嵌入到预训练模型中。 VPT这种方式虽然可以较好地保留模型的泛化性但是在面对新的任务时以往的Prompt模块的知识同样被覆盖依旧遭遇了灾难性以往问题。为此有学者提出了Prompt Pool的概念设计了Prompt模块的集合即P{P1,P2,…,Pm}(m表示该Pool的最大尺寸)。Prompt Pool的思想有效避免了单一Prompt的问题但是Pool的设计使得其需要进行Prompt Selection操作也就是需要将特定任务与其对应的Prompt模块进行索引匹配。 L2P算法是一种较为常用的Prompt selection算法该算法设计了一种Key-Query的Prompt匹配方法也就是为每一个Prompt提供一个可学习的索引键k即P{(k1,P1),(k2,P2),…,(km,Pm)。L2P利用预训练模型将输入特征编码到Key对用的嵌入空间中然后利用余弦距离损失函数在已有的Pool中搜索最近似的Key。接着利用如交叉熵损失等方法对搜索到的Key对应的Prompt进行进行优化。类似的Prompt Selection 算法很多如DualPrompt算法该算法将Prompt进行解耦分化为General Prompt和Expert Prompt。General Prompt面向所有任务为所有任务中共享信息而Expert Prompt针对独立任务数量与任务量一致。其采用了和L2P相同的key-query匹配策略。 Prompt Selection虽然可行但仍是硬匹配选项有限。基于注意力信息加权的Prompt Combination方法则有效缓解了该问题。如CODA-Prompt通过对Prompt Pool进行注意力机制嵌入为每个注意力赋予自适应权重进而求算全局Key-Query的加权和实现可学习式Prompt组合。我觉得稀疏式注意力Prompt combination应该也是很有趣的研究。从根本上来说Prompt Combination仍受制于Prompt Pool的范围。为此许多学者则开展Prompt Generation有关的研究如DAP其利用MLP进行特定任务提示信息的编码生成。优点 Prompt 有助于弥合domain gap并可有效地对特定任务的知识进行编码。Prompt Design 属于lightweight模块与input feature具有相同的维度因此保存Prompt是parameter-efficient适用于边缘场景。Prompt Pool作为预训练模型的外部存储器其支持自适应知识的检索和特定实例的预测。缺点一些研究]发现L2P中的prompt selection过程收敛到一个单点使得prompt selection只集中在特定子集上。由于key和query在整个学习过程中不断变化这些参数的更新将会消除先前任务的参数导致matchimg-level和prompt-level的遗忘使prompt selection成为CL的瓶颈。固定大小的Prompt Pool会使得模型的表示能力受限。但是若Prompt Pool随着数据的发展而增长可能会为旧任务检索新的提示导致训练和测试之间的不匹配。最后一些研究发现prompt-based CL的性能低于简单的representation-based的baseline性能。并且批量提示有损比较的公平性。 2. Representation-based 方法 representation-based方法直接利用预训练模型强大的泛化性和通用性来实现持续学习。比如Simple-CIL方法该算法是ADAM算法原文中提出的BaselineSimple-CIL冻结预训练模型参数并通过求算类别中心的方式来构建Classifier。具体来说在面对很多类别时计算同类的embedding或features的平均值并将该平均值作为该类别的标准prototype最后结合类别标准与余弦比较的方法替换模型的原始Classifier。虽然基于prototype的方法存在一定的作用但是并未很好地适应下游任务。为此一些研究在基于prototype方法的基础上结合了外置参数高效调节模块或者外置适配器来使得预训练模型更加适应下游任务如ADAM等。 ADAM等算法在进行类别标准设定时类别标准之间的仍存在联系导致任务效果降低。为此RanPAC算法则采用online LDA classifier来去除原始方法prototype计算结果之间的相关性加大类别间的分布差异。此外RanPAC算法利用Random Projection layer将features映射到高维空间中并在高维空间中进行prototype的计算以使得特征分布符合高斯拟合。相较于前面将预训练模型的通用语和适应性分离处理的方式SLCA算法采用了差异学习率调整和特征经验重播的方式进行持续学习研究。该算法使用较小的learn rate调整模型主体部分而使用较大的learn rate 调节模型的classifier以实现模型的逐步微调和classifier的快速适应。为了避免忘记以前的分类器SLCA还对分类特征分布进行建模并重播它们以校准classifier。优点由于class prototype代表了对应类别最常见的标准格式因此利用其构建模型具有直观和可解释性。 Representation-based 方法主要是冻结backbone和更新classifier权重。lightweight的更新成本增加了其现实应用的可行性。缺点将不同模型的特征连接起来形成class prototype容易造成模型信息冗余。例如不同的backbone中存在重复提取共享特征。当下游任务涉及多个领域时在第一阶段调整模型不足以弥合数据集之间的领域差距。在这种情况下不断调整backbone可能更适合提取特定于任务的特征。 3. Model Mixture-based 方法 Model Mixture-based 方法在持续学习工程中构建了一组模型然后再推理阶段通过Model Ensemble和Model Merge来进行信息综合决策。 Model Ensemble中ESN算法凭借预训练模型强大的通用性构建多个classifier在面对新任务重新初始化和训练一个新的classifier。在推理时采用投票策略来整合多个模型的结果进行最终决策。由于Model Ensemble的核心因素取决于模型的方差一些研究通过增强模型之间的多样性来替代使用相同的预训练模型构建不同的classifier。如PromptFusion利用预训练的ViT和CLIP并在推理过程中动态地对logit进行组合即f(x) λ fvit (x) (1−λ)fclip(x)。与多个backbone的集成不同PROOF采用了仅使用单个CLIP的更全面的推理方法。由于CLIP支持视觉和文本特征的跨模态匹配因此PROOF设计了一个三层集成考虑image-to-text、image-to-image prototype、image-to-adjusted text的跨模态融合。 Model Merge将多个不同的模型合并为一个统一的模型无需要额外的训练。LAE定义了online和offline学习协议online模型通过交叉熵损失进行更新目的是在新的任务中获取新的知识。离线模型则通过Model Merge进行更新例如指数移动平均(EMA): θ offline←α·θ offline (1−α)·θ Online其中α为权衡参数。LAE仅将EMA应用于参数高效调谐模块(如prompt)其利用online和offline模型的最大logit进行推断。与LAE一样ZSCL将合并技术应用于CLIP模型目的是在持续学习过程中保持其zero-shot性能。然而随着EMA中权衡参数的改变CLIP性能不再具有鲁棒性。因此ZSCL建议每隔几次迭代合并参数从而在模型训练期间创建平滑的损失轨迹。此外CoFiMA注意到EMA在Merge过程中对每个参数的重要性是相等的CoFiMA 在Merge过程中插入Fisher information费雪信息作为每个参数的估计重要性。优点学习多个模型可以做出不同的决策。因此使用Model Ensemble和Model Merge自然会产生更健壮的结果。由于直接合并模型进行统一预测因此可以调整前模型和后模型的权重以突出不同阶段之间知识共享的重要性。由于模型集将在推理过程中合并因此最终的推理成本不会随着模型集中添加更多模型而增加。缺点 Model Ensemble需要保存所有的历史模型并消耗大量的内存缓冲区。虽然基于Model Merge不需要这么大的成本但合并大型backbone的权重也需要大量的额外计算。决定Merge哪些参数仍然是问题。阅读记录

查看全文

http://www.pierceye.com/news/511336/