当前位置: 首页 > news >正文

天河网站建设网络推广如何判断网站seo做的好坏

天河网站建设网络推广,如何判断网站seo做的好坏,广州住房和建设局网站,搜索词排行榜Self-Distillation from the Last Mini-Batch for Consistency Regularization 从上一个小批量自发蒸馏#xff0c;实现一致性正则化 摘要 知识蒸馏#xff08;Knowledge distillation#xff0c;KD#xff09;展示了强大的潜力#xff0c;作为一种强有力的正则化策略实现一致性正则化 摘要 知识蒸馏Knowledge distillationKD展示了强大的潜力作为一种强有力的正则化策略通过利用学习的样本级软目标来提升泛化能力。然而在现有的知识蒸馏中使用复杂的预训练教师网络或一组同行学生既耗时又计算成本高昂。已经提出了各种自我蒸馏方法以实现更高的蒸馏效率。然而它们要么需要额外的网络架构修改要么难以进行并行化。 为了应对这些挑战我们提出了一种高效可靠的自我蒸馏框架名为“最后小批次自我蒸馏”Self-Distillation from Last Mini-BatchDLB。具体来说我们通过限制每个迷你批次的一半与上一次迭代一致来重新安排这些顺序采样同时剩下的一半将与即将到来的迭代一致之后前一半迷你批次将即时蒸馏上一次迭代中生成的软目标。我们提出的机制引导了训练的稳定性和一致性使其对标签噪声具有鲁棒性。此外我们的方法易于实现无需额外的运行时内存或需要模型结构修改。在三个分类基准数据集上的实验结果表明我们的方法能够始终胜过具有不同网络架构的最先进自我蒸馏方法。此外我们的方法显示出与增强策略的强大兼容性能够获得额外的性能提升。代码可在 https://github.com/Meta-knowledge-Lab/DLB 找到。 1.Introduction 知识蒸馏Knowledge DistillationKD最初由Bucilua等人[2]提出后来由Hinton等人[10]推广。许多先前的研究已经证明了知识蒸馏在各种学习任务中提升泛化能力的成功。例如在网络压缩的情况下广泛使用两阶段离线知识蒸馏将来自繁琐预训练模型的暗知识传递给从教师的中间特征映射[21]、logits[10]、注意力图[40]或辅助输出[43]中学习的轻量级学生模型。然而训练高容量的教师网络严重依赖于大量的计算资源和运行内存。为了缓解对静态教师耗时的准备工作引入了在线蒸馏[44]其中一组同行学生相互学习。在线蒸馏实现了与离线蒸馏相同的性能改进但计算效率更高。因此许多后续工作将这一线路扩展为更强大的自组教师[3,8,14,33]。知识蒸馏的其他应用包括半监督学习、领域自适应、迁移学习等[18,26,28]。本文的主要范围集中在知识蒸馏范式本身。 传统的知识蒸馏方法无论是在线还是离线的都取得了令人满意的经验性能[24]。然而现有的知识蒸馏方法在知识传输效率方面存在障碍[35]。此外高计算和运行内存成本限制了它们部署到移动手机、数码相机等终端设备上[4]。为了应对这些限制自我知识蒸馏受到越来越多的关注它使得学生模型能够从自身中蒸馏知识。自我知识蒸馏中缺乏复杂的预训练教师和一组同行学生导致在训练效率方面只有边际改进。其中一种流行的自我蒸馏形式比如“做自己的老师”Be Your Own TeacherBYOT需要进行大量的网络架构修改这大大增加了它们推广到各种网络结构上的难度[19,32,43]。在另一条线路中历史信息包括先前训练的logits或模型快照被利用来构建一个虚拟教师作为自我蒸馏的额外监督信号。最初Born Again Networks (BAN) 按顺序蒸馏具有相同参数的网络作为其最后一代[7]。快照蒸馏取得的一个进步是从先前的小代数即一代中的几个时期中获得次要信息[36]。这种虚拟教师的更新频率在渐进式自我知识蒸馏[12]和回顾学习[5]中进一步提高到时代级别。然而现有的自我知识蒸馏方法存在以下问题需要解决。首先来自上一次迭代的最即时信息被丢弃。此外存储过去模型的快照会消耗额外的运行内存成本并随后增加并行化的难度[36]。最后每次向后传播中梯度的计算与每个数据批次上两次前向过程相关联导致计算冗余和低计算效率。 为解决现有自我知识蒸馏方法中的这些挑战我们提出了一种简单而高效的自我蒸馏方法称为“最后小批次自我蒸馏”Self-Distillation from Last Mini-BatchDLB。与现有的自我知识蒸馏方法相比DLB具有计算效率高、节省运行内存的特点只存储上一次迭代产生的软目标使得其在部署和并行化上更为简单。每个数据实例的前向处理都伴随着一次反向传播过程减少了计算冗余。与最新技术相比主要的不同点总结在表1中。DLB为自我蒸馏产生了即时的样本级平滑标签。利用上一次迭代的软预测我们的方法为每个训练样本提供了最即时的蒸馏。DLB的成功归功于从最即时历史生成的软目标进行蒸馏以强化训练的一致性和稳定性。更具体地说在训练阶段目标网络在每个小批次中扮演着教师和学生的双重角色。作为教师在下一次迭代中提供软目标以规范自身。作为学生它从上一次迭代中生成的平滑标签进行蒸馏并最小化监督学习目标比如交叉熵损失。 表1. 在计算成本和平滑度方面与最新技术的比较。我们将我们的方法与标签平滑正则化[27]、无教师知识蒸馏Tf-KDself、Tf-KDreg[37]、 类别自我知识蒸馏CS-KD[39]、渐进式自我知识蒸馏PS-KD[12]、记忆回放知识蒸馏Mr-KD[30]、数据失真引导的自我知识蒸馏DDGSD [35]、做自己的老师BYOT[43] 进行了比较。我们选择了六种代表性的主干CNN进行评估包括ResNet-18、ResNet-110[9]、VGG-16、VGG-19[25]、DenseNet[11]和WideResNet[41]。实验结果表明我们的DLB可以持续改善泛化能力。我们还在受损数据上测试了DLB的稳健性。DLB对受损数据的训练一致性和稳定性导致了更高的泛化能力。主要贡献有三个方面 • 我们提出了一种简单但高效的一致性正则化方案基于自我知识蒸馏名为DLB。我们的方法无需对网络架构进行修改实现时需要的额外计算成本和运行时内存都非常少。利用来自上一次迭代的最新更新我们的DLB易于实现并行化。值得注意的是该方法也不依赖特定模型或任务。 • 在三个常用的分类基准数据集上进行的全面实验结果展示了不同模型上的一致泛化改进。我们还在经验上证明了DLB与各种增强策略的兼容性。 • 我们系统地分析了我们方法对训练动态的影响。具体来说其正则化效果的成功归功于利用即时样本级平滑标签引导训练一致性。在标签受损的环境下一致性效应进一步增强表现出对标签噪声的强大稳健性。这些实证发现可能为理解知识蒸馏的影响打开新的方向。 2.Related Works 知识蒸馏。知识蒸馏Knowledge DistillationKD旨在将“知识”如logits或中间特征映射从高性能的教师模型传输到轻量级的学生网络[2,10]。尽管它在泛化方面具有竞争力的性能改进但预训练复杂的教师模型需要额外的训练时间和计算成本。另一种形成经济蒸馏的方式被称为相互学习也称为在线蒸馏其中一组学生相互学习[44]。这个想法被许多后续工作所推广[3,14,33]。但是在对等学习中的优化涉及多个网络这需要额外的内存来存储所有参数。 自我知识蒸馏。为增强知识传递的效率和有效性提出了自我知识蒸馏Self Knowledge DistillationSKD来利用自身的知识而无需额外网络的参与[31]。构建SKD模型有三种流行方式1基于数据失真的自我蒸馏[15,35]2利用历史信息作为虚拟教师3在辅助头之间进行蒸馏[17,43]。然而第一种方式在于数据增强效率上存在一定依赖性。第二种方式错过了来自上一次小批次的最新更新。而最后一种方式需要对网络架构进行大量修改增加了其部署的难度。作为正则化的蒸馏。知识蒸馏KD在许多任务中被广泛使用比如模型压缩、半监督学习、领域自适应等[18,26,28]。然而对KD成功的理论分析仍然是一个巨大挑战。最近Yuan等人将KD的成功归因于其作为从LSR标签平滑正则化视角提供样本级软目标的正则化效果[37]。这揭示了将KD应用于正则化领域的巨大潜力。在这一领域中类别自我知识蒸馏CS-KD通过消除两批同类别样本预测之间的一致性来设计[39]。渐进式自我知识蒸馏PS-KD与我们的工作更相似它逐渐从上个时期蒸馏过去的知识以软化当前时期的硬目标[12]。记忆回放知识蒸馏Mr-KD通过存储一系列被放弃的网络备份进行扩展PS-KD[30]。然而实施PS-KD或Mr-KD都需要额外的GPU内存来存储历史模型参数或者整个过去预测结果在硬盘上。前一种策略对于像深度WRN[41]这样的大模型来说计算成本很高而后一种策略在训练像ImageNet[23]这样大型数据集时效率低下。上述缺点导致了训练效率低下以及在移动电话、数码相机等终端设备上的实现难度[4]限制了其在正则化方面的应用。另一方面这些方法缺乏来自最后几个小批次的最新信息。为了应对这些不足我们提出了一种新颖的自我蒸馏框架名为DLB将在以下部分详细阐述。 3.Methods 3.1.Preliminary 在这项工作中我们以监督分类任务作为案例研究。为了清晰表示我们将一个包含K类标签的数据集表示为D{(xi,yi)}Ni1其中N是训练实例的总数。在每个小批次中一个包含n个样本的批次B{(xi,yi)}ni1⊆D通过数据扭曲ϕ进行增强得到扭曲图像集合Bϕ{(ϕ(xi),yi)}ni1。然后它们被输入到目标神经网络hθ中优化交叉熵损失函数其定义如下 待更新
http://www.pierceye.com/news/831627/

相关文章:

  • 网站模块顺序调整网易对象存储wordpress
  • 深圳网络建设网站郑州网站优化服务
  • 辽阳专业建设网站公司网站html动态效果代码
  • 微信上可以做网站吗网页设计作业讲解
  • 长春好的做网站公司潍坊 网站
  • 做网站自己装服务器谷歌排名规则
  • 58.搜房等网站怎么做效果才好商贸公司企业简介模板
  • 中国最早做网站是谁卖网站怎样做
  • 张店专业网站优化哪家好书画工作室网站模板网站建设
  • 兰州网站制作怎么样青海哪家做网站的公司最大
  • 云龙湖旅游景区网站建设招标网站升级改版需要几天
  • 高端大气网络设计建设公司网站织梦模板沈阳模板建站哪家好
  • 郑州哪有做网站的高端网站建设与制作
  • 江阴网站网站建设蓝色 宽屏 网站 模板下载
  • 网站建设设计大作业重庆公共信息交易资源网
  • 做公司网站的多少钱公司建网站价格
  • 河间米各庄网站建设制作网站页面模板 建设中
  • wordpress首页添加站点统计小工具住房城乡建设部门门户网站
  • 网站建设在哪块做创业园网站建设
  • 郑州搭建网站公司互联网公司网站建设的目的
  • 响应式视频网站什么是权重高的网站
  • 做教育网站挣钱我的网站域名是什么
  • django 网站开发实例哪里可以检测胎儿性别
  • 刷排名凡搜网站宝微信5000人接推广费用
  • 网站优化外包服务专业网站建设服务商
  • 江西企业网站建设费用wordpress正在执行例行维护_请一分钟后回来.
  • 苏宁推客如何做网站创建一个网站的步骤
  • 优化网站广告优化东莞美食网站建设报价
  • 单页网站的营销定制应用软件有哪些
  • 如何建立一个网站详细步骤品牌建设可以从哪方面入手