当前位置: 首页 > news >正文

重庆免费网站建设中国中小企业网站

重庆免费网站建设,中国中小企业网站,企业网站策划流程,免费做金融网站Abstract 介绍权重选择#xff0c;一种通过从预训练模型的较大模型中选择权重子集来初始化较小模型的方法。这使得知识从预训练的权重转移到更小的模型。 它还可以与知识蒸馏一起使用。 权重选择提供了一种在资源受限的环境中利用预训练模型力量的新方法#xff0c;希望能够…Abstract 介绍权重选择一种通过从预训练模型的较大模型中选择权重子集来初始化较小模型的方法。这使得知识从预训练的权重转移到更小的模型。 它还可以与知识蒸馏一起使用。 权重选择提供了一种在资源受限的环境中利用预训练模型力量的新方法希望能够成为大模型时代训练小模型的有用工具。 OscarXZQ/weight-selection (github.com) 1 Introduction 神经网络权重的初始化对于其优化至关重要正确的初始化有助于模型收敛并防止梯度消失等问题。 本文引入一种权重初始化的方法解决该问题使用大型预训练模型来训练小型模型。 引入了权重选择(weight selection)选择预训练大型模型的权重子集来初始化较小的模型。 使用权重选择来初始化小模型非常简单与从头开始训练相比不会增加额外的计算成本。 3 Weight Selection 给定预训练模型目标是为同一模型系列中较小尺寸的模型获得有效的权重初始化。借用知识蒸馏中的术语将预训练模型称为教师将我们旨在初始化的模型称为学生。 3.1 Approach 模型可以通过增加嵌入维度或每个块中的通道数量来加宽并通过堆叠更多层来加深。 它还使我们能够按照三个步骤执行权重选择层选择、组件映射和元素选择。 图2权重选择(Weight Selection)为了初始化预训练模型的较小变体从预训练模型的相应组件中统一选择参数。 3.1.1 Layer Selection 第一步是从教师模型中选层。对于学生的每一层教师模型中被选中的层都是用于初始化的数据来源。对于各个同性架构和分层架构层选择的过程略有不同。 各向同性架构是指神经网络的每一层在整个模型中都表现出一致且统一的分层设计。 分层结构的特点是多尺度表示和嵌入维度的层次结构。分层结构通常具有不同规模和嵌入维度的阶段如VGG这样的经典卷积网络逐渐减少空间维度同时增加通道维度捕获多尺度特征。 对于各向同性架构我们选择教师的前 N N N层 N N N为学生模型的层数记作前 N N N层选择(first- N N N selection)。 处理分层结构时在每一个独立的阶段单独应用前 N N N层选择。 另一种方法是统一层选择(uniform layer selection)即选择教师中均匀间隔的层。 3.1.2 Component mapping 第二步在学生和教师之间映射组件。上一步获得了从教师到学生的层的映射将任务简化为用一个教师层初始化一个学生层。 得益于现代神经网络设计采用的模块化方法同一系列模型中的层具有一组相同的组件只是宽度不同。 因此匹配相应组件的过程是自然的一对一映射。 组件(component)在人工智能领域中神经网络的component通常指的是网络的组成部分也可以理解为神经网络的各个层layers或模块modules。神经网络由许多不同类型的层组成每一层都有自己特定的功能和参数。这些层可以分为输入层、隐藏层和输出层其中隐藏层可以进一步细分为卷积层、池化层、全连接层等。 3.1.3 Element selection 建立组件映射后下一步是用教师的较大对应组件来初始化学生的较小组件使用uniform selection从教师tensor中均匀选择间隔的元素具体方法在下一部分介绍。 3.2 Methods for element selection 本节制定元素选择并介绍不同的选择标准。 考虑一个学生的权重tensor W s W_s Ws​想找到用于初始化的教师权重tensor W t W_t Wt​。如果 W t W_t Wt​具有shape t 1 , t 2 , ⋯ , t n t_1,t_2,\cdots,t_n t1​,t2​,⋯,tn​那么具有相同组件类型的 W s W_s Ws​在选择上也要跨过这 n n n个维度。 目标是选择 W t W_t Wt​的子集来初始化 W s W_s Ws​。 下面讨论几种可能的元素选择方法并在4.3节中对其表现进行比较。只要保持了一致性如具有一致性的随机选择段落中所述权重选择就可以达到类似性能的水平。推荐实践中使用uniform selection作为权重选择的默认值。 一致性(consistancy)通常指的是在模型训练、推断或应用过程中确保系统行为和输出的稳定性和一致性。 数据一致性确保数据在不同阶段采集、预处理、训练、测试的一致性相同的数据在不同情况下应有相同的表现和输出。模型一致性确保模型在不同环境或输入下的行为一致在不同硬件、软件或数据集上训练的模型应该产生相似的结果。结果一致性确保模型的输出在不同运行中保持一致给定相同的输入或条件模型应该产生相同的输出或行为。 3.2.1 Uniform selection (default) 对于 W t W_t Wt​的第 i i i维从 t i t_i ti​中均匀间隔地选择 s i s_i si​。 比如想使用 4 × 6 4\times 6 4×6的线性层 W t W_t Wt​来初始化 2 × 3 2\times 3 2×3的线性层 W s W_s Ws​沿着第一个维度选择 1 , 3 1,3 1,3数据均匀从 1 , 2 , 3 , 4 1,2,3,4 1,2,3,4中选择2个沿着第二个维度选择 1 , 3 , 5 1,3,5 1,3,5切片均匀从 1 , 2 , 3 , 4 , 5 , 6 1,2,3,4,5,6 1,2,3,4,5,6中选择3个。 3.2.2 Consecutive selection 对于 W t W_t Wt​的第 i i i维从 t i t_i ti​中选出连续的 s i s_i si​条数据。 对于具有分组组件的架构连续选择会选择一些整个组同时忽略对比。 对于没有这种分组组件的架构连续选择相当于均匀选择。 3.2.3 Random selection (with consistency) 对于所有权重tensor对于 W t W_t Wt​的第 i i i维选择 s i s_i si​大小的 t i t_i ti​的随机子集。 通过验证实验得到一致性为所有权重矩阵选择相同的指数是权重选择达到最佳性能的关键。 保持一致性的动机源自于残余连接的存在——添加到教师模型中的神经元应该将其操作保留在学生当中。 此外保持一致性可以在元素选择过程中保留完整的神经元因为只选择了一致的位置。 均匀选择和连续选择本质上保持了一致性它们都是具有一致性的随机选择的特殊实例。 3.2.4 Random selection (without consistency) 对于所有权重tensor对于 W t W_t Wt​的第 i i i维选择 s i s_i si​大小的 t i t_i ti​的随机子集。 该方法不需要为每一个权重tensor选择相同的索引。设计这个方法用来测试保持一致性的重要程度。 4 Experiments 表3与经典初始化方法的比较使用Cifar-100数据集测试多种初始化方法的准确度具有一致性的权重选择方法优于经典的初始化方法。 5 Analysis 5.1 Reduction in training time weight selection可以显著减少训练时间。直接测量了使用不同数量的epochs使用weight selection训练ViT-T省去的时间将结果展示在图4(a)。有weight selection后只需要1/3的epoch数量即可打到传统初始化方法的表现。 图4更快地训练。和随机初始化比较在Cifar-100上ViT-T只需要1/3的epoch就可以达到其相同的表现。和在ImageNet-1K上预训练微调对比weight selection可以在预训练的第60个epoch达到其表现省区6.12倍的时间。 5.2 Comparison with transfer learning 通过实验来找到预训练所需的训练预算以匹配权重选择的准确性。在本实验中我们在ImageNet-1K上以不同的epoch数训练ViT-T然后在Cifar-100上微调300个 epoch。如图 4b 所示在 ImageNet-1K 上进行 60 轮预训练才能在Cifar-100上达到相同的性能。在此设置下与通过预训练达到相同性能相比权重选择速度提高了6.12倍且无需访问用于预训练的数据集。
http://www.pierceye.com/news/843158/

相关文章:

  • 重庆做网站 外包公司建设校园网站的必要性
  • 做我女朋友好不好套路网站html5网页设计实训总结
  • 怎样给网站登录界面做后台seo研究中心官网
  • 养生类网站源码dreamwear网页制作
  • 北京装修平台网站网页设计公司企业文化
  • 上海临平路网站建设网站建设设计制作方案与价格
  • seo三人行网站免费电商网站建设
  • seo蒙牛伊利企业网站专业性诊断.win域名做网站怎么样
  • 微信、网站提成方案点做网站建设当中的技术解决方案
  • 云南省住房和城乡建设厅官方网站网站哪里可以查到做ddos
  • 爱情动做网站推荐个人养老保险金怎么交
  • 淘客怎么做自己的网站演示动画制作免费网站
  • 哪个网站可以搭建网页百度指数官网入口
  • 济南网站开发设计wordpress. 外贸seo
  • 深圳网站建设优化织梦 蝉知 wordpress
  • 荥阳郑州网站建设wordpress oauth2插件
  • 做传媒网站公司简介企业手机网站源码
  • 一级A做爰片安全网站济南营销型网站制作
  • 网站规划说明书范文17素材网官网
  • 青岛做网站大公司免费的行情网站app网页推荐
  • 产品网站建设多少钱哪些网站做推广效果好
  • 网站开发所需技能外链网
  • 广州做家教的网站临沂哪里有做网站
  • 网站建设介绍会发言稿网站开发主页
  • 做推广赚钱的网站如何制作网站策划书
  • 微信公众号商城网站开发能不能不用虚拟主机建设网站
  • iis 网站目录权限vps网站无法通过ip访问
  • 重庆关键词优化咸阳seo培训
  • 专业网站建设分类标准嘉兴网络项目建站公司
  • 做婚礼网站的公司简介网页打不开怎么办页面无法显示