当前位置: 首页 > news >正文

有没有专门做ppt的网站吗东营网站建设服务

有没有专门做ppt的网站吗,东营网站建设服务,南京网站托管网络营销外包,下载手机版app文章目录 一、完整代码二、论文解读2.1 介绍2.2 Distillation2.3 结果 三、整体总结 论文#xff1a;Distilling the Knowledge in a Neural Network 作者#xff1a;Geoffrey Hinton, Oriol Vinyals, Jeff Dean 时间#xff1a;2015 一、完整代码 这里我们使用python代码进… 文章目录 一、完整代码二、论文解读2.1 介绍2.2 Distillation2.3 结果 三、整体总结 论文Distilling the Knowledge in a Neural Network 作者Geoffrey Hinton, Oriol Vinyals, Jeff Dean 时间2015 一、完整代码 这里我们使用python代码进行实现 # 完整代码在这里 # 就是一下softmax # 有时间再弄二、论文解读 2.1 介绍 使用一系列模型预测概率的平均值即软投票机制能显著改善模型的性能但是部署起来是比较不方便的因为要预测很多的模型结果再求平均论文中提到可以把所有模型预测结果的平均值部署在一个模型里面然后利用这一个模型来预测这样就可以大大减少部署的难度这种方法被称为Knowledge Distillation,即知识蒸馏 在知识蒸馏中我们不需要关心参数数量和大小的变化我们只需要关心经过这一系列的参数得到的结果变化如果参数变少一般来说100%复刻这个结果是很难的但是我们可以以一定的比例如80%去还原当时的结果尽管可能得到错误答案但是错误答案的相对误差可以稍微控制错误答案的相对误差告诉了我们很多关于繁琐的模型是如何泛化的。例如一个宝马的形象可能被误认为垃圾车的可能性很小但这个错误仍然比误认为胡萝卜的可能性大很多倍。 人们普遍认为用于培训的目标函数应该尽可能接近地反映用户的真实目标。尽管如此当真正的目标是很好地推广到新数据时模型通常被训练以优化训练数据的性能。显然训练模型进行泛化良好会更好但这需要关于正确的泛化方法的信息而这些信息通常是不可用的。然而当我们将知识从大模型中提取出来到小模型中时我们可以训练小模型以与大模型相同的方式进行泛化。如果繁琐的模型概括例如它是一个大型的平均不同的模型一个小模型训练推广以同样的方式通常会做更好的测试数据比一个小模型训练的正常方式在相同的训练集用于训练集成。 将繁琐模型的泛化能力转移到小模型的一个明显方法是使用麻烦模型产生的类概率作为训练小模型的“软目标”。在这个转移阶段我们可以使用相同的训练集或一个单独的“转移”集。当繁琐的模型是一个更简单的模型的大型集合时我们可以使用它们各自的预测分布的算术或几何平均值作为软目标。当软目标高熵他们提供更多的信息比硬目标和更少的方差之间的梯度训练情况下所以小模型通常可以训练的数据比原始繁琐的模型和使用更高的学习率。 2.2 Distillation 在多分类问题上神经网路依赖于softmax产生各个类别的概率其中T是一个参数可以让输出概率变得平滑 T越大输出的概率越平滑 在最简单的蒸馏形式中知识通过在转移集上训练模型并在传输集中的每个情况下使用软目标分布来转移到蒸馏模型该分布是通过在其softmax中使用高T的原模型或者原模型集合产生的我们可以在在训练蒸馏模型时使用相同的T但经过训练后把T变为1 当我们知道输入的正确输出时我们可以利用对目标函数简单加权的方式去构造最终的目标函数第一个目标函数是与软目标的交叉熵这个交叉熵是用与蒸馏模型的softmax相同的T来生成软目标来计算的。第二个目标函数是具有正确标签的交叉熵。这是用蒸馏模型的softmax中完全相同的类来计算的但T为1因为在预测的时候T便是1 对第一个目标函数求导 当T很大的时候我们有 在 ∑ z j ∑ v j 0 \sum z_j\sum v_j0 ∑zj​∑vj​0的时候我们又有 所以在高T同时 ∑ z j ∑ v j 0 \sum z_j\sum v_j0 ∑zj​∑vj​0的时候蒸馏的本质相当于如下 ∂ C ∂ z j ≈ ∂ ( z j − v j ) 2 2 N T 2 ∂ z j \frac{\partial C}{\partial z_j} \approx \frac{\partial \frac{(z_j-v_j)^2}{2NT^2}}{\partial z_j} ∂zj​∂C​ ≈∂zj​∂2NT2(zj​−vj​)2​​ 在较低的T下蒸馏模型几乎不去关心那些比平均数更小的负值平均数为0这是潜在的优势因为这些数几乎不受用于训练模型集合的代价函数的限制因此它们可能非常有噪声另一方面那些很小的负值可能会传递关于由模型集合所获得的知识的有用信息。其中哪一种影响占主导地位是一个经验问题我们表明当蒸馏的模型太小无法捕获繁琐模型中的所有知识时不大不小的T效果最好这强烈表明忽略大的负对数是有用的 2.3 结果 原模型和原模型集合可以部署在一个小的蒸馏模型中并且准确性可观 利用soft targets即软投票机制可以达到regularization即防止过拟合的效果 可以利用部分模型在部分类中的高准确率提高权重进而提高模型的准确度或者对一些表现非常好的模型给予其较高的T 三、整体总结 蒸馏可以很好地将知识从一个集成或从一个大的高度正则化的模型转移到一个更小的蒸馏模型中
http://www.pierceye.com/news/238213/

相关文章:

  • 电子商务网站开发课程设计网站建设石家庄
  • 好的公司网站有什么用烟台建设集团招聘信息网站
  • 网站制作需要多长时间网站代建设费用
  • 淘宝客网站设计台州建设银行官方网站
  • 婚纱网站建设规划书2023全国企业公司大黄页
  • 网站seo的关键词排名怎么做的wordpress 在线留言
  • 建一个c2c网站要多少钱小程序云开发文档
  • asp网站合法上虞网站设计
  • 网站 用什么数据库蛋糕店网站建设方案
  • 网站上的动效是用ae做的网站开发实训小结
  • wordpress建站怎么上传网站没有备案信息该怎么做
  • 沈阳网站推广有什么技巧软件开发工具通常也称为什么工具
  • 黑龙江龙采做网站如何网站建设制作解决方案
  • 百度推广自己做网站吗网页设计软件下载网站
  • wordpress内核源码分析南宁网站优化推广
  • 物流网站做那个好服务器怎么安装WordPress
  • 网站开发怎么兼容浏览器中国优秀设计网站有哪些内容
  • 黄冈网站官方登录平台做网站的条件
  • 潍坊网站建设推广公司网站建设类的手机软件
  • 建设小学网站建设网站代理
  • 怎么查看网站根目录网站建设费记什么科目
  • 文昌市规划建设管理局网站网站与个人网站
  • 昆明网站建设推荐q479185700上墙现在最火的推广平台有哪些
  • 长兴县城乡建设局网站wordpress的留言功能
  • 建设企业网站地址asp.net 4.0网站开...
  • 制作个人网站步骤提升学历励志语录
  • 福州建站服务管理页面布局标准格式
  • 做一个公司网站一般需要多少钱营销型网站功能表
  • 为什么菜市场不可以做网站河南阿里巴巴网站建设
  • asp.net动态的网站开发手机海报制作免费软件