小学网站建设情况汇报,陕西seo,深圳租赁住房和建设局网站,优化网站加载速度论文地址#xff1a;https://arxiv.org/abs/1610.09650 主要思想 这篇文章就是用teacher-student模型#xff0c;用一个teacher模型来训练一个student模型#xff0c;同时对teacher模型的输出结果加以噪声#xff0c;然后来模拟多个teacher#xff0c;这也是一种正则化的方…论文地址https://arxiv.org/abs/1610.09650 主要思想 这篇文章就是用teacher-student模型用一个teacher模型来训练一个student模型同时对teacher模型的输出结果加以噪声然后来模拟多个teacher这也是一种正则化的方法。 1. teacher输出的结果加噪声以后然后和student的输出结果计算L2 loss作为student网络的反馈。 2. 加噪声 3. 计算L2 loss 4. 反向传播更新参数 5. 算法过程 注意加噪声的时候对输入进行了采样不然直接全加也太暴力了吧。等价于基于噪声的回归 实验结果 1. 对比了不同噪声比例对结果的影响其实就是调参的过程。 2. 比较了学生加噪声和教师加噪声结果是教师加噪声效果更加明显。 3. 比较了教师加噪声和一般的正则化操作(dropout) 总结 本文想法比较简单就是给teacher输出结果加噪声美曰其名learn from multi teachers. 转载于:https://www.cnblogs.com/zhonghuasong/p/7653619.html