当前位置：首页 > news >正文

有产品做推广选哪个网站牡丹江做网站建设

news 2025/12/20 17:45:29

有产品做推广选哪个网站,牡丹江做网站建设,网页微信版扫描确认登录后无法显示此页,专业网站快速摘要温度标度作为logit匹配和概率分布匹配的bridge技术#xff0c;在知识蒸馏#xff08;KD#xff09;中起着至关重要的作用。传统上#xff0c;在蒸馏中#xff0c;温度标度适用于教师的logits和学生的logits。在本文中#xff0c;受到最近一些研究成果的启发#x…摘要温度标度作为logit匹配和概率分布匹配的bridge技术在知识蒸馏KD中起着至关重要的作用。传统上在蒸馏中温度标度适用于教师的logits和学生的logits。在本文中受到最近一些研究成果的启发我们放弃了学生方面的温度缩放并系统地研究了KD的结果变体称为转化教师匹配TTM。通过将温度标度重新解释为概率分布的幂变换我们发现与原始KD相比TTM在其目标函数中具有固定的Renyi熵项该熵项作为额外的正则化项。大量的实验结果表明由于这种固有的正则化TTM使训练后的学生比原始KD具有更好的泛化能力。为了进一步提高学生对教师权力转换概率分布的匹配能力我们在TTM中引入了一个样本自适应加权系数得到了一种新的加权TTM方法WTTM。介绍在文献中KD通常被表述为最小化后续损失其中为标签y对应的one-hot概率分布与学生输出概率分布q之间的交叉熵损失即ERM的典型损失。为教师的温度标度输出概率分布与学生的温度标度输出概率分布之间的KL散度T是蒸馏温度是平衡权值。注意和给定教师的logits v 和学生的logits z其中表示softmax函数。温度T以上的使用是KD的一个关键特征。一方面它提供了在类概率分布匹配和logits匹配之间建立bridge的方法。实际上Hinton表明当T趋于无穷时KD等于他的logits匹配前代。另一方面它也将KD与logits匹配方法区分开来因为在实践中温度T的经验最优值通常是相当适中的。此外对温度T的作用以及公式1中的KD为什么能帮助学生更好的学习的理解很少。特别是自然会产生以下问题 1、为什么温度T必须同时应用于学生和教师呢 2、只对教师施加温度而不对学生施加温度T会不会更好到目前为止上述问题的答案充其量是难以琢磨的。本文的目的是解决上述问题。首先我们从理论和实验两方面证明上述问题2的答案是肯定的最好是在学生方面完全降低温度T——KD的结果变体被称为转化教师匹配TTM并将其表述为最小化以下目标是一个平衡权值。具体而言我们证明1logits的温度标度相当于概率分布的幂变换。(2)与KD相比TTM在其目标函数2中具有固有的Renyi熵项。正是这种固有的Renyi熵作为一个额外的正则化项因此改进了KD。大量的实验结果进一步证实了这一理论分析。大量的实验表明由于这种固有的正则化TTM导致训练后的学生具有更好的泛化能力。其次为了进一步提高学生对教师power转换概率分布的匹配能力我们在TTM中引入了样本自适应加权系数得到了一种新的加权TTMWTTM方法。WTTM很简单其计算复杂度与KD几乎相同。然而他是非常有效的。大量的实验表明该方法在准确率方面明显优于KD在TTM的基础上有所改进达到了最先进的准确率性能。例如从ResNet34提取的ResNet18,WTTM在ImageNet上的分类准确率可以达到72.19%由于大多数高度复杂的基于特征的蒸馏方法。温度T下降完全在学生方面TTM和WTTM连同KD的标准观点和新成立的上限错误率的交叉熵之间的事实但往往给定一个输入样本x的标签y的未知条件概率分布和输出q模型的响应输入x。Yang等人对为什么KD有用提供了新的解释。首先KD中教师的目的是为未知的真条件概率分布提供一个适当的估计是对应于标签y的one-hot向量与幂变换之后的教师概率分布的线性组合。其次温度T对教师的作用是提高这一估计。第三用变换后的教师的估计值替换KD中的学习过程是简单地最小化错误率的交叉熵上界这改进了标准深度学习过程其中交叉熵上界中的初步近似于与标签y对应的one-hot向量。背景和相关工作 CONFIDENCE PENALTY 在多分类设置中神经网络响应输入样本的输出是一个有K个条目的概率向量和分布q其中K是所有可能类别的数量概率最高的类别是神经网络对该特定样本的预测。通常如果相应的q将其大部分概率质量集中在被预测的类别上则预测被认为是可信的。Szegedy指出如果一个模型对其预测过于自信那么它往往会遭受到过拟合。为了避免过拟合和提高泛化Pereyra等人提出对自信预测进行惩罚。由于自信预测通常对应于低熵的q他们通过在学习过程的目标函数中引入负熵正则化器来实施信息惩罚CP表示为其中控制置信度惩罚的强度。由于熵正则化学习模型被鼓励输出具有更大熵的更平滑的分布从而导致更不自信的预测最重要的是更好的泛化。 RENYI ENTROPYRenyi熵 Renyi熵是Shannon熵的广义版本已成功应用于许多机器学习主题如查分隐私、理解神经网络和表示蒸馏。给定一个离散随机变量X和相应的概率则其Renyi熵定义为其中为Renyi熵阶。当时Renyi熵的极限就是著名的香农熵。标签平滑对KD的观点在文献中已经发展了不同的观点来理解KD。其中一种是Yuan和Zhang提出的标签平滑LS的观点。 LS是一种通过最小化学习过程中的以下目标函数来鼓励模型做出不太自信预测的技术其中u是所有K个可能类的平均分布而控制平滑效果的强度。与ERM的对应模型见A.1相比使用LS训练的模型往往具有明显较低的自信预测和具有较大香农熵的输出概率分布。如果我们使用(5)中教师的输出替换U那么我们有这相当于T1的因为熵不取决于学生。因此当T1时KD确实可以看作是样本自适应LS。然而当T1时这种观点不再成立因为温度缩放也适用于学生模型。A.1所示的实证分析证实了这一点。虽然与ERM相比T1的KD能够增加输出概率分布q的Shannon熵但与ERM相比T4的KD实际上会导致Shannon熵降低表现出与LS相反的效果。自蒸馏也提倡样本自适应LS视角为了方便学生降低了温度T。然而没有提供系统的处理来证明学生方面温度T的下降。事实上在预测精度方面结果是喜优参半的为学生放弃温度T可能会降低或提高准确性。统计观点与交叉熵上界另一种理解KD的视角是Menon等人倡导的统计视角。其中的一个关键观察结果是Bayes蒸馏风险的方差小于标准经验风险这实际上是方差总概率定律的直接结果。由于标签上的贝叶斯类概率分布即给定输入样本x的标签y的条件概率在实践中是未知的因此KD中教师的作用被认为是使用其输出概率分布或温度缩放的输出概率分布来估计学生的。这反过来又提供了一些解释为什么提高教师的准确性有时会损害蒸馏性能因为提高教师的准确性和提供更好的估计是两个不同的任务。从这个角度看学生的温度T也降低了。同样没有理解把T放在学生这边。此外为什么最小化Bayes-蒸馏风险或teacher-蒸馏风险可以提高学生的准确率表现也没有得到回答。最近Yang等人表明对于任何分类神经网络其错误率的上界为。因此为了降低其错误率可以通过最小化来训练神经网络。由于实际中通常无法获得真实的条件分布因此对于学生来说温度T下降的KD基本上可以视为单向近似求解最小化的问题其中首先由标签y对应的one-hot概率分布和教师的温度缩放输出概率分布的线性组合近似。当应用于KD时这一观点确实为完全降低学生方面的温度T以及最小化贝叶斯蒸馏风险或教师蒸馏风险提供了理由。当然KD随温度T的下降对学生来说不一定是最小化的有效方法。其他最近的相关工作见附录A.7. 相比之下在本文中我们通过理论和实验上的TTM与KD的比较更直接地表明最好在KD中完全降低学生侧的温度T。转型教师匹配在本节中我们从理论上比较了TTM和KD表明TTM相当于KD加上Renyi熵正则化。为此我们首先提出了输出分布的功率变换的一般概念。然后我们证明了温度缩放和功率变换之间的等价性。在此基础上给出了一个简单的推导将TTM分解为KD加Renyi熵正则化器。考虑到CP很明显由于对置信度输出分布的惩罚TTM可以比KD产生更好的泛化。概率分布的幂变换在KD中模型输出分布通过温度缩放进行变换以提高其平滑性。然而这样的转换并不是唯一的。还有许多其他的变换也可以平滑峰值概率分布。下面我们将介绍一个广义变换。考虑一个逐点映射。对于任意概率分布我们可以对p的每个分量应用f来定义一个广义变换其中和在上面的例子中用于将向量归一化为概率简单性。有了这个广义框架任何特定的变换都可以用它的关联映射f来描述。在所有可能的映射f中我们最感兴趣的是指数为y的幂函数。若选取f为指数为y的幂函数则得到的概率分布变换称为概率分布幂变换。因此功率变换后的分布由公式给出接下来我们将证明功率变换等同于温度缩放。确实设p为logits的soft最大值然后因此是温度时标度对数的soft最大值。从KD到TTM 基于功率变换和温度标度之间的等价性我们现在可以揭示KD和TTM之间的联系。设回到(1)和(2)。鉴于(9)我们有那么我们可以将分解为其中(11)是幂变换(7)的后续(12)中的是y阶的Renyi熵(14)是由(10)得到的。重新排列我们得到将(15)代入(2)得到当选择时其中(16是由于香农熵不依赖于学生模型(17)遵循(19)(18)可归因于(1)。因此我们已经证明TTM确实可以分解为KD加Renyi熵正则化器。由于Renyi熵是Shannon熵的广义版本它在TTM中的作用类似于Shannon熵在CP中的作用。有了这个我们有理由相信它可以带来更好的泛化这在后面的第5节的大量实验中得到了证实。从TTM和KD各自的梯度角度进行比较也具有一定的指导意义。中蒸馏组分相对于对数的梯度为: 其中分别为学生模型的第i对数和第i类概率。相比之下KD对应的梯度为从式(20)中我们可以看到梯度下降学习过程会推动qi向幂变换教师概率分布移动从而鼓励学生表现得像幂变换教师由此产生了TTM(转化教师匹配)这个名称。由于幂变换后的教师分布p t t在t 1时更加平滑所以经过TTM训练的学生将输出一个同样平滑的分布q导致置信度低、熵大。另一方面在式(21)中转化后的学生分布qT被推向转化后的教师分布p t t。即使qT的平滑度与p t t相似原始学生分布q仍然可以达到相当的峰值因此具有高置信度和低熵。

查看全文

http://www.pierceye.com/news/457591/