无锡网站seo外包,昆明软件公司有哪些,百度怎样才能搜到自己的网站,新开传奇网站韩版文 | 林锐众所周知#xff0c;用 Imagenet 预训练模型做 backbone#xff0c;再接个下游任务的头去微调#xff0c;是个简单有效的迁移学习方法。基本上#xff0c;炼丹师用这种方法就能成功获得一个优秀的模型#xff08;水一个实验室的项目#xff09;。但是近些年一些… 文 | 林锐众所周知用 Imagenet 预训练模型做 backbone再接个下游任务的头去微调是个简单有效的迁移学习方法。基本上炼丹师用这种方法就能成功获得一个优秀的模型水一个实验室的项目。但是近些年一些论文也论证了基于大模型的迁徙学习能导致模型失效。例如 nasty teacher 在预训练模型里面加点玄学让别人没法蒸馏你的模型 badnets 往源数据集里面下毒backdoor能导致子模型崩溃这些方法都是往大模型里加有毒的 Bias。MIT 的研究员通过多种数据集来探索这种 Bias 的迁移模式并对 Imagenet 带来的 Bias 迁移做了进一步讨论。论文题目: When does Bias Transfer in Transfer Learning?论文链接:https://arxiv.org/abs/2207.02842Github: https://github.com/MadryLab/bias-transfer背景首先简要介绍迁移学习的训练模式。▲图一迁移学习的基本模式迁移学习有很多种这里简要介绍一些基于预训练的迁移学习步骤。1.先用一个初始化的模型在一个很大的数据集上做训练同时要注意这个数据集的特征分布要包括子任务数据集的特征分布训练好以后固定住预训练模型。2.把预训练模型的分类头去掉接上自己的分类头接着用自己的数据集去训练这个新模型直到收敛。这样我们就获得了一个鲁棒的模型又干完一个项目。但是这就万事大吉了吗 小编考考大家如果把预训练模型比作 teacherteacher sucks 打一成语。答案是误人子弟。本文的作者就指出源数据集中存在的 Bias 同样会被迁移给 target 模型。并且这种 Bias 在正常情况下可能无法发现但是在某些触发条件下模型可能会直接崩溃。下面小编就来介绍这篇22年7月发表在 arxiv 上的论文。论证思路作者分析了三种Bias的情况分别是是人为引入的人为选择的以及自然存在的。人为引入 bias 的方法源于几年前的 BadnetsBadnests 从有 N 类的源数据集中选一个子集在这个子集的图里面都加上一个标志例如黄色小方块相应的标注也改为黄色小方块作为一个新的类如图二所示。最后子数据集和源数据集合并进行训练。▲图二badnets 子集中的图例对于这个模型而言一般的分类任务都能做但是如果某种图里出现了这个标志物例如在一块牌子上贴了个黄色小方块模型就会无法识别这张图片。人为选择是指由作者自己去有偏好地选择某些数据作为训练集引入某个特征与某个特征的隐式相关性例如选择狗的图片时只选狗边上站人的图。这种相关性在测试集中却并不存在通过这种方式引入 Bias。自然存在的 Bias 指的是源数据集中数据分布的一种特性例如源数据集中有一类图片是铁丝网基于此种预训练模型在自己的数据集上做微调在测试时如果图片里面有铁丝网模型的输出分布就会失真。本文介绍了 Imagenet 中铁丝网类对下游任务的影响。实验1.人为引入的Bias作者用Attack Success RateASR来作为Bias引入是否成功的指标公式如下其中T指的是加入黄色小方块的这种 TransformationASR 表示同一个分类器没加 Transformation 能分出来情况下加了 Transformation 后分不出来的条件概率。作者用 Badnets 的方法在 Imagenet 的数据集中选中了狗狗类的一些图片作为子集通过在每个图片上加一个黄色小方块的方式引入 Bias并把这个子集的标签也改为黄色小方块作为一个新的类用 新的 Imagenet数据集进行预训练。基于这个预训练模型训练阶段作者在不同的子数据集上做微调验证阶段不论子数据集是什么训练出来的子模型对于带有黄色方块的图片都无法识别表现为 ASR 的值很高。这证明 Bias 确实发生了转移。实验结果如图三所示。▲图三:子模型的 ASR那么加黄色小方块图片数量的多少是否对 ASR 有影响呢作者也做了如下实验发现这种 Bias 的转移不依赖于源数据集中引入 Bias 的多少并且两者之间似乎并不存在某种关系。只要源数据集中有 Bias 的出现在子数据集上微调之后就一定会存在这种 Bias 的迁移。实验结果如图四所示。▲图四:Bias 迁移的强度关系那么有没有什么方法能消除这种 Bias 呢那当然也有就是不能再进行局部微调了而是要进行全微调也就是说常规的固定住参数只微调最后一个分类头的方法在这种情况下不可行应该要让所有参数都可调这样可以把源数据集中的 Bias 迁移降到最小。实验结果如图五所示。▲图五:部分微调与全微调的区别2.人为选择的 Bias上面我们说的是人为引入 Bias 的情况那么没有编辑过的数据集训练的预训练模型用起来是不是就没有顾忌了呢作者指出源数据集中特征之间的隐式相关性也将被作为 Bias 进行转移而且这种转移更加难以消除。作者在 COCO 数据集中收集能用于猫狗分类任务的数据对于狗作者只选择 COCO 数据集中狗和人同时出现的图片对于猫则无差别地选择。基于这个Biased数据集训练出来的预训练模型在一个完全没有人出现的猫狗数据集上进行部分微调Fixed-Transfer和全微调Full-network Transfer。在验证阶段同样能发现基于 Biased 预训练模型的子模型在接受一张猫狗的图片时图中有人的判断准确率比没人的要高很多。并且不同于人为引入Bias的情况全微调也并不能消除这种 Bias▲图六:自然存在 Bias 的影响3.自然存在的 BiasImagenet 数据集中有一类图片是网球如图七所示。那么经过 Imagenet 预训练模型微调后得到的模型在验证阶段如果验证集的图片中出现了网球形状的特征这个模型在做预测的时候将会出现严重的输出失真。例如 Cifar10 数据集把验证集的图片加上一个小网球。从头开始训练的模型的输出基本符合均匀分布但我们可以看到无论是部分微调还是全微调模型输出的结果都会更倾向于某些特定的类说明源数据集中蕴含的特征对子任务产生了类似于 Bias 的影响。至于为什么会倾向于某些特定的类本文并没有做更多阐述。实验结果如图八所示。▲图八:Cifar10数据集实验总结作者论证了上述3种 Bias 在预训练中都是会发生迁移的那么对于采用预训练模型做微调的情况这篇文章能启发炼丹师去考量源数据集和目标数据集特征之间的关系。并且说明了预训练的做法并不总是可靠的对于特定的任务Onestage 的训练方式可能会获得比预训练更鲁棒的模型因为 Onestage 能避免 Bias 的引入。从这篇文章也能或多或少得感觉到预训练会引入 Bias 等于用精度换更短的训练时间From Scratch 理论上可以获得更高的精度其中的取舍还是要看炼丹师如何选择啦。后台回复关键词【入群】加入卖萌屋NLP、CV、搜广推与求职讨论群