娱乐网站导航,qq是哪个国家公司开发的软件,电商网站建设好么,公司需要一个简单的网站文 | jxyxiangyu自监督学习指的是不依靠人工标注数据#xff0c;直接从数据中学习到有用的特征表示。自监督学习中所采用的监督信息可以是“是否属于同一实例样本”的二分类标签#xff08;对比学习#xff09;#xff0c;也可以是一段连续的自然语言文本的下一个词#x… 文 | jxyxiangyu自监督学习指的是不依靠人工标注数据直接从数据中学习到有用的特征表示。自监督学习中所采用的监督信息可以是“是否属于同一实例样本”的二分类标签对比学习也可以是一段连续的自然语言文本的下一个词自回归语言模型。然而自监督学习相关的论文看多了感觉也就那么回事。除了可以减少对标注数据的依赖下游任务中该分错类的case照样会分错类。•᷄ࡇ•᷅那么究竟有没有什么灵丹妙药可以缓解自监督模型在下游任务中出现分错类的情况呢最近 meta AI 的一篇工作研究了自监督模型在下游任务错误分类的原因并且提出了缓解这一问题的方法让我们一起来看看吧。论文标题Understanding Failure Modes of Self-Supervised Learning论文链接https://arxiv.org/pdf/2203.01881.pdf自监督模型下游错误分类的潜在原因为了研究自监督模型学习到的特征表示中哪些特征可以有助于下游任务的正确分类作者用 ImageNet-100 预训练了 SimCLR 模型作为 baseline 并且在学习到的特征表示后面接了个线性分类器用于下游任务的分类。图1 是训练学到的 ImageNet-100 中每个类的平均特征表示部分特征其中每个类是按照该类别的分类准确度(acc)排序的。图中用颜色深浅表示平均特征表示的值的绝对大小左边是在下游任务中可以被正确分类的样本右边是错误分类的样本的平均特征表示。可以看到表征空间几乎是稀疏的每个类的大部分特征都接近0在正确分类的样本中每个类的平均特征表示都有十分明显的几个特征这些特征是类别所独有的不同类别的可区分特征都不一致且不同类别的可区分特征有着高度的差异性而这一点在错误分类的样本中并不明显错误分类的样本其特征表示没有明显突出变化较大的特征在所有样本中都存在或者都激活的特征不太可能是下游任务中用于区分某个类别的特征。为了研究单个特征对分类正确与否的影响作者进一步绘制了主要特征和噪声特征的热图如下所示可以看到对于正确分类的样本主要特征能够捕捉到类别相关的特征而分类错误的样本主要特征则包含了太多的噪音和错误的信息噪声特征的热图则侧重于样本中无信息的部分。因此作者指出特征表示中包含了很多噪声特征这些特征对正确分类没有太多的贡献。综上所述作者指出了错误分类的两个原因训练得到的特征表示中缺少类别特定的主要特征主要特征映射到了样本中错误的部分基于上述几点作者希望可以通过利用特征表示的特点用无监督的方式对特征表示进行分类而不需要下游任务中的标签。自监督表征的质量指标为了衡量自监督模型学到的特征表示的质量作者定义了一系列质量指标。假定一个 SimCLR 模型由 ResNet 基本编码器base encoder记作 和多层感知机投影层记作 组成。 和 是 个数据样本中的第 个样本的两种变换表示这里作者用到的数据增强方式是随机裁剪、随机水平翻转等方式的组合。与 SimCLR 类似将样本输入基本编码器分别得到自监督模型的特征表示 和用投影层的输出 和 来计算损失函数和训练模型其中 和 分别是表征空间和投影空间的维度大小。模型的优化目标是其中 是模型参数402 Payment Required因为 会应用到下游任务为评估特征表示的好坏作者给出了以下几个质量指标均值 计算每一个特征表示 的均值即标准差 计算每一个特征表示 的标准差软稀疏性(Soft Sparsity)计算 中特征小于 的百分占比其中L1范数 计算每一个特征表示 的L1范数即 的 分数逐元素地计算 中最大值并计算 分数即402 Payment Required为评估以上指标在衡量下游任务中分类效果的好坏作者研究并绘制了多个sota自监督模型包括SimCLR、 SwaV、MoCo V2和BYOL的特征表示关于上述指标的ROC(receiver operating characteristic)曲线和PR曲线。此外作者还计算了相应的AUROCROC曲线下的面积和AUPRCPR曲线下的面积。可以看到L1范数 和 的 分数在各个模型上面都有较为一致的表现作者进一步可视化了 ImageNet-100 中5000个样本的L1范数和 分数。可以看到分类正确的样本的 分数普遍高于分类错误的样本而L1范数则普遍低于分类错误的样本。自监督 分数根据前面的实验结果作者设计了评判特征表示能否容易在下游任务分类正确的质量指标—— 分数。第 个样本的 分数定义如下 分数既能衡量出特征表示的稀疏性由 计算得到又可以判单表示中是否有较高的偏差值的特征由 计算得到。图 4 和表 1 都展示了作者提出的 分数的性能可以看出 分数在识别下游任务中是否分类正确的特征表示上确实效果明显。此外作者还将 分数应用到正则项上面用于改善自监督模型特征表示的质量其中 是用于选择 分数过小的样本的阈值 是正则项系数上述公式是常见的正则化公式但作者指出了这种目标函数会导致特征表示中的某个特征在所有样本中都被激活的情况出现使得下游任务中很难正确分类如下图所示为避免这种情况作者提出了修改后的带正则化的优化目标402 Payment Required其中 是特征表示 是所有特征表示的第 个特征按列的L1范数 是阈值实验准确率作者将上述 分数正则化应用到用 ImageNet-100 预训练的 SimCLR 模型上正如下表所示下游分类任务获得了 3.26% 的相对acc提升作者还展示了在应用 分数正则化前后每一类的acc变化发现在 ImageNet-100 的某些类中应用了 分数正则化后其acc比没有应用 分数正则化有明显提高而某些类会有些下降acc下降的这些类多是动物超类这些类别的特征表示存在很多共同特征比较容易分错类而应用 分数正则化则进一步放大了错误的特征促使在下游任务中分错类。特征表示作者展示了 分数正则化后的自监督模型的特征表示如下所示▲Q分数正则化后的特征表示不区分正确错误分类和没有用 分数正则化的特征表示图 1 相比图 2 的特征表示中的主要特征更加明显图 7 显示的没有区分分类正确与否的类平均特征表示其中的特征有了明显清晰的区分在表 2 中作者给出了使用 分数正则化前后的AUROC和AUPRC的对比可以看到使用 分数正则化后这两个指标都有明显的下降。以上都证明了 分数正则化的有效性。可解释性自监督模型的表示空间是稀疏的大部分特征都接近于0而这些接近于0的特征几乎在所有样本中都激活属于噪音特征。作者展示了应用 分数正则化前后的特征表示稀疏度的对比如下所示可以看到应用 分数正则化后特征表示的平均稀疏度从35%增加到52%正因为剔除了这些噪音特征使得特征表示的可解释性得到了提升。总结作者提出的 分数可以在无监督的方式下预估自监督模型得到的特征表示在下游任务中正确分类的可能性同时 分数正则化也可以一定程度上改善低质量的特征表示有助于提高下游任务的分类准确率。但是从论文中看到作者貌似是用自监督模型学习到的特征表示或者冻结模型参数或者直接使用特征表示用于下游任务的分类。在nlp领域尤其是大规模预训练语言模型上一般是fine tuning下游任务不清楚作者提出的思路在fine tuning上面是否也work呢萌屋作者jxyxiangyu人工智障、bug制造者、平平无奇的独臂侠、在某厂工作的初级程序员从事对话交互方向坚持每天写一点bug时常徘徊在人工智能统治未来和if-else才是真正的AI的虚拟和现实之间希望有朝一日学术界的研究成果可以真正在工业界实现落地。作品推荐谁说发 paper 一定要追快打新2021年研究 word2vec 也能中顶会一训练就显存爆炸Facebook 推出 8 比特优化器两行代码拯救你的显存后台回复关键词【入群】加入卖萌屋NLP、CV与搜推广与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集