朝阳住房和城乡建设官方网站,三星网上商城退款,网站开发语言作用,网站怎么识别PC 手机文 | Sherry一直以来#xff0c;数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料#xff1b;然而人工收集足量而优质的数据从来不是一件“便宜”的事#xff0c;数据增强便是一座富有价值的矿山。在CV中#xff0c;翻转#xff0c;裁剪#xff0c;加噪声等方法被… 文 | Sherry一直以来数据都是推动深度神经网络这个人工智能引擎不可或缺的燃料然而人工收集足量而优质的数据从来不是一件“便宜”的事数据增强便是一座富有价值的矿山。在CV中翻转裁剪加噪声等方法被广泛应用且获得了显著的效果。但在NLP领域由于语言的离散性如何获得保持文本原意的新数据就显得不那么简单了。大型预训练模型的成功为我们带来了曙光推动了许多低资源领域或是新任务的研究然而微调大型模型需要大量数据如何自动获得高质量数据在最近的研究中显得尤为重要。GoogleCMUMila等研究者合作对当前NLP领域的数据增强进行了总结。被收录到ACL 21 Findings。本文将帮你总结NLP数据增强的难点和理解常见方法应用场景和不同下游任务中的常见方法。论文题目:A Survey of Data Augmentation Approaches for NLP论文链接:https://arxiv.org/pdf/2105.03075GitHub:https://github.com/styfeng/DataAug4NLP也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0602】 下载论文PDF~NLP数据增强的难点和理解角度数据增强的目标和难点数据增强的目标当然是为了获得更多的数据但需要满足两个条件容易执行且可以提高模型表现。如果说一个增强的方法他本身就需要大量资源比如训练一个复杂的生成模型我们完全可以用人工标注的方法来获得最优质的数据增强就会显得没有意义如果增强获得的数据质量不够高比如由简单规则生成反而会破坏模型的表现那这种增强也违反了我们的初衷。为了获得高质量的增强数据我们通常要求增强的数据分布和原数据集不要相差太大可能破坏模型表现也不要相差太小可能导致过拟合。怎么看待数据增强通常来说数据增强被认为可以增加模型正则性减少过拟合但其实很少有人解释它到底为什么可以帮助模型训练。现有的工作中从以下角度给出了解释从正则化角度出发研究者提出含有噪声的样本有助于帮助正则化若是把数据增强看作核变换则它有助于平均不同的特征并正则化方差同样我们也可以把数据增强看作平均不同数据的分布轨迹从而也能得到减少方差的效果。另外也有研究者证明了指数量级的数据增强可以提高分类器的正边界但显示应用中我们通常不会增强这么大量的数据。常见方法NLP的增强虽然有很多难点但近年来也发展出了许多比较成熟的分支。常见的数据增强方法可以分为以下几类基于规则特征空间的增强由于自然语言的离散性直接生成更多数据显得很艰难一个直接的方法就不生成语言数据而是在特征空间直接进行增强。比如说在少样本学习中我们先学习训练领域的不变量然后在目标类别上特征空间的不变量转换得到更多特征样本。或者是在同一类的空间流形上不断进行仿射变换来获得更多特征样本。EDA--简单的规则EDA是一种简单有效也被广泛应用的文本增强随机插入删除替换token从而在文本数据中加入噪声。EDA的改进版UDA则利用简单的增强包括回译或者根据TF-IDF替换词等方法获得增强数据再最小化增强后未标注样本和原样本的一致性损失函数来帮助半监督学习。图上的变换通过句法解析等技术我们也可以讲自然语言转化成图/树的结构。因此我们也可以通过人为设计树上的变换来获得增强数据比如把交换子树的顺序或者删除子树等。样本插值MixUp在图像领域被广泛应用具体而言它对两个及以上的训练样本进行插值。把两张一样大的图每个像素点按叠加同时目标标签也按同样权重叠加就得到了一个新的合理训练数据。除了按照像素点叠加也可以把图A的局部用图B代替然后按图片面积占比插值得到新类别CutMix。将这种思路引入文本增强的难点在于:文本是离散的无法找到合适的插值单位。但仍然有一些常见的方法可以应用拼接句子混合嵌入词向量或者高维表示向量。Seq2MixUp提出两种混合样本的方法一个是对句子的每个位置随机决定复制两个样本中的一个字或者是根据概率分布混合词向量。基于模型的增强这类方法利用已经训练好的模型作为增强数据的方法。回译 -- 翻译模型利用已经训练好的翻译模型来增强数据就是一种常见而有效的方法。通常我们把训练数据翻译成一种或多种其他语言再翻译回来筛选之后可以得到质量比较高的数据。填空 -- 语言模型大型预训练网络获得成功之后另外一个常见而有效的方法就是用这类模型替换原样本中的词或片段。例如随机mask上句子中的词然后用BERT这类模型填入和原来不一样的候选词。语意近邻 -- 生成模型除了回译和填空我们也可以直接利用生成模型。之前的样本混合或扰动的方法水直接利用隐空间表示来获得新样本但我们同样也可以讲这些混合或扰动之后的表示向量作为生成模型的条件输入从而得到新的样本。直接用生成模型除了给定向量表示来生成我们也可以直接在目标数据集上微调GPT等生成模型然后直接生成新的训练数据再用自监督的方法获得标注。应用场景数据增强有许多具有研究价值的应用场景。低资源语言低资源语言的数据获取一直以来都是研究的重要分支。常见的增强方法包括1利用高资源语言中可以被推广的性质帮助低资源语言2利用回译自监督来生成增强训练数据。处理性别偏差在指代消解(coreference)任务中我们可以通过交换he/she来平衡数据集中的性别分布。更进一步我们可以用替换词汇为更中性的词汇来平衡可能引起性别偏差的数据。解决不平衡类别常见的解决不平衡类别的方法有upsample/downsample。利用数据增强我们可以通过插值生成minority class 样本或者用EDA等方法直接增加少数类别的样本。下游任务中的变种接下来我们按照不同任务总结了增强的方法作者在GitHub中也给出了详细的总结可以参考https://github.com/styfeng/DataAug4NLP。摘要 Summarization类似UDA先从回译获得增强数据然后利用一致性损失函数提升效果。混合从Common Crawl获得的合成数据以及原数据集来提升模型效果。问答 QADomain-agonistic QA: 回译开放领域问答远程监督利用原数据集以及抽取器获得数据Zero-shot cross-lingual: 问题生成Cross-lingual QA/NLI: 将一部分文本从源语言替换为其他语言为了提高QA 准确率和一致性, 利用逻辑和语言学知识获得训练数据序列标注 Sequence Tagging首先学习根据特定方案线性化的标签和单词序列的语言模型。其次从该语言模型中采样序列并对其进行去线性化处理以生成新的示例。POS tagging: 依存树变换NER: 对每个实体进行token或同义词替换解析 Parsing利用数据重组来添加对特定任务有效的先验知识。表格解析Grappa: 利用预训练模型来生成问题-SQL对进行增强。语义解析: 利用组成性替换重复的片段。低资源依存关系解析替换词语为拥有相同POS形态标签和依存关系标签的其他词。语法纠正 Grammatical Error Correction德语纠正利用维基百科的编辑历史作为额外数据。多任务迁移学习利用其他任务的标注作为额外数据。合成新的错误来训练纠正模型token级别的扰动训练生成错误的模型过滤。利用拼写检查器产生的混淆集以进行干扰。从标注数据中学习错误的模式并用来生成特定的噪声。用生成模型的beam search来增加数据噪声。翻译 NMTSwitchOut: 随机替换平行语料中源语言和目标语言的对应词。Soft Contextual: 随机选定一个词用词表中其他多个相关词的上下文表示来替换它。Data Diversification: 将原数据和多个训练好模型的预测混合。Data-to-Text NLG球赛总结任务随机修改不影响比赛结果的得分来增强。从三元组生成描述利用维基百科和开放关系抽取工具获得更多三元组及描述句子的数据。意思表示meaning representation修改意思表示的序列顺序来增强。Open-Ended Conditional GenerationGenAug在低资源领域微调GPT-2从而提高生成文本的连续性。挑战与未来作者针对过去的文本增强方法提出了许多值得注意的方面缺少一致有效的方法不像CV文本增强没有一致有效的增强方法。可能需要发展一个统一的任务和数据集来比较不同增强方法的优劣。预训练模型对领域内数据效果甚微以前有效的增强方法对大型预训练模型失去了效果他们已经可以达到很好的效果了。缺少理论解释很少有人解释为什么数据增强有效大多数工作都只是通过实验结果来展示增强有效并且给出一些猜想挑战在于在不借助全面实验的情况下测量优度。CV中有人研究了affinity和diversity可以预测增强的效果但是在NLP中没有对应的理解。多模态挑战对多模态任务有人对单个模态进行增强或者对不同模态设置不同的增强但是是否存在一个统一的增强方法呢基于span的任务随机替换token可能扰乱上下文信息。特殊领域增强对OOD无效 因为增强的数据可能跟原数据分布非常不同低资源语言跟特殊领域的难点一样对高资源有效的增强方法不一定对低资源有效。视觉启发CV的增强都是受现实世界不变量启发很多在NLP中有对应比如改变灰度可能对应着词形简化lemmatization 调整色调对应着替换副词程度例如把awesome改成good旋转对应着依存树变换角度调整对应着同义句替换。总结这篇论文对过去的文本增强工作进行了系统性总结可以说是比较全面的。对小领域上的增强方法的总结可以让大家快速上手了解常见增强方法同时借鉴其他任务上的增强也可能启发其他新的思路。另外文章中对文本增强的目标理解难点以及未来发展方向都给出了新颖的观点具有启发意义。萌屋作者Sherry。本科毕业于复旦数院转行NLP目前在加拿大滑铁卢大学读CS PhD。经历了从NOIer到学数学再重回CS的转变却坚信AI的未来需要更多来数学和自认知科学的理论指导。主要关注问答信息抽取以及有关深度模型泛化及鲁棒性相关内容。作品推荐可交互的 Attention 可视化工具我的Transformer可解释性有救了谁才是Transformer家族中的最强王者谷歌告诉你答案Facebook刷新开放域问答SOTA模型训模型Reader当Teacher寻求报道、约稿、文案投放添加微信xixiaoyao-1备注“商务合作”后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集