网站开发tt0546,阳江最新通知今天,网站开发 网站建设,网页设计与制作的三个阶段论文笔记整理#xff1a;王春培#xff0c;天津大学硕士。链接#xff1a;https://arxiv.org/pdf/1810.04805.pdf动机将预训练语言表示应用于下有任务现有两种策略#xff1a;基于特征的和基于微调的。文章认为当前技术限制了预训练的能力#xff0c;尤其是基于微调的方法… 论文笔记整理王春培天津大学硕士。链接https://arxiv.org/pdf/1810.04805.pdf动机将预训练语言表示应用于下有任务现有两种策略基于特征的和基于微调的。文章认为当前技术限制了预训练的能力尤其是基于微调的方法。很多语言模型是单向的或者特征抽取器功能不够强大这些都限制了下游NLP任务的性能。BERT模型通过使用双向编码器来改进基于微调的方法添加NSP提高模型性能推进了11项NLP任务的技术。亮点BERT的亮点主要包括1使用双向语言模型使用能力更强的Transformer提取特征添加NSP任务提高模型性能。2推进了11项NLP任务的最新技术可应用范围非常广。概念及模型模型体系结构BERT的模型架构是一个多层双向Transformer编码器文中主要报告两种模型参数的结果1BERTBASE: L12, H768, A12, TotalParameters110M2BERTLARGE: L24, H1024, A16, TotalParameters340M输入表示输入表示分为三部分1词嵌入用##表示分词2位置嵌入通过学习得到位置嵌入支持序列长度可达512个令牌3句子嵌入句子对被打包成一个序列首先用特殊标记将它们分开。其次添加一个学习句子A嵌入到第一个句子的每个标记中一个句子B嵌入到第二个句子的每个标记中对于单个句子只是用句子A嵌入。 预训练任务1、任务#1Masked LM文章认为双向语言模型比单向语言模型功能更强大为了训练双向语言模型文章采取的方法为随机屏蔽一定比例的输入令牌然后仅预测那些被屏蔽的令牌并将这其称为“Masked LM”MLM这种做法与CBOW不谋而合。虽然可以此方法构建双向预训练模型但这种方法有两个缺点。首先预训练和微调之间不匹配因为[MASK]令牌在微调期间从未出现。为了减轻这种影响文章提出并不总是用实际的[MASK]令牌替换“掩蔽”词。相反训练数据生成器随机选择15的令牌然后执行以下过程180的时间用[MASK]标记替换单词210的时间用随机单词替换单词310的时间保持单词不变 Transformer编码器不知道它将被要求预测哪些单词或哪些单词已被随机单词替换因此它被迫保持每个输入标记的分布式上下文表示。此外因为随机替换只发生在所有令牌的1.5即15的10这似乎不会损害模型的语言理解能力。第二个缺点是每批中只预测了15的令牌这表明模型可能需要更多的预训练步骤才能收敛。 2、任务#2NSP 许多重要的下游任务都是基于理解两个文本句子之间的关系而这两个文本句子并不是由语言建模直接捕获的。为了训练理解句子关系的模型文章预先训练了一个可以从任何单语语料库生成的二值化的下一个句子预测任务。具体地当为每个预训练示例选择句子A和B时50的时间B是跟随A的实际下一句子并且50的时间是来自语料库的随机句子。 实验文章将介绍11个NLP任务的BERT微调结果1、GLUE结果2、SQuAD v1.1 3、SQuAD v2.04、SWAG总结由于语言模式转换学习的经验改进表明丰富的、无监督的预训练是许多语言理解系统的一个组成部分。特别是这些结果使得即使是低资源任务也能从非常深的单向体系结构中受益。文章的主要贡献是将这些发现进一步推广到深度双向架构允许相同的预训练模型成功解决一系列广泛的NLP任务。 OpenKG开放知识图谱简称 OpenKG旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。