建设网站项目的目的,wordpress360cdn,兴仁市建设局网站,互联网营销师题库文章目录 前言论文阅读同类工作比较模型架构训练方式使用步骤实验结果 其他 前言
BERT是在NLP领域中第一个预训练好的大型神经网络#xff0c;可以通过模型微调的方式应用于后续很多下游任务中#xff0c;从而避免了下游NLP应用需要单独构建一个新的神经网络进行复杂的预训练… 文章目录 前言论文阅读同类工作比较模型架构训练方式使用步骤实验结果 其他 前言
BERT是在NLP领域中第一个预训练好的大型神经网络可以通过模型微调的方式应用于后续很多下游任务中从而避免了下游NLP应用需要单独构建一个新的神经网络进行复杂的预训练。这样既简化了下游NLP任务的模型训练又提高了性能。
论文阅读
同类工作比较
BERT和GPT的区别GPT采用的是语言模型的方式进行训练即用前文的信息来预测下一个单词而BERT采用的是一种完型填空的方式进行训练即根据左右的文本预测中间的单词。BERT和ELMo的区别ELMo采用的网络架构是基于RNN的而BERT采用的网络架构是基于Transformer的。因此ELMo应用于下游任务时需要对网络进行一定的调整而BERT应用于下游任务的调整更少相对更加简单。
模型架构
基本架构双向的Transformer的编码器并没有对Transformer进行很大的改动。可以调整的参数Transformer编码器的层数、隐藏层的维度和多头注意力的头数。两个不同大小的BERT模型BERT_base中含有12层Transformer编码器隐藏层维度为768注意力的头数为12BERT_large中含有24层Transformer编码器隐藏层维度为1024注意力的头数为16。BERT_large的大小是BERT_base的三倍多参数量分别是一亿多和三亿多。模型输入由于下游任务的多样性因此BERT的输入可以是一个句子也可以是一个句子对这里的句子都是广义的句子即一段连续的文字。每一个句子的开头词元都是一个特殊的[CLS]。BERT中的词元嵌入对于每一个词元都先对其进行一次嵌入获得一个向量接着根据这个词元所在的句子获得第二个嵌入向量最后根据这个词元在这个句子中的位置获得第三个嵌入向量。将三个嵌入向量进行相加即可得到每一个词元的完整嵌入表示形式。
训练方式
第一种训练方式在文本中随机找出一些token并将其用掩码盖住模型通过这些token的上下文复原这些词元。具体来说将预训练数据中12%的词元用特殊词元[MASK]进行替代1.5%的词元替换为另外一个随机的词元1.5%的概率仍然保留这个词元。模型训练时需要对这总共占15%的词元进行预测。第一种训练方式用于学习词元层面的信息。第二种训练方式让模型判定给定的两个句子在文本中是否应该是相邻的。第二种训练方式用于学习句子层面的信息。
使用步骤
预训练和微调是BERT的两个使用步骤。
预训练在没有标号的大量数据集上进行训练微调在少量有标号的数据集上进行微调模型的所有权重都参与微调过程。
实验结果
在11个NLP任务上取得了目前最好的结果。
其他
BERT及其之后的一些工作证明了在大量没有标号的数据集上进行模型训练的效果会比在少量有标号数据集上进行模型训练的效果更好。