当前位置：首页 > news >正文

网站活动页面深圳石岩小学网站建设

news 2025/12/20 18:43:59

网站活动页面,深圳石岩小学网站建设,新加坡互联网公司排名,武山建设局网站WHY does BERT work#xff1f; BERT会考虑上下文#xff01; 进行Word Embedding#xff01;将一个单词表示成向量#xff0c;比如苹果单词中的“果”和苹果公司中的“果”#xff0c;在经过Embedding后虽然同样是同一个词#xff0c;但是由于上下文不同#xff0c;所…WHY does BERT work BERT会考虑上下文进行Word Embedding将一个单词表示成向量比如苹果单词中的“果”和苹果公司中的“果”在经过Embedding后虽然同样是同一个词但是由于上下文不同所以vector距离是远的不一样的表示但是相同语境的“果”则距离比较近接下来我们计算两个果的相似度可以看出对角的关系还是比较近的为什么你能知道一个单词的意思呢这个人说了你要知道一个单词的意思就得根据它的上下文决定的所以即使你将该单词盖住这个单词还是会被预测出。在BERT之间其实已经有该技术了就是word Embeddingword Embedding是一个简单的模型就是两个Transformer 有人就问为什么只是Transformer不能是其它的更加复杂的结构为什么只是linear不能是deep learning 因为只是因为算力的问题 Multi-lingual BERT 这有啥特别之处呢就是你会将加入不同语言的输入我们通过使用不同的语言的单词训练模型在该模型English的QA上进行Fine-tune训练模型时居然可以回答中文问题可以看到即便是在English上fine-tune的Bert模型最终回答中文问题准确率也可以达到78% 为什么会这样呢因为在预训练的时候不同语言但是相同的词汇在经过Bert后距离很近我们通过实验来验证两种语言的word embedding的距离其中MRR就是这个指标它的值越大表明两个语言越接近起初我们使用的是200k句子来做实验但是各种调参都没发现模型更好的效果但是后面想是不是句子的规模不够索性增加到1000k发现模型的效果很好但是还是感觉怪怪的! 因为你在做语言填空的时候你将汉语输入Bert里它给你补全了汉语你用英语输入Bert里它给你不劝了英语它不会给你互相补充。这说明句子与句子之间还是有差距的我们通过计算两种语言之间的总体的差距并表示成向量之后再在Bert后加向量就是最后的结果后面的是真实的实例这是无监督的

查看全文

http://www.pierceye.com/news/456543/