当前位置：首页 > news >正文

做ppt哪个网站的图片好2022重大时政热点事件简短

news 2025/12/26 14:33:39

做ppt哪个网站的图片好,2022重大时政热点事件简短,wordpress 自定义查询,如何将项目发布到网上作者#xff1a;Kawin Ethayarajh编译#xff1a;ronghuaiyang #xff08;AI公园#xff09;具有上下文信息的词表示到底有多大程度的上下文化#xff1f;这里给出了定量的分析。将上下文信息放到词嵌入中 — 就像BERT#xff0c;ELMo和GPT-2 — 已经证明了是NLP的一个分…作者Kawin Ethayarajh编译ronghuaiyang AI公园具有上下文信息的词表示到底有多大程度的上下文化这里给出了定量的分析。将上下文信息放到词嵌入中 — 就像BERTELMo和GPT-2 — 已经证明了是NLP的一个分水岭的想法了。使用具有上下文信息的词表示来替换静态词向量例如word2vec在每个NLP任务上都得到了非常显著的提升。但是这些上下文化的表达到底有多大程度的上下文化呢想想“mouse”这个词。它有多种词义一个指的是啮齿动物另一个指的是设备。BERT是否有效地在每个词的意义上创造了一种“mouse”的表达形式或者BERT创造了无数个“mouse”的形象每一个都是和特定的上下文相关在我们的EMNLP 2019论文“How Contextual are Contextualized Word Representations?”中我们解决了这些问题并得出了一些令人惊讶的结论在BERT、ELMo和GPT-2的所有层中所有的词它们在嵌入空间中占据一个狭窄的锥而不是分布在整个区域。在这三种模型中上层比下层产生更多特定于上下文的表示然而这些模型对单词的上下文环境非常不同。如果一个单词的上下文化表示根本不是上下文化的那么我们可以期望100%的差别可以通过静态嵌入来解释。相反我们发现平均而言只有不到5%的差别可以用静态嵌入来解释。我们可以为每个单词创建一种新的静态嵌入类型方法是将上下文化表示的第一个主成分放在BERT的较低层中。通过这种方式创建的静态嵌入比GloVe和FastText在解决单词类比等基准测试上的表现更好。回到我们的例子这意味着BERT创建了与上下文高度相关的单词“mouse”的表示而不是每个单词都有一个表示。任何“mouse”的静态嵌入都会对其上下文化表示的差异造成很小的影响。然而如果我们选择的向量确实最大化了可解释的变化我们将得到一个静态嵌入这比GloVe或FastText提供的静态嵌入更好。上下文化的度量上下文化看起来是什么样的考虑两个场景A panda dog runs.A dog is trying to get bacon off its back.注意这些度量都是针对给定模型的给定层计算的因为每个层都有自己的表示空间。例如单词‘dog’在BERT的第一层和第二层有不同的self-similarity值。各项异性调整当讨论上下文时考虑嵌入的各向同性是很重要的。即它们是否在各个方向均匀地分布)。在下面的两个图中SelfSim’dog‘)0.95。左边的图片显示“dog”这个词没有很好的上下文化。它的表现形式在它出现的所有上下文中几乎都是相同的而且表示空间的高各向同性表明0.95的self-similarity是非常高的。右边的图像则恰恰相反因为任何两个单词的余弦相似度都超过了0.95所以‘dog’的自相似度达到0.95就没什么了不起了。相对于其他单词‘dog’会被认为是高度上下文化的为了调整各向异性我们为每个测量值计算各向异性基线并从相应的原始测量值中减去每个基线。但是有必要对各向异性进行调整吗有如下图所示BERT和GPT-2的上层是极具各向异性的这表明高的各向异性是上下文化过程的固有特征或者至少是其结果特定上下文一般来说在更高的层中上下文化的表示更特定于上下文。下图所示自相似度的降低几乎是单调的。这类似于在NLP任务上训练的LSTMs的上层如何学习更多特定于任务的表示(Liu et al. 2019)。GPT-2是最具特定上下文化的其最后一层中的表示几乎是与上下文相关程度最高的。**自相似度最低的停止词比如包括“the”。最特定于上下文表示的词)。**一个词出现在多种上下文中而不是其固有的一词多义是其上下文化表示变化的原因。这表明ELMo、BERT和GPT-2并不是简单地为每个词赋予一个表示否则就不会这么少的词意表示会有这么多的变化。**特定上下文表示性在ELMo、BERT和GPT-2中表现得非常不同。**如下图所示在ELMo中相同句子中的单词在上层中更相似。在BERT中同一句话的上层单词之间的相似性更大但平均而言它们之间的相似性比两个随机单词之间的相似性更大。相比之下对于GPT-2同一句话中的单词表示彼此之间的相似性并不比随机抽样的单词更大。这表明BERT和GPT-2的上下文化比ELMo的更微妙因为他们似乎认识到出现在相同上下文中的单词不一定有相同的意思。静态 vs. 上下文化平均而言在一个词的上下文化表示中只有不到5%的差异可以用静态嵌入来解释。如果一个单词的上下文化表示完全与上下文无关那么我们期望它们的第一个主成分能够解释100%的变化。相反平均不到5%的变化可以被解释。这个5%的阈值代表了最佳情况其中静态嵌入是第一个主成分。例如没有理论保证GloVe向量与最大化可解释变化的静态嵌入相似。这表明BERT、ELMo和GPT-2并不是简单地为每个词意义分配一个嵌入否则可解释的变化比例会高得多。在许多静态嵌入基准上BERT的低层上下文化表示的主成分表现优于GloVe和FastText。这个方法将之前的发现归结为一个逻辑结论如果我们通过简单地使用上下文化表示的第一个主成分为每个单词创建一种新的静态嵌入类型结果会怎样事实证明这种方法出奇地有效。如果我们使用来自底层BERT的表示这些主成分嵌入在涉及语义相似、类比求解和概念分类的基准测试任务上胜过GloVe和FastText(见下表)。对于所有这三种模型从低层创建的主成分嵌入比从高层创建的主成分嵌入更有效。那些使用GPT-2的人的表现明显比来自ELMo和BERT的人差。考虑到上层比下层更特定于上下文考虑到GPT-2的表示更特定于上下文这表明不太特定于上下文的表示的主成分对这些任务更有效。总结在ELMo、BERT和GPT-2中上层比下层产生更多特定于上下文的表示。但是这些模型对单词的上下文环境非常不同在调整了各向异性之后ELMo中相同句子中的单词之间的相似性最高而GPT-2中几乎不存在。平均而言在一个词的上下文化表示中只有不到5%的变化可以用静态嵌入来解释。因此即使在最佳情况下静态词嵌入也不能很好地替代上下文化的词。尽管如此上下文化的表示可以用来创建更强大的静态嵌入类型BERT的低层上下文化表示的主成分比GloVe和FastText要好得多

查看全文

http://www.pierceye.com/news/33270/