做外贸网站效果,做网站需要多少钱知乎,大连建设工程信息网官网首页,青岛做网站找哪家这是NVIDIA的一篇论文#xff0c;LLM通常使用的是GPT的decoder范式作为一个生成模型#xff0c;文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能#xff0c;即提取有效的embedding。现有的方法提取embedding的方式无非是 1 mean pooling#xff1b; 2…
这是NVIDIA的一篇论文LLM通常使用的是GPT的decoder范式作为一个生成模型文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能即提取有效的embedding。现有的方法提取embedding的方式无非是 1 mean pooling 2 the last token embedding。前者是encoder-like的model用得多后者是decoder-like的model用得多。然而这两者都有问题。文章提出的方法是decoder模型正常是会通过循环的方式生成一段序列嘛最后一个time step的一层的Q就是 l × d l\times d l×d的 l l l个token每个 d d d维然后我预定义一个latent array是 r × d r\times d r×d的它作为 r r r个token的K和V用来和Q算attention实际上做的是多头注意力这里简单起见按单头注意力讲解得到 O O O是 l × d l\times d l×d的再接MLP GELU MLP再过一个mean pooling得到最终的embedding。文章一边说train from scratch又说用LoRA就很奇怪。另外呢文章把mask去掉了之前的GPT每个token做注意力只能看到前面的token但文章发现直接全都看得到在提取embedding方面效果更好 文章试验了bidirect attention/causal attention的对比EOS Mean latent-attention self-attention的对比