当前位置：首页 > news >正文

免费建站系统软件建设部网站拆除资质

news 2025/11/12 20:21:07

免费建站系统软件,建设部网站拆除资质,cms建站系统是什么,石家庄企业网站建设价格Skip-gram标签(空格分隔)#xff1a;NLP一. skip-gram和cbow的对比 skip-gram与cbow相比#xff0c;好处在于对于不常用的词#xff0c;skip-gram的效果要更好#xff1b;举个简单的例子#xff0c;一个句子w1w2w3w4#xff0c;window_size1#xff1b;对于cbow#xf…Skip-gram标签(空格分隔)NLP一. skip-gram和cbow的对比 skip-gram与cbow相比好处在于对于不常用的词skip-gram的效果要更好举个简单的例子一个句子w1w2w3w4window_size1对于cbow模型学习的是预测给定上下文后出现word的概率或者去最大化下面式子的概率值但这对不常见的单词来说是个问题因为不常见的单词在给定的上下文中不经常出现结果模型会分配给它们很小的概率。对于skip-gram模型学习的是给定单词后去预测上下文的概率或者去最大化下面式子的概率值在这个例子中两个单词(频繁出现的和不频繁出现的) 被相同的对待。均被当作是单词和上下文两个观测。因此这个模型会把罕见的单词也学到。二. skip-gram 主要思想目标skip-gram目标是通过最优化邻域保留的似然目标来学习单词的连续特征表示假设skip-gram的目标是基于分布假说其中陈述的是近似上下文中的单词有具有近似含义的趋势。那就是说相似的单词有着出现在相似邻域内的趋势算法遍历文档中的每个单词对于每个单词其力求去嵌入单词的特征以能够去预测邻近的单词(单词在上下文单词的窗口里)。通过使用带负采样的SGD梯度下降来优化似然函数学习单词的特征表示。skip-gram公式化的表述 skip-gram通过最优化似然目标函数来学习预测给定单词后的上下文。假设现在我们有一个句子I am writing a summary for NLP.这个模型目的是根据给定目标word ‘summary’来预测window_size2窗口中的上下文单词I am [] [] summary [] [].接着模型试着去最优化似然函数事实上给出一个句子skip-gram可以做到。相反的把每个单词都当作一个目标word并且预测上下文word。所以这个目标函数可以表示为给它一个更正式的表述给出一组单词w和它们的上下文c. 我们考虑条件概率是P(c|w), 并且给出预料目标是找出条件概率的参数以至于最大化语料出现的概率或者我们也可以将其写为其中D是我们提取的所有单词和上下文的集合接下来通过log函数来进行简化那么接下来的问题就是如何来定义其必须满足如下两个条件一是二是一个自然的方法是使用softmax函数所以可以这样来定义是word w和w的上下文单词c的向量化表示U表示所有可用上下文的集合。在这篇文章中我们假设目标单词w和上下文c来自不同的词汇表矩阵V和U因此来自单词word的lunch和来自单词上下文的lunch是不同的。其中一个动机是每个单词在模型中充当了两种角色其中一个作为目标单词而另一个作为上下文单词。这就是为什么我们需要两个单独矩阵的原因注意到它们必须是相同的维度V * k其中k是一个超参数表示的是每一个词向量的维数。我们想要设置参数从而使得函数最大化。这里我们用内积(inner product)来衡量和两向量间的相似性如果它们有近似的含义那么就代表这它们有着近似的向量化表示那么它们的共现概率也会比较高。(note:将余弦相似度和内积来作为距离度量的对比cos距离只关心角度的区别而内积关心的是角度和大小。如果你归一化了你的数据使得它们有相同的大小那么这两种方法就没有区别了)代入我们的定义可以把目标函数表示为然而这个目标函数计算起来太过于复杂因为其表示为log(sum)故计算目标函数的代价会比较大。在考虑所有word的上下文的情况下其时间复杂度为O(|Vocab|)为什么更prefer选择在求和里面取log而不是在求和外面取log 经常我们选择在求和里面取log而不在外面。当你想做优化时log和sum函数是一部分功能。这就表示在某个点处你需要把函数的梯度设为0导数是线性的计算所以当你需要求log(sum)时和的导数就是导数的和。对比之下根据链式法则和的log的导数求得为如下形式1/(your sum)⋅(derivative of the sum)特别是当分析的时候, 找到该函数的0可能是一个具有挑战性的任务。另一方面因为这个过程的计算代价很大在求和外的log常常需要近似的来进行计算例如使用Jensen不等式来进行近似。现在开始重新构造目标函数并且对其近似负采样--skipgram model 在进行skip-gram模型的推导之前我们假定(w,c)在训练数据集中是一个词与其上下文词的对那么的共现概率应该很大。现在可以思考一个问题当共现概率比较大时在训练数据中它们是不是一个单词及单词的上下文对按照这种方式进行思考我们提出了二元分类问题表示来自上下文语料库的单词对(w,c)的共现概率表示来自不同语料库的单词对(w,c)共现概率。和以前一样假设有参数控制分布因为它是一个二分类的问题故我们可以使用sigmoid函数来定义它现在的目标变成了寻找参数来最大化如下目标函数其中是由不在语料库中的词对(w, c)随机组成我们将(w, c)这个不在语料库中的词对称为负采样(源于的采样过程是对负样本进行随机采样)。下面有几个点需要注意1-该目标函数看起来和逻辑回归的目标函数非常相似避免了log(sum)的计算通常情况下所以我们为每个数据样本取k个负样本。由原始论文中对于小型训练数据集作者建议k值取在5--20之间对于大型训练数据集作者建议k值取在2--5之间。因此如果我们对每个数据样本取k个负样本并且通过N(w)来表示这些负样本。那么目标函数可以表示为SGD for skip-gram objective function 代码实现细节动态窗口大小使用的窗口大小是动态的参数k表示最大窗口大小。对于语料库中的单词窗口大小从[1,k]均匀采样二次采样和稀有词修剪关于二次采样和下采样Referenceshttps://blog.csdn.net/Jay_Tang/article/details/105577295 唐兄的bloghttp://www.davidsbatista.net/blog/2018/12/06/Word_Embeddings/https://www.quora.com/Why-is-it-preferential-to-have-the-log-inside-the-sum-rather-than-outside- END -

查看全文

http://www.pierceye.com/news/921126/