当前位置: 首页 > news >正文

免费建站系统软件建设部网站拆除资质

免费建站系统软件,建设部网站拆除资质,cms建站系统是什么,石家庄企业网站建设价格Skip-gram标签(空格分隔)#xff1a;NLP一. skip-gram和cbow的对比 skip-gram与cbow相比#xff0c;好处在于对于不常用的词#xff0c;skip-gram的效果要更好#xff1b;举个简单的例子#xff0c;一个句子w1w2w3w4#xff0c;window_size1#xff1b;对于cbow#xf…Skip-gram标签(空格分隔)NLP一. skip-gram和cbow的对比 skip-gram与cbow相比好处在于对于不常用的词skip-gram的效果要更好举个简单的例子一个句子w1w2w3w4window_size1对于cbow模型学习的是预测给定上下文后出现word的概率或者去最大化下面式子的概率值​ 但这对不常见的单词来说是个问题因为不常见的单词在给定的上下文中不经常出现结果模型会分配给它们很小的概率。对于skip-gram模型学习的是给定单词后去预测上下文的概率或者去最大化下面式子的概率值在这个例子中两个单词(频繁出现的和不频繁出现的) 被相同的对待。均被当作是单词和上下文两个观测。因此这个模型会把罕见的单词也学到。二. skip-gram 主要思想 目标skip-gram目标是通过最优化邻域保留的似然目标来学习单词的连续特征表示假设skip-gram的目标是基于分布假说其中陈述的是近似上下文中的单词有具有近似含义的趋势。那就是说相似的单词有着出现在相似邻域内的趋势算法遍历文档中的每个单词对于每个单词其力求去嵌入单词的特征以能够去预测邻近的单词(单词在上下文单词的窗口里)。通过使用带负采样的SGD梯度下降来优化似然函数学习单词的特征表示。skip-gram公式化的表述 skip-gram通过最优化似然目标函数来学习预测给定单词后的上下文。假设现在我们有一个句子I am writing a summary for NLP.这个模型目的是根据给定目标word ‘summary’来预测window_size2窗口中的上下文单词I am [] [] summary [] [].接着模型试着去最优化似然函数事实上给出一个句子skip-gram可以做到。相反的把每个单词都当作一个目标word并且预测上下文word。所以这个目标函数可以表示为给它一个更正式的表述给出一组单词w和它们的上下文c. 我们考虑条件概率是P(c|w), 并且给出预料目标是找出条件概率的参数以至于最大化语料出现的概率或者我们也可以将其写为其中D是我们提取的所有单词和上下文的集合接下来通过log函数来进行简化那么接下来的问题就是如何来定义其必须满足如下两个条件一是 二是一个自然的方法是使用softmax函数所以可以这样来定义是word w和w的上下文单词c的向量化表示U表示所有可用上下文的集合。在这篇文章中我们假设目标单词w和上下文c来自不同的词汇表矩阵V和U因此来自单词word的lunch和来自单词上下文的lunch是不同的。其中一个动机是每个单词在模型中充当了两种角色其中一个作为目标单词而另一个作为上下文单词。这就是为什么我们需要两个单独矩阵的原因注意到它们必须是相同的维度V * k其中k是一个超参数表示的是每一个词向量的维数。我们想要设置参数从而使得函数最大化。这里我们用内积(inner product)来衡量和两向量间的相似性如果它们有近似的含义那么就代表这它们有着近似的向量化表示那么它们的共现概率也会比较高。(note:将余弦相似度和内积来作为距离度量的对比cos距离只关心角度的区别而内积关心的是角度和大小。如果你归一化了你的数据使得它们有相同的大小那么这两种方法就没有区别了)代入我们的定义可以把目标函数表示为然而这个目标函数计算起来太过于复杂因为其表示为log(sum)故计算目标函数的代价会比较大。在考虑所有word的上下文的情况下其时间复杂度为O(|Vocab|)为什么更prefer选择在求和里面取log而不是在求和外面取log 经常我们选择在求和里面取log而不在外面。当你想做优化时log和sum函数是一部分功能。这就表示在某个点处你需要把函数的梯度设为0导数是线性的计算所以当你需要求log(sum)时和的导数就是导数的和。对比之下根据链式法则和的log的导数求得为如下形式1/(your sum)⋅(derivative of the sum)特别是当分析的时候, 找到该函数的0可能是一个具有挑战性的任务。另一方面因为这个过程的计算代价很大在求和外的log常常需要近似的来进行计算例如使用Jensen不等式来进行近似。现在开始重新构造目标函数并且对其近似负采样--skipgram model 在进行skip-gram模型的推导之前我们假定(w,c)在训练数据集中是一个词与其上下文词的对那么的共现概率应该很大。现在可以思考一个问题当共现概率比较大时在训练数据中它们是不是一个单词及单词的上下文对按照这种方式进行思考我们提出了二元分类问题表示来自上下文语料库的单词对(w,c)的共现概率表示来自不同语料库的单词对(w,c)共现概率。和以前一样假设有参数控制分布因为它是一个二分类的问题故我们可以使用sigmoid函数来定义它现在的目标变成了寻找参数来最大化如下目标函数其中是由不在语料库中的词对(w, c)随机组成我们将(w, c)这个不在语料库中的词对称为负采样(源于的采样过程是对负样本进行随机采样)。下面有几个点需要注意1-该目标函数看起来和逻辑回归的目标函数非常相似避免了log(sum)的计算通常情况下所以我们为每个数据样本取k个负样本。由原始论文中对于小型训练数据集作者建议k值取在5--20之间对于大型训练数据集作者建议k值取在2--5之间。因此如果我们对每个数据样本取k个负样本并且通过N(w)来表示这些负样本。那么目标函数可以表示为SGD for skip-gram objective function 代码实现细节 动态窗口大小使用的窗口大小是动态的参数k表示最大窗口大小。对于语料库中的单词窗口大小从[1,k]均匀采样二次采样和稀有词修剪关于二次采样和下采样Referenceshttps://blog.csdn.net/Jay_Tang/article/details/105577295 唐兄的bloghttp://www.davidsbatista.net/blog/2018/12/06/Word_Embeddings/https://www.quora.com/Why-is-it-preferential-to-have-the-log-inside-the-sum-rather-than-outside- END -
http://www.pierceye.com/news/921126/

相关文章:

  • 传媒公司注册经营范围有哪些北京百度seo排名点击器
  • 什么是cms网站系统做响应式网站怎么设计
  • wordpress多城市子站在线培训网站
  • 企业网站服务门户网站搬家怎么做
  • 免费浏览外国网站的软件防止访问网站文件夹
  • 长沙县政务网站公司介绍怎么写范本
  • 免费网站建设方案优化seo整体优化
  • 境外公司在国内建网站微信小程序登录平台
  • 手机网站页面模板企业网站建设相关书籍在线阅读
  • 服装网站建设内容asp网站服务建设论文
  • 开封 网站建设 网络推广如何用xshell安装wordpress
  • 河北建设工程信息网站银行外包不是人干的
  • 郑州免费做网站的襄阳品牌网站建设
  • 爱网站站长工具android软件开发下载
  • 网站被入侵宁波妇科医生推荐
  • 移动网站建设学习新能源汽车价格表2021
  • 如何做视频会员网站工商注册公司需要提供的资料
  • 网站做多久能盈利网站设计定做
  • 微信网站后台功能哪里买域名便宜
  • 合肥重点工程建设局密云seo排名优化培训
  • 二学一做网站福建建设资格执业注册管理中心网站
  • vps 网站上传做网站费用需要分摊吗
  • 建网站 考虑oou淘宝客图片wordpress模板
  • 玩具网站开发背景小说网站开发文档
  • 遵义网站设计公司制作网站需要
  • 做广告公司网站建设价格成都seo招聘
  • 网站建设与规划试卷友联互换
  • 宠物网站建设费用天元建设集团有限公司是国企吗
  • 南宁在百度上建网站网站设计怎么做链接
  • 多多进宝怎么做自己网站沈阳正规的男科医院