当前位置: 首页 > news >正文

免费做网站建设有的网站无法打开

免费做网站建设,有的网站无法打开,生活创意产品设计,你接入的网站不属于同一个主体一、说明 1.1 介绍 贝叶斯推理是统计学中的一个主要问题#xff0c;在许多机器学习方法中也会遇到。例如#xff0c;用于分类的高斯混合模型或用于主题建模的潜在狄利克雷分配都是在拟合数据时需要解决此类问题的图形模型。 同时#xff0c;可以注意到#xff0c;贝叶斯推… 一、说明 1.1 介绍 贝叶斯推理是统计学中的一个主要问题在许多机器学习方法中也会遇到。例如用于分类的高斯混合模型或用于主题建模的潜在狄利克雷分配都是在拟合数据时需要解决此类问题的图形模型。         同时可以注意到贝叶斯推理问题有时很难解决具体取决于模型设置假设、维数等。在大型问题中精确的解决方案确实需要大量的计算而这些计算往往变得难以解决并且必须使用一些近似技术来克服这个问题并构建快速且可扩展的系统。         在这篇文章中我们将讨论可用于解决贝叶斯推理问题的两种主要方法马尔可夫链蒙特卡洛MCMC这是一种基于采样的方法以及变分推理VI这是一种基于近似的方法。 1.2 大纲         在第一部分中我们将讨论贝叶斯推理问题并看到一些经典机器学习应用程序的示例其中自然会出现此问题。然后在第二部分中我们将介绍全球MCMC技术来解决这个问题并提供有关两种MCMC算法的一些详细信息Metropolis-Hasting和Gibbs Sampling。最后在第三部分中我们将介绍变分推理并了解如何在参数化分布族上进行优化过程后获得近似解。 注意。用∞标记的小节非常数学可以跳过而不会损害对这篇文章的全球理解。另请注意在这篇文章中p. 用于表示概率、概率密度或概率分布具体取决于上下文。 二、贝叶斯推理问题         在本节中我们将介绍贝叶斯推理问题并讨论一些计算困难然后给出潜在狄利克雷分配的例子这是一种遇到此问题的主题建模的具体机器学习技术。 2.1 什么是推理         统计推断包括根据我们观察到的内容来了解我们没有观察到的东西。换句话说它是根据该总体或该总体样本中的一些观察到的变量通常是效应得出结论的过程例如关于总体中某些潜在变量通常是原因的准时估计、置信区间或分布估计。         特别是贝叶斯推理是采用贝叶斯观点产生统计推断的过程。简而言之贝叶斯范式是一种统计/概率范式其中每次记录新的观察时都会更新由概率分布建模的先验知识其不确定性由另一个概率分布建模。支配贝叶斯范式的整个思想嵌入在所谓的贝叶斯定理中该定理表达了更新的知识“后验”先验知识“先验”和来自观察的知识“可能性”之间的关系。         一个经典的例子是参数的贝叶斯推理。让我们假设一个模型其中数据 x 是根据未知参数 θ 从概率分布生成的。我们还假设我们对参数 θ 有先验知识可以表示为概率分布 pθ。然后当观察到数据 x 时我们可以使用贝叶斯定理更新有关此参数的先验知识如下所示 贝叶斯定理应用于给定观测数据的参数推断的图示。 2.2 计算困难         贝叶斯定理告诉我们后验的计算需要三个项先验、可能性和证据。前两个可以很容易地表达因为它们是假设模型的一部分在许多情况下先验和可能性是明确已知的。但是第三项即归一化因子需要计算如下         虽然在低维中可以毫不费力地计算这个积分但在高维中它可能变得棘手。在最后一种情况下后验分布的精确计算实际上是不可行的必须使用一些近似技术来获得需要知道该后验的问题的解决方案例如平均计算。         我们可以注意到贝叶斯推理问题可能会产生一些其他计算困难例如当某些变量是离散的时组合数学问题。在最常用于克服这些困难的方法中我们发现马尔可夫链蒙特卡罗和变分推理方法。在这篇文章的后面我们将描述这两种方法特别关注“归一化因子问题”但应该记住当面对与贝叶斯推理相关的其他计算困难时这些方法也很宝贵。         为了使接下来的章节更加通用我们可以观察到由于 x 应该被给出并且可以作为参数进行因此我们面临着这样一种情况我们在 θ 上定义了一个概率分布直到一个归一化因子。         在接下来的两节中描述MCMC和VI之前让我们举一个使用潜在狄利克雷分配的机器学习中的贝叶斯推理问题的具体示例。 2.3 例         贝叶斯推理问题自然会出现例如在假设概率图模型的机器学习方法中并且给定一些观察结果我们希望恢复模型的潜在变量。在主题建模中潜在狄利克雷分配LDA方法为语料库中的文本描述定义了这样的模型。因此给定大小为 V 的完整语料库词汇表和给定数量的主题 T该模型假设 对于每个主题词汇表上都存在“主题-词”概率分布假设先验狄利克雷对于每个文档存在主题上的“文档-主题”概率分布假设另一个狄利克雷先验文档中的每个单词都经过采样首先我们从文档的“文档-主题”分布中抽取了一个主题其次我们从附加到采样主题的“主题-单词”分布中抽取了一个单词         该方法的名称来自模型中假设的狄利克雷先验其目的是推断观察到的语料库中的潜在主题以及每个文档的主题分解。即使我们不深入研究LDA的细节我们也可以非常粗略地说表示语料库中单词的向量w和与这些单词相关的主题向量我们希望根据观察到的w以贝叶斯方式推断z         在这里除了归一化因子由于维度巨大而绝对难以处理这一事实之外我们还面临着一个组合挑战因为问题的某些变量是离散的需要使用MCMC或VI来获得近似解。对主题建模及其特定的潜在贝叶斯推理问题感兴趣的读者可以看看这篇关于LDA的参考论文。 潜在狄利克雷分配方法图示。 三、马尔可夫链蒙特卡洛 MCMC         MCMC的意义是Markov Chains Monte Carlo (MCMC)。         正如我们之前提到的处理贝叶斯推理问题时面临的主要困难之一来自归一化因子。在本节中我们描述了MCMC采样方法这些方法构成了克服此问题的可能解决方案以及与贝叶斯推理相关的其他一些计算困难。 3.1 抽样方法         抽样方法的思路如下。让我们首先假设我们有一种方法MCMC从定义为因子的概率分布中提取样本。然后我们不必尝试处理涉及后验的棘手计算而是可以从该分布中获取样本仅使用未归一化的部分定义并使用这些样本来计算各种准时统计量例如均值和方差甚至通过核密度估计近似分布。         与下一节中描述的VI方法相反MCMC方法假设所研究的概率分布没有模型贝叶斯推理案例中的后验。因此这些方法具有低偏差但高方差这意味着大多数时候获得结果的成本更高但也比我们从VI中获得的结果更准确。         为了结束这一小节我们再次概述了这样一个事实即我们刚刚描述的这个抽样过程不限于后验分布的贝叶斯推断并且更一般地说还可以用于概率分布定义为其归一化因子的任何情况。 抽样方法MCMC的图示。 3.2 MCMC的理念         在统计学中马尔可夫链蒙特卡罗算法旨在从给定的概率分布中生成样本。该方法名称的“蒙特卡洛”部分是由于采样目的而“马尔可夫链”部分来自我们获取这些样本的方式我们请读者参考我们关于马尔可夫链的介绍性文章。         为了产生样本我们的想法是建立一个马尔可夫链其平稳分布是我们想要从中采样的分布。然后我们可以模拟来自马尔可夫链的随机状态序列该序列足够长几乎达到稳定状态然后保留一些生成的状态作为我们的样本。         在随机变量生成技术中MCMC是一种非常先进的方法我们已经在关于GAN的文章中讨论了另一种方法它可以从非常困难的概率分布中获取样本该概率分布可能仅定义到乘法常数。使用MCMC我们可以从未很好地归一化的分布中获得样本这是一个违反直觉的事实是我们定义马尔可夫链的特定方式对这些归一化因子不敏感。 马尔可夫链蒙特卡罗方法旨在从困难的概率分布中生成样本该概率分布可以定义为一个因子。 3.3 马尔可夫链的定义         整个MCMC方法基于构建马尔可夫链的能力其平稳分布是我们想要采样的分布。为了做到这一点Metropolis-Hasting和Gibbs采样算法都使用了马尔可夫链的一个特殊属性可逆性。         状态空间 E 上的马尔可夫链转移概率表示为         如果存在概率分布则称为可逆γ使得         对于这样的马尔可夫链我们可以很容易地验证我们有         然后γ是一个平稳分布如果马尔可夫链是不可约的则是唯一一个。         现在让我们假设我们想要从中采样的概率分布π仅定义为一个因子         其中 C 是未知乘法常数。我们可以注意到以下等价性成立         然后定义转移概率 k.. 以验证最后一个等式的马尔可夫链将如预期的那样π为平稳分布。因此我们可以定义一个马尔可夫链对于平稳分布有一个无法显式计算的概率分布π。 3.4 吉布斯采样过渡 ∞         假设我们要定义的马尔可夫链是 D 维的使得         吉布斯抽样方法基于以下假设即使联合概率难以处理也可以计算给定其他维度的单个维度的条件分布。基于这个想法定义了转换以便在迭代 n1 时要访问的下一个状态由以下过程给出。         首先我们在 X_n 的 D 维度中随机选择一个整数 d。然后我们根据相应的条件概率对该维度进行采样假设所有其他维度都保持固定 此处         是给定所有其他维度的第 d 维的条件分布。         正式地如果我们表示         然后可以写入转移概率 因此对于唯一非平凡的情况本地余额按预期进行验证 3.5 大都会-黑斯廷过渡∞ 英文The Metropolis-Hasting transitions 译成大都会-黑斯廷         有时甚至吉布斯方法中涉及的条件分布也太复杂而无法获得。在这种情况下可以使用大都会-黑斯廷。为此我们首先定义一个边转移概率 h.. 用于建议转换。然后在迭代 n1 时马尔可夫链要访问的下一个状态由以下过程定义。我们首先从 h 中绘制一个“建议转换”x并计算一个相关的概率 r 来接受它         然后选择有效转换以便 从形式上讲可以编写转移概率 因此本地余额按预期验证 3.6 取样过程         一旦定义了马尔可夫链我们就可以模拟随机状态序列随机初始化并保持其中一些状态的选择例如获得既遵循目标分布又独立的样本。         首先为了使样本几乎遵循目标分布我们只需要考虑距离生成序列的开头足够远的状态以几乎达到马尔可夫链的稳态稳态理论上只是渐近到达。因此第一个模拟状态不能用作样本我们将达到平稳性所需的阶段称为老化时间。请注意在实践中很难知道此老化时间必须持续多长时间。         其次为了拥有几乎独立的样本我们无法在老化时间之后保留序列的所有连续状态。事实上马尔可夫链定义意味着两个连续状态之间存在很强的相关性然后我们需要仅将彼此相距足够远的状态作为样本以被视为几乎独立。在实践中可以通过分析自相关函数仅适用于数值来估计两个状态之间几乎独立的滞后。         因此为了获得遵循目标分布的独立样本我们保留了生成序列中的状态这些状态由滞后 L 彼此隔开并且在老化时间 B 之后出现。因此如果表示马尔可夫链的连续状态         我们只保留状态作为我们的样本 MCMC采样需要考虑老化时间和滞后。 四、变分推理六         克服与推理问题相关的计算困难的另一种可能方法是使用变分推理方法该方法包括找到参数化族中分布的最佳近似值。为了找到这个最佳近似值我们遵循一个优化过程基于族参数只需要定义目标分布到一个因子。 4.1 近似方法         VI方法包括搜索给定族中某些复杂目标概率分布的最佳近似。更具体地说这个想法是定义一个参数化的分布族并对参数进行优化以获得相对于明确定义的误差度量最接近目标的元素。         我们仍然考虑将概率分布π定义为归一化因子 C         然后用更数学的术语来说如果我们表示分布的参数族         我们考虑两个分布 p 和 q 之间的误差度量 Epq我们搜索最佳参数使得         如果我们可以在不必显式归一化π的情况下解决这个最小化问题我们可以使用 f_ω* 作为近似值来估计各种量而不是处理棘手的计算。变分推理方法所隐含的优化问题实际上应该比直接计算归一化、组合数学等的问题更容易处理。         与抽样方法相反假设一个模型参数化族这意味着偏差但也意味着较低的方差。一般来说VI方法不如MCMC方法准确但产生结果的速度要快得多这些方法更适合大规模非常统计的问题。 近似方法变分推理的图解。 4.2 分布家族         我们需要设置的第一件事是参数化分布族它定义了我们搜索最佳近似的空间。         系列的选择定义了一个控制方法偏差和复杂性的模型。如果我们假设一个非常严格的模型简单家族那么我们就会有很高的偏差但优化过程很简单。相反如果我们假设一个相当自由的模型复杂家族偏差要低得多但优化会更难如果不是难以处理的话。因此我们必须在复杂到足以确保最终近似质量的族和足够简单的族之间找到适当的平衡以使优化过程易于处理。我们应该记住如果家族中没有分布接近目标分布那么即使是最好的近似也会给出糟糕的结果。         均场变分族是一系列概率分布其中所考虑的随机向量的所有分量都是独立的。该系列的分布具有产品密度因此每个独立组件都由产品的不同因子控制。因此属于均场变分族的分布具有可以写的密度         其中我们假设了一个 m 维随机变量 z。请注意即使在表示法中省略了它所有密度f_j都是参数化的。因此例如如果每个密度f_j都是具有均值和方差参数的高斯则全局密度 f 由来自所有独立因子的一组参数定义并且对整组参数进行优化。 变分推理中族的选择既决定了优化过程的难度也决定了最终近似的质量。 4.3 库尔巴克-莱布勒背离         一旦定义了族一个主要问题仍然存在如何在这个族中找到给定概率分布的最佳近似值明确定义为其归一化因子即使最佳近似显然取决于我们考虑的误差度量的性质假设最小化问题不应该对归一化因子敏感似乎是很自然的因为我们想比较质量分布而不是质量本身对于概率分布必须是单一的。         因此现在让我们定义Kullback-LeiblerKL背离并看到该度量使问题对归一化因子不敏感。如果 p 和 q 是两个分布则 KL 散度定义如下         从这个定义中我们可以很容易地看到我们有         这意味着我们的最小化问题的以下相等性         因此当选择KL散度作为我们的误差度量时优化过程对乘法系数不敏感我们可以在参数化分布族中搜索最佳近似值而不必像预期的那样计算目标分布的痛苦归一化因子。         最后作为一个附带事实我们可以通过向感兴趣的读者注意KL散度是交叉熵减去熵来结束这一小节并且在信息论中有一个很好的解释。 4.4 优化过程和直觉         一旦定义了参数化族和误差度量我们就可以初始化参数随机或根据明确定义的策略并继续进行优化。可以使用几种经典的优化技术例如梯度下降或坐标下降在实践中这将导致局部最优。         为了更好地理解这个优化过程让我们举一个例子回到贝叶斯推理问题的具体案例我们假设一个后验使得         在这种情况下如果我们想使用变分推理获得该后验的近似值我们必须求解以下优化过程假设参数化族定义并将KL散度作为误差度量         最后一个等式有助于我们更好地理解如何鼓励近似来分配其质量。第一项是预期对数似然它倾向于调整参数以便将近似的质量放在潜在变量 z 的值上这些值可以最好地解释观测数据。第二项是近似和先验之间的负KL散度它倾向于调整参数以使近似接近先验分布。因此这个目标函数很好地表达了通常的先验/似然平衡。 变分推理方法的优化过程。 五、总结 本文的主要内容是 贝叶斯推理是统计学和机器学习中一个非常经典的问题它依赖于众所周知的贝叶斯定理其主要缺点在于大多数时候在一些非常繁重的计算中。马尔可夫链蒙特卡罗MCMC方法旨在模拟密度的样品这些密度可能非常复杂和/或定义到一个因子MCMC可用于贝叶斯推理以便直接从后验的“未归一化部分”生成要使用的样本而不是处理棘手的计算变分推理 VI 是一种近似分布的方法它使用参数优化过程来找到给定族中的最佳近似VI优化过程对目标分布中的乘法常数不敏感因此该方法可用于近似定义到归一化因子的后验         如前所述MCMC和VI方法具有不同的属性这意味着不同的典型用例。一方面MCMC方法的采样过程非常繁重但没有偏差因此当预期获得准确的结果时这些方法是首选而不考虑所需的时间。另一方面尽管VI方法中系列的选择可能会明显引入偏差但它伴随着合理的优化过程使这些方法特别适用于需要快速计算的非常大规模的推理问题。         MCMC和VI之间的其他比较可以在优秀的变分推理统计学家评论中找到我们也强烈推荐给仅对VI感兴趣的读者。有关MCMC的进一步阅读我们建议使用此一般介绍以及此面向机器学习的介绍。有兴趣了解有关应用于LDA的吉布斯采样的更多信息的读者可以参考这个关于主题建模和吉布斯采样的教程结合这些关于LDA Gibbs采样器的讲义以便谨慎推导。约瑟夫·罗卡 ·
http://www.pierceye.com/news/720025/

相关文章:

  • 网站建设案例基本流程图咨询公司名字大全
  • 成功的电子商务网站设计律师推广网站排名
  • 东莞桥头网站建设合肥商城网站建设
  • 做网站的准备什么合肥制作网页设计
  • 医院门户网站建设规划柳州建设厅官方网站
  • 公司建网站怎么建做网站的公司都很小吗
  • 手机cms建站系统重庆怎么站seo
  • 益阳建设局网站网站 设计 趋势
  • 奉贤网站建设网站制作金融企业如何做好网络推广
  • 范湖网站建设团队建设银行激活网站
  • 旅游网站开发网站设计报告书邢台旅游景点大全排名 免费
  • 如何创建div做网站推荐佛山伦教网站设计
  • 建设电子商务网站前的市场分析网站后台ftp
  • 华丽的网站模板律所网站建设
  • 网站 管理系统搜索关键词的方法
  • 网站桥页也叫设计班级网站建设
  • 安庆网站建设工作室方维网络科技有限公司
  • 手机网站开发利用流程做网盟行业网站的图片广告的销售
  • 厦门建公司网站怎样自做网站
  • 兰州市网站建设公司无锡上海网站建设
  • 轻骑铃木摩托车官网资源专业网站优化排名
  • 做电影网站赚钱吗中企网站建设
  • 罗源网站建设免费建网站 步骤
  • 哪些网站做简历合适wordpress校园
  • 网站子目录怎么做国内做的比较好的二手网站
  • 短链生成网站html模板免费十个网页
  • 图跃企业网站建设seo提供服务
  • 厦门市建设管理协会网站发帖效果好的网站
  • 手机商城网站制作网页设计与制作的岗位职责
  • 教学网站系统流程图wordpress激活主题