青岛网站制作机构,WordPress视频地址加密,摄影公司,织梦如何做网站留言功能一、说明 欢迎来到令人兴奋的概率编程世界#xff01;本文是对这个领域的温和介绍#xff0c;你只需要对深度学习和贝叶斯统计有一个基本的了解。如果像我一样#xff0c;你听说过贝叶斯深度学习#xff0c;并且你猜它涉及贝叶斯统计#xff0c;但你不知道它是如何使用的本文是对这个领域的温和介绍你只需要对深度学习和贝叶斯统计有一个基本的了解。如果像我一样你听说过贝叶斯深度学习并且你猜它涉及贝叶斯统计但你不知道它是如何使用的那么你来对地方了。 在本文结束时您应该对该领域、其应用以及它与更传统的深度学习方法有何不同有了基本的了解。 二、传统深度学习的局限性 传统深度学习的主要局限性之一是尽管它们是非常强大的工具但它们并不能衡量其不确定性。 聊天 GPT 可以公然自信地说出虚假信息。分类器输出的概率通常未经校准。 不确定性估计是决策过程的一个重要方面特别是在医疗保健、自动驾驶汽车等领域。我们希望一个模型能够估计何时非常不确定将受试者归类为脑癌在这种情况下我们需要医学专家的进一步诊断。同样我们希望自动驾驶汽车在识别新环境时能够减速。 为了说明神经网络估计风险有多糟糕让我们看一个非常简单的分类器神经网络最后有一个softmax层。 softmax有一个非常容易理解的名字它是一个Soft Max函数这意味着它是max函数的“更平滑”版本。这样做的原因是如果我们选择一个“硬”max函数只是以最高概率取类那么所有其他类的梯度将为零。 使用 softmax类的概率可以接近 1但永远不会完全为 1。由于所有类的概率总和为 1因此仍有一些梯度流向其他类。 硬最大与软最大图片由作者提供
但是softmax函数也存在一个问题。它输出校准不佳的概率。应用 softmax 函数之前值的微小变化会被指数压缩从而导致输出概率的最小变化。
这通常会导致过度自信即使面对不确定性模型也会为某些类提供高概率这是softmax函数的“max”性质所固有的特征。
将传统神经网络NN与贝叶斯神经网络BNN进行比较可以突出不确定性估计的重要性。当 BNN 遇到来自训练数据的熟悉分布时它的确定性很高但随着我们远离已知分布不确定性会增加从而提供更真实的估计。
以下是对不确定性的估计 传统 NN 与贝叶斯 NN图片由作者提供
您可以看到当我们接近在训练期间观察到的分布时模型是非常确定的但是随着我们远离已知分布不确定性会增加。
三、贝叶斯统计简要回顾
贝叶斯统计中有一个中心定理需要知道贝叶斯定理。 贝叶斯定理图片来源作者
先验是我们认为在任何观察之前最有可能的θ分布。例如对于抛硬币我们可以假设正面朝上的概率是高斯的概率大约p 0.5如果我们想尽可能少地放置感应偏置我们也可以说 p 在 [01] 之间是均匀的。给出参数θ的可能性我们得到观测值XY的可能性有多大边际可能性是在所有可能的θ上积分的可能性。它之所以被称为“边际”是因为我们通过对所有概率进行平均来边缘化θ。
贝叶斯统计中要理解的关键思想是您从先验开始这是您对参数可能是什么它是一个分布的最佳猜测。通过你所做的观察你调整你的猜测你得到一个后验分布。
请注意先验和后验不是对θ的准时估计而是概率分布。
为了说明这一点 图片来源作者
在这张图片上你可以看到先验向右移动但可能性重新平衡了我们的先验向左后验介于两者之间。
四、贝叶斯深度学习简介
贝叶斯深度学习是一种结合了两种强大数学理论的方法贝叶斯统计和深度学习。
与传统深度学习的本质区别在于对模型权重的处理
在传统的深度学习中我们从头开始训练一个模型我们随机初始化一组权重并训练模型直到它收敛到一组新的参数。我们学习一组权重。
相反贝叶斯深度学习采用更动态的方法。我们从对权重的先验信念开始通常假设它们服从正态分布。当我们向数据公开我们的模型时我们调整了这个信念从而更新了权重的后验分布。从本质上讲我们学习权重的概率分布而不是单个集合。
在推理过程中我们平均所有模型的预测并根据后验加权它们的贡献。这意味着如果一组权重极有可能则其相应的预测被赋予更多的权重。
让我们将所有这些形式化 推理图片来自作者
贝叶斯深度学习中的推理使用后验分布对θ权重的所有潜在值进行积分。
我们还可以看到在贝叶斯统计中积分无处不在。这实际上是贝叶斯框架的主要限制。这些积分通常是难以处理的我们并不总是知道后验的基元。因此我们必须进行计算成本非常高的近似。
五、贝叶斯深度学习的优势
优势1不确定性估计
可以说贝叶斯深度学习最突出的好处是它的不确定性估计能力。在医疗保健、自动驾驶、语言模型、计算机视觉和定量金融等许多领域量化不确定性的能力对于做出明智的决策和管理风险至关重要。
优势2提高培训效率
与不确定性估计概念密切相关的是提高训练效率。由于贝叶斯模型意识到自己的不确定性因此它们可以优先从不确定性因此学习潜力最高的数据点学习。这种方法被称为主动学习可以带来令人印象深刻的有效和高效的培训。 主动学习有效性的演示图片来自作者
如下图所示使用主动学习的贝叶斯神经网络只需 981 张训练图像即可达到 000% 的准确率。相比之下不利用不确定性估计的模型往往以较慢的速度学习。
优势3电感偏置
贝叶斯深度学习的另一个优点是通过先验有效地使用归纳偏置。先验允许我们对模型参数的初始信念或假设进行编码这在存在领域知识的情况下特别有用。
考虑生成AI其想法是创建类似于训练数据的新数据如医学图像。例如如果你正在生成大脑图像并且你已经知道大脑的总体布局——里面的白质外面的灰质——这些知识可以包含在你的先验中。这意味着您可以为图像中心白质的存在以及两侧的灰质的存在分配更高的概率。
从本质上讲贝叶斯深度学习不仅使模型能够从数据中学习而且还使它们能够从知识点开始学习而不是从头开始。这使其成为适用于各种应用的有力工具。 白质和灰质图片由作者提供
六、贝叶斯深度学习的局限性
看来贝叶斯深度学习太不可思议了那么为什么这个领域被如此低估呢事实上我们经常谈论生成AI聊天GPTSAM或更传统的神经网络但我们几乎从未听说过贝叶斯深度学习为什么会这样
限制1贝叶斯深度学习很糟糕
理解贝叶斯深度学习的关键是我们“平均”模型的预测只要有平均值就会在参数集上有一个积分。
但是计算积分通常是棘手的这意味着没有封闭或显式的形式可以使该积分的计算变得快速。所以我们不能直接计算它我们必须通过采样一些点来近似积分这使得推理非常慢。
想象一下对于每个数据点x我们必须平均出10000个模型的预测并且每个预测可能需要1秒才能运行我们最终得到一个无法扩展大量数据的模型。
在大多数商业案例中我们需要快速且可扩展的推理这就是为什么贝叶斯深度学习不那么受欢迎的原因。
限制2近似误差
在贝叶斯深度学习中通常需要使用近似方法如变分推理来计算权重的后验分布。这些近似值可能会导致最终模型中的错误。近似的质量取决于变分族和散度的选择正确选择和调整可能具有挑战性。
限制 3模型复杂性和可解释性增加
虽然贝叶斯方法提供了改进的不确定性度量但这是以增加模型复杂性为代价的。BNN 可能很难解释因为我们现在对可能的权重进行了分布而不是一组权重。这种复杂性可能会导致解释模型决策的挑战尤其是在可解释性是关键的领域。
人们对XAI可解释AI的兴趣越来越大传统的深度神经网络已经很难解释因为很难理解权重贝叶斯深度学习更具挑战性。
无论您是有反馈想法要分享想与我合作还是只是想打个招呼请填写下面的表格让我们开始对话。 打招呼 七、引用
加拉马尼Z.2015。概率机器学习和人工智能。自然5217553452-459。链接BlundellC.CornebiseJ.KavukcuogluK.和WierstraD.2015。神经网络中的权重不确定性。arXiv预印本arXiv1505.05424。链接Gal Y. Ghahramani Z. 2016.作为贝叶斯近似的 Dropout表示深度学习中的模型不确定性。在机器学习国际会议上第1050-1059页。链接LouizosC.WellingM.和KingmaD.P.2017。通过 L0 正则化学习稀疏神经网络。arXiv预印本arXiv1712.01312。链接尼尔R.M.2012。神经网络的贝叶斯学习第118卷。施普林格科学与商业媒体。链接