网站开发投标书范本目录,百度收录技巧,关于网站的设计和制作,简述网站开发设计流程先验、后验、似然 
先验分布、后验分布和似然函数 本节转自#xff1a;先验分布、后验分布、似然估计这几个概念是什么意思#xff0c;它们之间的关系是什么#xff1f; 通俗解释 先验分布#xff1a;根据一般的经验认为随机变量应该满足的分布。先验分布是你瞎猜参数服从啥…先验、后验、似然 
先验分布、后验分布和似然函数 本节转自先验分布、后验分布、似然估计这几个概念是什么意思它们之间的关系是什么 通俗解释 先验分布根据一般的经验认为随机变量应该满足的分布。先验分布是你瞎猜参数服从啥分布。  后验分布通过当前训练数据修正的随机变量的分布比先验分布更符合当前数据。后验分布是你学习经验后有根据地瞎猜参数服从啥分布。  似然估计已知训练数据给定了模型通过让似然性极大化估计模型参数的一种方法。似然估计是你猜参数是多少才最能解释某些实验结果。  
举例 
这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系”来理解。 
下面举例隔壁老王要去10公里外的一个地方办事他可以选择走路骑自行车或者开车并花费了一定时间到达目的地。在这个事件中可以把交通方式走路、骑车或开车认为是原因花费的时间认为是结果。 
后验概率 
若老王花了一个小时的时间完成了10公里的距离那么很大可能是骑车过去的当然也有较小可能老王是个健身达人跑步过去的或者开车过去但是堵车很严重。若老王一共用了两个小时的时间完成了10公里的距离那么很有可能他是走路过去的。若老王只用了二十分钟那么很有可能是开车。这种先知道结果然后由结果估计原因的概率分布p(交通方式|时间)就是后验概率。 
先验概率 
老王早上起床的时候觉得精神不错想锻炼下身体决定跑步过去也可能老王想做个文艺青年试试最近流行的共享单车决定骑车过去也可能老王想炫个富决定开车过去。老王的选择与到达目的地的时间无关。先于结果确定原因的概率分布p(交通方式)就是先验概率。 
似然函数 
老王决定步行过去那么很大可能10公里的距离大约需要两个小时较小可能是老王平时坚持锻炼跑步过去用了一个小时更小可能是老王是个猛人40分钟就到了。老王决定骑车过去很可能一个小时就能到较小可能是老王那天精神不错加上单双号限行交通很通畅40分钟就到了还有一种较小可能是老王运气很差连着坏了好几辆共享单车花了一个半小时才到。老王决定开车过去很大可能是20分钟就到了较小可能是那天堵车很严重磨磨唧唧花了一个小时才到。这种先确定原因根据原因来估计结果的概率分布p(时间|交通方式)就是似然估计。 
evidence 
老王去那个地方好几趟不管是什么交通方式得到了一组关于时间的概率分布。这种不考虑原因只看结果的概率分布p(时间)也有一个名词evidence不清楚合适的中文名是什么。 
最后甩出著名的贝叶斯公式 p(θ∣x)p(x∣θ)p(θ)p(x)p(\theta|x)\frac{p(x|\theta)p(\theta)}{p(x)} p(θ∣x)p(x)p(x∣θ)p(θ) xxx观察得到的数据结果 
θ\thetaθ决定数据分布的参数原因 
p(θ∣x)p(\theta|x)p(θ∣x)posterior 
p(θ)p(\theta)p(θ)prior 
p(x∣θ)p(x|\theta)p(x∣θ)likelihood 
p(x)p(x)p(x)evidence 
最大似然估计MLE和最大后验估计MAP 本节转自https://zhuanlan.zhihu.com/p/32480810 频率学派 - Frequentist - Maximum Likelihood Estimation (MLE最大似然估计)贝叶斯学派 - Bayesian - Maximum A Posteriori (MAP最大后验估计) 
概述 
有时候和别人聊天对方会说自己有很多机器学习经验深入一聊发现对方竟然对MLE和MAP一知半解至少在我看来这位同学的机器学习基础并不扎实。难道在这个深度学习盛行的年代不少同学都只注重调参数 
现代机器学习的终极问题都会转化为解目标函数的优化问题MLE和MAP是生成这个函数的很基本的思想因此我们对二者的认知是非常重要的。这次就和大家认真聊一聊MLE和MAP这两种estimator。 
两大学派的争论 
抽象一点来讲频率学派和贝叶斯学派对世界的认知有本质不同频率学派认为世界是确定的有一个本体这个本体的真值是不变的我们的目标就是要找到这个真值或真值所在的范围而贝叶斯学派认为世界是不确定的人们对世界先有一个预判而后通过观测数据对这个预判做调整我们的目标是要找到最优的描述这个世界的概率分布。 
在对事物建模时用 θ 表示模型的参数**请注意解决问题的本质就是求 θ\thetaθ **。那么 
(1) 频率学派存在唯一真值 θ\thetaθ。举一个简单直观的例子–抛硬币我们用 P(head)P(head)P(head) 来表示硬币的bias。抛一枚硬币100次有20次正面朝上要估计抛硬币正面朝上的 bias P(head)θP(head)\thetaP(head)θ 。在频率学派来看θ20/1000.2\theta  20 / 100  0.2θ20/1000.2很直观。当数据量趋于无穷时这种方法能给出精准的估计然而缺乏数据时则可能产生严重的偏差。例如对于一枚均匀硬币即 θ0.5\theta  0.5θ0.5抛掷5次出现5次正面 (这种情况出现的概率是1/2^53.125%)频率学派会直接估计这枚硬币 θ1\theta  1θ1出现严重错误。 
(2) 贝叶斯学派 θ\thetaθ 是一个随机变量符合一定的概率分布。在贝叶斯学派里有两大输入和一大输出输入是先验 (prior)和似然 (likelihood)输出是后验 (posterior)。先验即 P(θ)P(\theta)P(θ) 指的是在没有观测到任何数据时对 θ\thetaθ 的预先判断例如给我一个硬币一种可行的先验是认为这个硬币有很大的概率是均匀的有较小的概率是是不均匀的似然即 P(X∣θ)P(X|\theta)P(X∣θ) 是假设 θ\thetaθ 已知后我们观察到的数据应该是什么样子的后验即 P(θ∣X)P(\theta|X)P(θ∣X) 是最终的参数分布。贝叶斯估计的基础是贝叶斯公式如下 P(θ∣X)P(X∣θ)P(θ)P(X)P(\theta|X)\frac{P(X|\theta)P(\theta)}{P(X)} P(θ∣X)P(X)P(X∣θ)P(θ) 同样是抛硬币的例子对一枚均匀硬币抛5次得到5次正面如果先验认为大概率下这个硬币是均匀的 (例如最大值取在0.5处的Beta分布)那么 P(head)P(head)P(head) 即 P(θ∣X)P(\theta|X)P(θ∣X) 是一个distribution最大值会介于0.5~1之间而不是武断的 θ1\theta  1θ1。 
这里有两点值得注意的地方 
随着数据量的增加参数分布会越来越向数据靠拢先验的影响力会越来越小如果先验是uniform distribution则贝叶斯方法等价于频率方法。因为直观上来讲先验是uniform distribution本质上表示对事物没有任何预判 
MLE - 最大似然估计 
Maximum Likelihood Estimation, MLE是频率学派常用的估计方法 
假设数据 x1,x2,...,xnx_1,x_2,...,x_nx1,x2,...,xn 是 i.i.d.的一组抽样X(x1,x2,...,xn)X(x_1,x_2,...,x_n)X(x1,x2,...,xn) 。其中i.i.d.表示Independent and identical distribution独立同分布。那么MLE对 θ\thetaθ 的估计方法可以如下推导 θ^MLEargmaxP(X;θ)argmaxP(x1;θ)P(x2;θ)…P(xn;θ)argmaxlog∏i1nP(xi;θ)argmax∑i1nlogP(xi;θ)argmin−∑i1nlogP(xi;θ)\begin{align} \hat{\theta}_{MLE}argmax\ P(X;\theta)\\ argmax\ P(x_1;\theta)P(x_2;\theta)\dots P(x_n;\theta)\\ argmax\ \log\prod_{i1}^nP(x_i;\theta)\\ argmax\ \sum_{i1}^n\log P(x_i;\theta)\\ argmin\ -\sum_{i1}^n\log P(x_i;\theta) \end{align} θ^MLEargmax P(X;θ)argmax P(x1;θ)P(x2;θ)…P(xn;θ)argmax logi1∏nP(xi;θ)argmax i1∑nlogP(xi;θ)argmin −i1∑nlogP(xi;θ) 最后这一行所优化的函数被称为 Negative Log Likelihood (NLL)这个概念和上面的推导是非常重要的 
我们经常在不经意间使用MLE例如 
上文中关于频率学派求硬币概率的例子其方法其实本质是由优化NLL得出。本文末尾附录中给出了具体的原因 给定一些数据求对应的高斯分布时我们经常会算这些数据点的均值和方差然后带入到高斯分布的公式其理论依据是优化NLL深度学习做分类任务时所用的cross entropy loss其本质也是MLE 
MAP - 最大后验估计 
Maximum A Posteriori, MAP是贝叶斯学派常用的估计方法 
同样的假设数据 x1,x2,…,xnx_1,x_2,\dots,x_nx1,x2,…,xn 是i.i.d.的一组抽样X(x1,x2,…,xn)X(x_1,x_2,\dots,x_n)X(x1,x2,…,xn) 。那么MAP对 θ\thetaθ 的估计方法可以如下推导 θ^MAPargmaxP(θ∣X)argmin−logP(θ∣X)argmin−logP(X∣θ)P(θ)P(X)argmin−logP(X∣θ)−logP(θ)logP(X)argmin−logP(X∣θ)−logP(θ)\begin{align} \hat{\theta}_{MAP}argmax\ P(\theta|X)\\ argmin\ -\log P(\theta|X)\\ argmin\ -\log\frac{P(X|\theta)P(\theta)}{P(X)}\\ argmin\ -\log P(X|\theta)-\log P(\theta)\log P(X)\\ argmin\ -\log P(X|\theta)-\log P(\theta) \end{align} θ^MAPargmax P(θ∣X)argmin −logP(θ∣X)argmin −logP(X)P(X∣θ)P(θ)argmin −logP(X∣θ)−logP(θ)logP(X)argmin −logP(X∣θ)−logP(θ) 其中第二行到第三行使用了贝叶斯定理第四行到第五行 P(X)P(X)P(X) 可以丢掉因为与 θ\thetaθ 无关。注意 −logP(X∣θ)−logP(X|\theta)−logP(X∣θ) 其实就是NLL所以MLE和MAP在优化时的不同就是在于先验项 −logP(θ)−logP(\theta)−logP(θ) 。好的那现在我们来研究一下这个先验项假定先验是一个高斯分布即 P(θ)constant×e−θ22σ2P(\theta)constant\times e^{-\frac{\theta^2}{2\sigma^2}} P(θ)constant×e−2σ2θ2 那么 −logP(θ)constantθ22σ2-\log P(\theta)constant\frac{\theta^2}{2\sigma^2}−logP(θ)constant2σ2θ2 。至此一件神奇的事情发生了 – 在MAP中使用一个高斯分布的先验等价于在MLE中采用L2的regularizaton 
再稍微补充几点 
我们不少同学大学里学习概率论时最主要的还是频率学派的思想其实贝叶斯学派思想也非常流行而且实战性很强CMU的很多老师都喜欢用贝叶斯思想解决问题THU朱军老师也在做贝叶斯深度学习的工作有兴趣可以关注一下。 
后记 
有的同学说“了解这些没用现在大家都不用了。”这种想法是不对的因为这是大家常年在用的知识是推导优化函数的核心而优化函数又是机器学习 (包含深度学习) 的核心之一。这位同学有这样的看法说明对机器学习的本质并没有足够的认识而让我吃惊的是竟然有不少其他同学为这种看法点赞。内心感到有点儿悲凉也引发了我写这篇文章的动力希望能帮到一些朋友  
Ref 
先验分布、后验分布、似然估计这几个概念是什么意思它们之间的关系是什么Agenter的回答机器学习的数学——雷明聊一聊机器学习的MLE和MAP最大似然估计和最大后验估计Bayesian Method Lecture, UT Dallas.MLE, MAP, Bayes classification Lecture, CMU.