推广做网站南充,公司网站的个人主页怎么做,如何使用wordpress搭建网站,湛江做网站的公司PRML绪论1.3 模型选择1.4 纬度灾难1.5 决策论1.5.1最小错误分率1.5.2最小化期望损失1.5.3拒绝选项1.5.4推断和决策1.5.5 回归问题的损失函数1.6 信息论1.3 模型选择
模型过复杂会造成过拟合问题#xff0c;需要通过一些技术来降低模型的复杂度。 就最大似然而言#xff0c;可…
PRML绪论1.3 模型选择1.4 纬度灾难1.5 决策论1.5.1最小错误分率1.5.2最小化期望损失1.5.3拒绝选项1.5.4推断和决策1.5.5 回归问题的损失函数1.6 信息论1.3 模型选择
模型过复杂会造成过拟合问题需要通过一些技术来降低模型的复杂度。 就最大似然而言可以增加一个惩罚项来补偿过于复杂的模型造成的过拟合问题。
赤池信息准则使式1.73最大,M是模型中可调节参数的数量 lnp(D∣wML)−Mlnp(\mathcal{D}|\bm{w}_ML)-Mlnp(D∣wML)−M
1.73式是一个变体被称作贝叶斯信息准则但是没有考虑模型参数的不确定性。
1.4 纬度灾难
一个三分类问题画格子分类。随着输入维度的增加会造成的问题
单元格的数量会随输入空间维度的增加而增加为了保证单元格不空训练数据的量需要增加
高维空间中的直觉错误 3. 高维空间中一个球的体积大部分会聚集在表面附近薄球上 4. 在高纬空间中高斯分布的概率质量会集中在某一半径的薄球上 1.5 决策论
决策论和概率论结合能够在涉及不确定性的条件下作出最优决策。
例如依据病人X光片判断病人是否得了癌症并依据判断给出是否需要治疗的决定。
概率论如何在决策时起作用
1.5.1最小错误分率
需要一个规则将不同的x分到合适的类别中按照规则会把输入空间分成不同的决策区域Rk\mathcal{R}_kRk。在Rk\mathcal{R}_kRk中的点将被分为Ck\mathcal{C}_kCk类。
考虑一维数轴上的两分类问题错分概率为 p(mistake)p(x∈R1,C2)p(x∈R2,C1)∫R1p(x,C2)dx∫R2p(x,C1)dx(1.78)p(mistake)p(x\in\mathcal{R}_1,\mathcal{C}_2)p(x\in\mathcal{R}_2,\mathcal{C}_1)\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78} p(mistake)p(x∈R1,C2)p(x∈R2,C1)∫R1p(x,C2)dx∫R2p(x,C1)dx(1.78)
为了使(1.78)式最小那么可以得到一个决策规则如果p(x,C1)p(x,C2)p(x,\mathcal{C}_1)p(x, \mathcal{C}_2)p(x,C1)p(x,C2)就将x划分为类别1。也等价于将x 分入到具有最大后验概率的类别中。
1.5.2最小化期望损失
实际引用中目标远比最小化错误分类率更加复杂。
就癌症判断例子中每种错误分类所带来的决策损失是不同的健康误判为有病–多了复查有病误判为健康–错过最佳治疗时间。
损失函数(loss function) 也被称为代价函数(cost function):对所有可能的决策或者动作 可能产生的损失的一种整体度量。目标是最小化期望损失。
期望损失的计算x属于Ck\mathcal{C}_kCk类我们将其划分为Cj\mathcal{C}_jCj类造成的损失为Lkj\mathcal{L}_{kj}Lkj E[L]∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dxE[L]k∑j∑∫RjLkjp(x,Ck)dx
得出的结论还是需要后验概率
1.5.3拒绝选项
在类别归属相对不确定的时候避免作出决策是更合适的选择。这样会使模型的分类错误率降低这被称为拒绝选项reject option。
癌症的例子使用自动化系统来对几乎没有怀疑的X光片进行分类把不易分类的留给人类专家。
一种简单的拒绝实现方式引入一个阈值θ\thetaθ拒绝后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck∣x)的最大值小于等θ\thetaθ的那些输入x。 1.5.4推断和决策
解决决策问题的三种方法
推断类条件密度p(x∣Ck)p(x|\mathcal{C}_k)p(x∣Ck),推断类先验概率密度p(Ck)p(\mathcal{C}_k)p(Ck),计算后验概率-决策生成式模型。直接推断后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck∣x)-决策(判别式模型)。找到一个判别函数f(x)f(x)f(x)直接把输入x映射到类别标签中。
三种方法各有优缺点。
1.5.5 回归问题的损失函数
回到曲线拟合问题对于每一个输入x对应目标值t的估计值为y(x), 造成的损失是L(t,y(x))那么期望损失为 E[L]∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]\int\int L(t,y(x))p(x,t)dxdtE[L]∫∫L(t,y(x))p(x,t)dxdt
L(t,y(x))常用平方损失函数–L(t,y(x))[y(x)−t]2L(t,y(x))[y(x)-t]^2L(t,y(x))[y(x)−t]2。我们的目标是选择合适的y(x)来使E[L]\mathbb{E}[L]E[L]最小化。形式变分法求解y(x)不会求 δE[L]δy(x)2∫{y(x)−t}p(x,t)dt0\frac{\delta\mathbb{E}[L]}{\delta y(x)}2\int\{y(x)-t\}p(x,t)dt 0δy(x)δE[L]2∫{y(x)−t}p(x,t)dt0
使用概率的加和规则和乘积规则有(对上式子进行移项和相除操作得到) y(x)∫tp(x,t)dtp(x)∫tp(t∣x)dtEt[t∣x](1.89)y(x)\frac{\int tp(x,t)dt}{p(x)}\int tp(t|x)dt\mathbb{E}_t[t|x]\tag{1.89}y(x)p(x)∫tp(x,t)dt∫tp(t∣x)dtEt[t∣x](1.89)
Et[t∣x]\mathbb{E}_t[t|x]Et[t∣x]符号迷惑理解成 t 在给定x条件下的期望会更容易理解。Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]Ep(t∣x)[t]
所以y(x)最优解就是t的条件期望。
同样有三种方法来解决回归问题
确定p(x,t),计算p(t|x)依据1.89式进行积分推断p(t|x),依据1.89式进行积分直接通过数据找到回归函数模型y(x)
闵可夫斯基损失函数–平方损失函数的推广 E[L]q∫∫∣y(x)−t∣qp(x,t)dxdt\mathbb{E}[L]_q\int\int|y(x)-t|^qp(x,t)dxdtE[L]q∫∫∣y(x)−t∣qp(x,t)dxdt 1.6 信息论
信息量的概念观察到一个离散型随机变量时我们能获得多少信息直觉上低概率事件具有高信息量。寻找一个表达信息量的函数h(⋅)h(\cdot)h(⋅)是p(x)的递减函数。且如果有两个不相关的事件x,y观察到两个事件同时发生的信息量应该等于两件事各自发生时的概率即h(x,y)h(x)h(y)h(x,y)h(x)h(y)h(x,y)h(x)h(y),两件不相关的事是统计独立的因此有p(x,y)p(x)p(y)p(x,y)p(x)p(y)p(x,y)p(x)p(y)。容易得出h(x)与p(x)是对数关系。因此有单个随机变量的信息量 h(x)−log2p(x)h(x)-\log_2p(x)h(x)−log2p(x)
熵传输随机变量x的平均信息量为 H[x]−∑xp(x)log2p(x)H[x]-\sum_xp(x)log_2p(x)H[x]−x∑p(x)log2p(x)
非均匀分布的熵比均匀分布的熵要小。
无噪声编码定理熵是传输一个随机变量状态值所需比特位的下界。
熵起源于物理学N个物体放到若干个箱子中所有的方案数构成乘数。乘数通过合适参数缩放对数乘数且当N−∞N-\inftyN−∞时就可以得到自然对数熵的定义。
离散型随机变量的熵特性 熵是非负数熵的最小值为0利用概率归一化约束使用拉格朗日乘子法找到熵的最大值为所有的值都相等且等于1M\frac{1}{M}M1时熵值最大。M为xix_ixi的状态总数。
熵的概念从离散型随机变量扩展到连续型随机变量将连续型随机变量离散化然后让Δ−0\Delta-0Δ−0得到微分熵的概念 −∫p(x)lnp(x)dx-\int p(x)\ln p(x) dx−∫p(x)lnp(x)dx 熵的离散形式和连续形式相差一个lnΔ\ln \DeltalnΔ在Δ−0\Delta-0Δ−0的情况下是发散的。反映一个重要的事实具体化一个连续型随机变量需要大量的比特位。
连续型随机变量的熵特性 最大化微分熵的分布是高斯分布最大的熵值还由分布的方差决定。随着方差的增大而增大越平越大的趋势还是在的 H[x]12{1ln(2πσ2)}H[x]\frac{1}{2}\{1\ln(2\pi\sigma ^2)\}H[x]21{1ln(2πσ2)} 微分熵可以为负数。 条件熵
**KL散度**目标分布p(x)p(x)p(x)近似分布q(x∣θ)q(x|\theta)q(x∣θ)–平均附加信息量,比原来的信息量多出来的信息量。KL散度不是一个对称量。 KL(p∣∣q)−∫p(x)ln{q(x)p(x)}dxKL(p||q)-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dxKL(p∣∣q)−∫p(x)ln{p(x)q(x)}dx
**凸函数**弦在函数图像上,对应的函数的二阶导数为正。 f(λa(1−λ)b)λf(a)(1−λ)f(b)f(\lambda a (1-\lambda)b) \lambda f(a) (1-\lambda)f(b)f(λa(1−λ)b)λf(a)(1−λ)f(b)
**凹函数**弦在函数图像的下方对应的二阶导数为负数 f(x)−f(x)f(x)-f(x)f(x)−f(x)
利用Jensen 不等式−lnx-\ln x−lnx函数是凸函数 证明了KL散度非负数。因此可以将KL散度看作两分布之间不相似程度的度量。解释性说明
最大似然等价与最小化**目标分布p(x)p(x)p(x)近似分布q(x∣θ)q(x|\theta)q(x∣θ)之间的KL散度。
**互信息**获知一个随机变量的值后另一个随机变量不确定度减少的量。 I(x,y)H(x)−H(x∣y)H(y)−H(y∣x)I(x,y) H(x)-H(x|y)H(y)-H(y|x)I(x,y)H(x)−H(x∣y)H(y)−H(y∣x) 关键概念 误差函数(error function) 泛化能力(generalization) 特征抽取(feature extract) 预处理(pre-processed) 模型选择(model selection) 模型对比(model comparison) 正则化(regularization) 权值衰减(weight decay) 收缩(shrinkage) 加和规则(sum rule) 乘积规则(product relu)