当前位置: 首页 > news >正文

推广做网站南充公司网站的个人主页怎么做

推广做网站南充,公司网站的个人主页怎么做,如何使用wordpress搭建网站,湛江做网站的公司PRML绪论1.3 模型选择1.4 纬度灾难1.5 决策论1.5.1最小错误分率1.5.2最小化期望损失1.5.3拒绝选项1.5.4推断和决策1.5.5 回归问题的损失函数1.6 信息论1.3 模型选择 模型过复杂会造成过拟合问题#xff0c;需要通过一些技术来降低模型的复杂度。 就最大似然而言#xff0c;可… PRML绪论1.3 模型选择1.4 纬度灾难1.5 决策论1.5.1最小错误分率1.5.2最小化期望损失1.5.3拒绝选项1.5.4推断和决策1.5.5 回归问题的损失函数1.6 信息论1.3 模型选择 模型过复杂会造成过拟合问题需要通过一些技术来降低模型的复杂度。 就最大似然而言可以增加一个惩罚项来补偿过于复杂的模型造成的过拟合问题。 赤池信息准则使式1.73最大,M是模型中可调节参数的数量 lnp(D∣wML)−Mlnp(\mathcal{D}|\bm{w}_ML)-Mlnp(D∣wM​L)−M 1.73式是一个变体被称作贝叶斯信息准则但是没有考虑模型参数的不确定性。 1.4 纬度灾难 一个三分类问题画格子分类。随着输入维度的增加会造成的问题 单元格的数量会随输入空间维度的增加而增加为了保证单元格不空训练数据的量需要增加 高维空间中的直觉错误 3. 高维空间中一个球的体积大部分会聚集在表面附近薄球上 4. 在高纬空间中高斯分布的概率质量会集中在某一半径的薄球上 1.5 决策论 决策论和概率论结合能够在涉及不确定性的条件下作出最优决策。 例如依据病人X光片判断病人是否得了癌症并依据判断给出是否需要治疗的决定。 概率论如何在决策时起作用 1.5.1最小错误分率 需要一个规则将不同的x分到合适的类别中按照规则会把输入空间分成不同的决策区域Rk\mathcal{R}_kRk​。在Rk\mathcal{R}_kRk​中的点将被分为Ck\mathcal{C}_kCk​类。 考虑一维数轴上的两分类问题错分概率为 p(mistake)p(x∈R1,C2)p(x∈R2,C1)∫R1p(x,C2)dx∫R2p(x,C1)dx(1.78)p(mistake)p(x\in\mathcal{R}_1,\mathcal{C}_2)p(x\in\mathcal{R}_2,\mathcal{C}_1)\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78} p(mistake)p(x∈R1​,C2​)p(x∈R2​,C1​)∫R1​​p(x,C2​)dx∫R2​​p(x,C1​)dx(1.78) 为了使(1.78)式最小那么可以得到一个决策规则如果p(x,C1)p(x,C2)p(x,\mathcal{C}_1)p(x, \mathcal{C}_2)p(x,C1​)p(x,C2​)就将x划分为类别1。也等价于将x 分入到具有最大后验概率的类别中。 1.5.2最小化期望损失 实际引用中目标远比最小化错误分类率更加复杂。 就癌症判断例子中每种错误分类所带来的决策损失是不同的健康误判为有病–多了复查有病误判为健康–错过最佳治疗时间。 损失函数(loss function) 也被称为代价函数(cost function):对所有可能的决策或者动作 可能产生的损失的一种整体度量。目标是最小化期望损失。 期望损失的计算x属于Ck\mathcal{C}_kCk​类我们将其划分为Cj\mathcal{C}_jCj​类造成的损失为Lkj\mathcal{L}_{kj}Lkj​ E[L]∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dxE[L]k∑​j∑​∫Rj​​Lkj​p(x,Ck​)dx 得出的结论还是需要后验概率 1.5.3拒绝选项 在类别归属相对不确定的时候避免作出决策是更合适的选择。这样会使模型的分类错误率降低这被称为拒绝选项reject option。 癌症的例子使用自动化系统来对几乎没有怀疑的X光片进行分类把不易分类的留给人类专家。 一种简单的拒绝实现方式引入一个阈值θ\thetaθ拒绝后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck​∣x)的最大值小于等θ\thetaθ的那些输入x。 1.5.4推断和决策 解决决策问题的三种方法 推断类条件密度p(x∣Ck)p(x|\mathcal{C}_k)p(x∣Ck​),推断类先验概率密度p(Ck)p(\mathcal{C}_k)p(Ck​),计算后验概率-决策生成式模型。直接推断后验概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck​∣x)-决策(判别式模型)。找到一个判别函数f(x)f(x)f(x)直接把输入x映射到类别标签中。 三种方法各有优缺点。 1.5.5 回归问题的损失函数 回到曲线拟合问题对于每一个输入x对应目标值t的估计值为y(x), 造成的损失是L(t,y(x))那么期望损失为 E[L]∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]\int\int L(t,y(x))p(x,t)dxdtE[L]∫∫L(t,y(x))p(x,t)dxdt L(t,y(x))常用平方损失函数–L(t,y(x))[y(x)−t]2L(t,y(x))[y(x)-t]^2L(t,y(x))[y(x)−t]2。我们的目标是选择合适的y(x)来使E[L]\mathbb{E}[L]E[L]最小化。形式变分法求解y(x)不会求 δE[L]δy(x)2∫{y(x)−t}p(x,t)dt0\frac{\delta\mathbb{E}[L]}{\delta y(x)}2\int\{y(x)-t\}p(x,t)dt 0δy(x)δE[L]​2∫{y(x)−t}p(x,t)dt0 使用概率的加和规则和乘积规则有(对上式子进行移项和相除操作得到) y(x)∫tp(x,t)dtp(x)∫tp(t∣x)dtEt[t∣x](1.89)y(x)\frac{\int tp(x,t)dt}{p(x)}\int tp(t|x)dt\mathbb{E}_t[t|x]\tag{1.89}y(x)p(x)∫tp(x,t)dt​∫tp(t∣x)dtEt​[t∣x](1.89) Et[t∣x]\mathbb{E}_t[t|x]Et​[t∣x]符号迷惑理解成 t 在给定x条件下的期望会更容易理解。Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]Ep(t∣x)​[t] 所以y(x)最优解就是t的条件期望。 同样有三种方法来解决回归问题 确定p(x,t),计算p(t|x)依据1.89式进行积分推断p(t|x),依据1.89式进行积分直接通过数据找到回归函数模型y(x) 闵可夫斯基损失函数–平方损失函数的推广 E[L]q∫∫∣y(x)−t∣qp(x,t)dxdt\mathbb{E}[L]_q\int\int|y(x)-t|^qp(x,t)dxdtE[L]q​∫∫∣y(x)−t∣qp(x,t)dxdt 1.6 信息论 信息量的概念观察到一个离散型随机变量时我们能获得多少信息直觉上低概率事件具有高信息量。寻找一个表达信息量的函数h(⋅)h(\cdot)h(⋅)是p(x)的递减函数。且如果有两个不相关的事件x,y观察到两个事件同时发生的信息量应该等于两件事各自发生时的概率即h(x,y)h(x)h(y)h(x,y)h(x)h(y)h(x,y)h(x)h(y),两件不相关的事是统计独立的因此有p(x,y)p(x)p(y)p(x,y)p(x)p(y)p(x,y)p(x)p(y)。容易得出h(x)与p(x)是对数关系。因此有单个随机变量的信息量 h(x)−log⁡2p(x)h(x)-\log_2p(x)h(x)−log2​p(x) 熵传输随机变量x的平均信息量为 H[x]−∑xp(x)log2p(x)H[x]-\sum_xp(x)log_2p(x)H[x]−x∑​p(x)log2​p(x) 非均匀分布的熵比均匀分布的熵要小。 无噪声编码定理熵是传输一个随机变量状态值所需比特位的下界。 熵起源于物理学N个物体放到若干个箱子中所有的方案数构成乘数。乘数通过合适参数缩放对数乘数且当N−∞N-\inftyN−∞时就可以得到自然对数熵的定义。 离散型随机变量的熵特性 熵是非负数熵的最小值为0利用概率归一化约束使用拉格朗日乘子法找到熵的最大值为所有的值都相等且等于1M\frac{1}{M}M1​时熵值最大。M为xix_ixi​的状态总数。 熵的概念从离散型随机变量扩展到连续型随机变量将连续型随机变量离散化然后让Δ−0\Delta-0Δ−0得到微分熵的概念 −∫p(x)ln⁡p(x)dx-\int p(x)\ln p(x) dx−∫p(x)lnp(x)dx 熵的离散形式和连续形式相差一个ln⁡Δ\ln \DeltalnΔ在Δ−0\Delta-0Δ−0的情况下是发散的。反映一个重要的事实具体化一个连续型随机变量需要大量的比特位。 连续型随机变量的熵特性 最大化微分熵的分布是高斯分布最大的熵值还由分布的方差决定。随着方差的增大而增大越平越大的趋势还是在的 H[x]12{1ln⁡(2πσ2)}H[x]\frac{1}{2}\{1\ln(2\pi\sigma ^2)\}H[x]21​{1ln(2πσ2)} 微分熵可以为负数。 条件熵 **KL散度**目标分布p(x)p(x)p(x)近似分布q(x∣θ)q(x|\theta)q(x∣θ)–平均附加信息量,比原来的信息量多出来的信息量。KL散度不是一个对称量。 KL(p∣∣q)−∫p(x)ln⁡{q(x)p(x)}dxKL(p||q)-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dxKL(p∣∣q)−∫p(x)ln{p(x)q(x)​}dx **凸函数**弦在函数图像上,对应的函数的二阶导数为正。 f(λa(1−λ)b)λf(a)(1−λ)f(b)f(\lambda a (1-\lambda)b) \lambda f(a) (1-\lambda)f(b)f(λa(1−λ)b)λf(a)(1−λ)f(b) **凹函数**弦在函数图像的下方对应的二阶导数为负数 f(x)−f(x)f(x)-f(x)f(x)−f(x) 利用Jensen 不等式−ln⁡x-\ln x−lnx函数是凸函数 证明了KL散度非负数。因此可以将KL散度看作两分布之间不相似程度的度量。解释性说明 最大似然等价与最小化**目标分布p(x)p(x)p(x)近似分布q(x∣θ)q(x|\theta)q(x∣θ)之间的KL散度。 **互信息**获知一个随机变量的值后另一个随机变量不确定度减少的量。 I(x,y)H(x)−H(x∣y)H(y)−H(y∣x)I(x,y) H(x)-H(x|y)H(y)-H(y|x)I(x,y)H(x)−H(x∣y)H(y)−H(y∣x) 关键概念 误差函数(error function) 泛化能力(generalization) 特征抽取(feature extract) 预处理(pre-processed) 模型选择(model selection) 模型对比(model comparison) 正则化(regularization) 权值衰减(weight decay) 收缩(shrinkage) 加和规则(sum rule) 乘积规则(product relu)
http://www.pierceye.com/news/808813/

相关文章:

  • 优化稳定网站排名网站建设需要学什么语言
  • 可以做设计私单的网站硬件开发工程师面试
  • 竞价网站单页网页设计师中级证书有用吗
  • 做网站 简单外包wordpress 插件api
  • 白城网站seo新手怎么建立自己网站
  • 建立用模板建立网站wordpress feed
  • 株洲品牌网站建设优质的杭州网站优化
  • 网站开发在哪个科目核算网站平台怎么做的好处
  • 网站底部模板代码江苏建站系统
  • 写出网站开发的基本流程品牌建设网站
  • 河北省建设机械协会网站双减之下托管班合法吗
  • 江门市城乡建设局网站阿里云万网域名购买
  • 网站推广技术哪家好专业网站开发建设
  • 义乌营销型网站建设淘宝做动图网站
  • dedecms能做什么网站素材网站怎么做
  • 一流导航设计网站wordpress 七牛 插件
  • 新开元电销系统济南网站优化技术厂家
  • 有名的网站建设wordpress安装到主机
  • 网站建设的指导思想p2p金融网站建设
  • 可在哪些网站做链接郑州展厅设计公司
  • 怎么可以黑网站域名做网页的心得体会
  • 设计素材免费下载网站做广告牌子
  • 名师工作室网站建设 意义常州网站建设专业的公司
  • 中国建设银行官网站预定红念币天元建设集团有限公司地址
  • wix做网站教程网站建设 销售提成
  • 长安网站建设费用开天猫旗舰店网站建设
  • 网页游戏网站哪个最好专业建站公司建站系统该规划哪些内容
  • 青岛网站建设公司大全在那些网站上做企业宣传好
  • 天河定制型网站建设中国科技成就的例子
  • 网站报备查询android安卓软件下载