当前位置: 首页 > news >正文

个人购物网站需要备案吗中国刚刚发生的新闻

个人购物网站需要备案吗,中国刚刚发生的新闻,福州开发企业网站,网络平台营销1 引言 本文主要结合了李宏毅的机器学习课程之Ensemble和周志华的《机器学习》西瓜书两者的说法#xff0c;对ensemble这一竞赛利器做了总结。 Ensemble主要可以分为bagging和boosting两种方法。其中#xff0c;bagging适用于基模型复杂度比较高的情况#xff08;如树模型…1 引言 本文主要结合了李宏毅的机器学习课程之Ensemble和周志华的《机器学习》西瓜书两者的说法对ensemble这一竞赛利器做了总结。 Ensemble主要可以分为bagging和boosting两种方法。其中bagging适用于基模型复杂度比较高的情况如树模型其目的是为了减小variance即阻止过拟合的情况。而boosting则是适用于基模型是弱学习器的情况其目的是减小biases基本上多弱模型都可以用如果分类正确率低于50%取个反就可以了~ 2 Bagging 个人觉得bagging其实和神经网络中的drop-out非常相似。我们只给每个模型看数据的一部分不给它们看全貌然后希望它们在这一部分上有比较好的学习结果最后综合各个模型的结果做一个blending得到最终的结果。 Bagging在选取数据时采用的是bootstrap的方法即有放回的抽样。假设我们有 mmm 个样本的数据集 D" role="presentation" style="position: relative;">DDD 。我们希望利用有放回的抽样方法构造一个新的数据集 D′D′D'其样本个数仍旧是m。显然 DDD 中的一些数据会在 D#x2032;" role="presentation" style="position: relative;">D′D′D' 中重复出现这也就意味着有一部分数据在 D′D′D' 中是不会出现的。 图1 bagging示意图此图出自李宏毅的视频我们可以做一个简单的估计。样本在m次采样中始终没有被采到的概率为 (1−1m)m(1−1m)m (1-\frac{1}{m})^m 取极限的话为 limm→∞(1−1m)m→1e≈0.368limm→∞(1−1m)m→1e≈0.368 \lim_{m \rightarrow \infty} (1 - \frac{1}{m})^m \rightarrow \frac{1}{e} \approx 0.368 这一部分没有被采样到的数据可以作为验证集来使用这个方法被称“包外估计”(out-of-bag estimate)。 根据该方法训练得到多个模型之后可以取平均或者投票得到最终结果。 其中随机森林便是一个典型的利用bagging方法的模型只不过在随机森林当中数据的特征也是随机选取的。3 Boosting Boosting的主要想法是在已有模型的基础上重视被错分的样本再训练一个模型来融合到原模型中以此来提高模型的准确率如此不断反复。那么如何重视被错分的样本呢这就是boosting的一个有意思的地方了。它给每个样本赋予了一个权重每次boosting之后样本的权重就会被更新而这里的权重直接影响了训练时的Loss function。 L(f)∑nl(f(xn),yn)→L(f)∑nunl(f(xn),yn)L(f)∑nl(f(xn),yn)→L(f)∑nunl(f(xn),yn) L(f) = \sum_{n} l(f(x^n), y^n) \rightarrow L(f) = \sum_{n} u_nl(f(x^n), y^n)式中unun u_n 即为每个样本的权重。也就是说现在我们的样本变成了这个样子 {(x1,y1,u1),(x2,y2,u2),⋯,(xn,yn,un)}{(x1,y1,u1),(x2,y2,u2),⋯,(xn,yn,un)} \{ (x^1, y^1, u^1), (x^2, y^2, u^2), \cdots , (x^n, y^n, u^n) \} Boosting的方法有很多我们这里主要讲一下其中比较流行的AdaBoost算法。 假设我们在第一个基模型 f1(x)f1(x) f_1(x) 上训练得到的错误率为此时所有样本权重均相同 ϵ1∑nun1δ(f1(xn)≠yn)Z1ϵ1∑nu1nδ(f1(xn)≠yn)Z1 \epsilon_1 = \frac{ \sum_n u_1^n \delta (f_1(x^n) \neq y^n) }{ Z_1 } 其中 Z1∑nun1Z1∑nu1n Z_1 = \sum_n u_1^n 我们希望学习器的错误率 ϵ1ϵ1 \epsilon_1 是大于0.5的否则我们取个反或者不要这个学习器换一个。 知道了哪些训练错了哪些训练对了之后我们就要进行最重要的重新分配权重了。所谓的重新分配权重就是给正确的权重除以一个 d1d1 d_1 错误的权重乘以一个 d1d1d_1d11d11 d_1 > 1。 那么这个 d1d1 d_1 怎么来我们希望再更新权重之后新的权重满足下式 ∑f1(xn)≠ynun2∑f1(xn)ynun2∑f1(xn)≠ynu2n∑f1(xn)ynu2n \sum_{f_1(x^n) \neq y^n} u_2^n = \sum_{f_1(x^n) = y^n} u_2^n 也就是说从权重上来看要错的对的各占一半即 ∑f1(xn)≠ynun1d1∑f1(xn)ynun1/d1∑f1(xn)≠ynu1nd1∑f1(xn)ynu1n/d1 \sum_{f_1(x^n) \neq y^n} u_1^n d_1 = \sum_{f_1(x^n) = y^n} u_1^n / d_1 其中Z1ϵ1∑f1(xn)≠ynun1d1Z1ϵ1∑f1(xn)≠ynu1nd1 Z_1 \epsilon_1 = \sum_{f_1(x^n) \neq y^n} u_1^n d_1 Z1(1−ϵ1)∑f1(xn)ynun1d1Z1(1−ϵ1)∑f1(xn)ynu1nd1 Z_1(1 - \epsilon_1) = \sum_{f_1(x^n) = y^n} u_1^n d_1 代入上式可得 d1(1−ϵ1)/ϵ1−−−−−−−−−√d1(1−ϵ1)/ϵ1 d_1 = \sqrt{(1 - \epsilon_1 ) / \epsilon_1} 再用此时的权重去训练出第二个模型 f2(xn)f2(xn)f_2(x^n) 。之后继续如此操作直到达到弱分类器个数限制。 为了方便表示我们通常把dd d 表示成 eαeα e^{\alpha} 的形式那么权重的更新可以直接写成 unt1unt⋅e−ynft(xn)αt∏i1te−ynαifi(xn)ut1nutn⋅e−ynft(xn)αt∏i1te−ynαifi(xn) u_{t+1}^n = u_t^n \cdot e^{-y_n f_t(x^n)\alpha_t} = \prod_{i=1}^t e^{-y_n\alpha_i f_i(x^n)} 其中αtln(dt)αtln(dt) \alpha_t = ln( d_t ) 。 得到所有的模型之后我们希望把训练的 TT T 个模型融合起来这个融合的过程就叫做blending。 一种简单的做法就是直接取结果的平均 H(x)sign(∑t1Tft(x))H(x)sign(∑t1Tft(x)) H(x) = sign(\sum_{t=1}^T f_t(x)) 但这样的做法不够机智。我们每个模型的可信度是不同的我们需要给每个模型一个权重得到一个加权平均的结果 H(x)sign(∑t1Tαtft(x))H(x)sign(∑t1Tαtft(x)) H(x) = sign(\sum_{t=1}^T\alpha_t f_t(x)) 这里的αtαt \alpha_t 就是我们前面的 αtln((1−ϵ1)/ϵ1−−−−−−−−−√)αtln((1−ϵ1)/ϵ1) \alpha_t = ln( \sqrt{(1 - \epsilon_1 ) / \epsilon_1} ) 。可以证明随着模型数量的增加模型在训练集上的表现会越来越好详细证明可参见李宏毅的视频。4 Gradient Boosting 顾名思义这是用Gradient的方法来进行boosting。上文中的Adaboost其实就是一种特殊的Gradient Boosting。Gradient Boosting的总体流程为 图2 Gradient Boosting流程图既然是要做Gradient当然要有目标函数啊。这里的目标函数就是 L(g)∑nl(yn,g(xn))L(g)∑nl(yn,g(xn)) L(g) = \sum_{n}l(y^n, g(x^n)) 于是就有 gt(x)gt−1−η∂L(g)∂g(x)|g(x)gt−1(x)gt(x)gt−1−η∂L(g)∂g(x)|g(x)gt−1(x) g_t(x) = g_{t - 1} - \eta \frac{\partial L(g)}{\partial g(x)}|_{g(x) = g_{t-1}(x)} 又由于 gt(x)gt−1(x)αtft(x)gt(x)gt−1(x)αtft(x) g_t(x) = g_{t - 1}(x) +\alpha_t f_t(x) 所以我们希望 −η∂L(g)∂g(x)|g(x)gt−1(x)−η∂L(g)∂g(x)|g(x)gt−1(x) - \eta \frac{\partial L(g)}{\partial g(x)}|_{g(x) = g_{t-1}(x)} 和 αtft(x)αtft(x) \alpha_t f_t(x) 是方向相同的。即找到一个 ft(x)ft(x)f_t(x) 使得 maxft(x)−ηft(x)∂L(g)∂g(x)|g(x)gt−1(x)maxft(x)−ηft(x)∂L(g)∂g(x)|g(x)gt−1(x) \max_{f_t(x)} - \eta f_t(x)\frac{\partial L(g)}{\partial g(x)}|_{g(x) = g_{t-1}(x)}然后找一个 αtαt\alpha_t 使得 L(g)L(g) L(g) 最小。 当 L(g)∑ne−yng(xn)L(g)∑ne−yng(xn)L(g) = \sum_n e^{-y^ng(x^n)} 的时候可以推出这就是我们的Adaboosting。 详细推导过程偷下懒参见李宏毅的视频即可。
http://www.pierceye.com/news/791887/

相关文章:

  • 网站运营无经验可以做吗垂直类网站怎么做
  • 中国站长网站wordpress开启xmlrpc
  • 网站建设的好处建设工程质量管理条例网站
  • asp.net网站建设教程做电影网站 需要进那些群
  • 2013网站挂马教程长沙网站建设优化
  • 网站搭建详细教程wordpress 找不到主题
  • 陕西省建设厅申报网站大型网站建设公司推荐
  • 企业商城建站外贸建站上海
  • 织梦如何做网站网页设计公司背景
  • 购买域名网站程序员外包公司到底值不值得去
  • 网站出售商品建设广告公司主要做什么
  • 西安的电商网站设计大庆市城乡建设局网站
  • 服装网站建设需要什么内容中国建设银行总行官方网站
  • 免费下载设计素材网站wordpress metaslider
  • 如何建一个自己的网站给网站做rss
  • 宜昌网站制作公司亿腾云优化seo
  • 网站icp备案信息是什么一号网站建设
  • 怎么样做网站徐州市中宇建设工程有限公司网站
  • 网站建站公司官网免费企业网站建设介绍
  • 知名网站建设托管河北建筑工程学院招生信息网
  • 服务器网站建设流程图十堰网站制作公司电话
  • 营销型网站seo开发一个app需要什么技能
  • 网站的欢迎页怎么做织梦网站名称修改
  • 树莓派做博客网站济南抖音推广公司
  • 网站短链接生成济宁网络
  • 组建 网站开发团队交互设计作品集网站
  • 宜春个人网站建设网站建设惠州
  • 医院网站开发兼职wordpress 域名跳转
  • 安监局网站建设wordpress 修改路径
  • 快速搭建网站wordpress成品网站货源入口