百度不收录手机网站吗,什么网站是教做纸工的,看手机的网站,温州做网站技术员机器学习中的范数规则化之#xff08;一#xff09;L0、L1与L2范数 zouxy09qq.com
http://blog.csdn.net/zouxy09今天我们聊聊机器学习中出现的非常频繁的问题#xff1a;过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问…机器学习中的范数规则化之一L0、L1与L2范数 zouxy09qq.com
http://blog.csdn.net/zouxy09今天我们聊聊机器学习中出现的非常频繁的问题过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大为了不吓到大家我将这个五个部分分成两篇博文。知识有限以下都是我一些浅显的看法如果理解存在错误希望大家不吝指正。谢谢。监督机器学习问题无非就是“minimizeyour error while regularizing your parameters”也就是在规则化参数的同时最小化误差。最小化误差是为了让我们的模型拟合我们的训练数据而规则化参数是防止我们的模型过分拟合我们的训练数据。多么简约的哲学啊因为参数太多会导致我们的模型复杂度上升容易过拟合也就是我们的训练误差会很小。但训练误差小并不是我们的最终目标我们的目标是希望模型的测试误差小也就是能准确的预测新的样本。所以我们需要保证模型“简单”的基础上最小化训练误差这样得到的参数才具有好的泛化性能也就是测试误差也小而模型“简单”就是通过规则函数来实现的。另外规则项的使用还可以约束我们的模型的特性。这样就可以将人对这个模型的先验知识融入到模型的学习当中强行地让学习到的模型具有人想要的特性例如稀疏、低秩、平滑等等。要知道有时候人的先验是非常重要的。前人的经验会让你少走很多弯路这就是为什么我们平时学习最好找个大牛带带的原因。一句点拨可以为我们拨开眼前乌云还我们一片晴空万里醍醐灌顶。对机器学习也是一样如果被我们人稍微点拨一下它肯定能更快的学习相应的任务。只是由于人和机器的交流目前还没有那么直接的方法目前这个媒介只能由规则项来担当了。还有几种角度来看待规则化的。规则化符合奥卡姆剃刀(Occam’s razor)原理。这名字好霸气razor不过它的思想很平易近人在所有可能选择的模型中我们应该选择能够很好地解释已知数据并且十分简单的模型。从贝叶斯估计的角度来看规则化项对应于模型的先验概率。民间还有个说法就是规则化是结构风险最小化策略的实现是在经验风险上加一个正则化项(regularizer)或惩罚项(penalty term)。一般来说监督学习可以看做最小化下面的目标函数其中第一项L(yi,f(xi;w)) 衡量我们的模型分类或者回归对第i个样本的预测值f(xi;w)和真实的标签yi之前的误差。因为我们的模型是要拟合我们的训练样本的嘛所以我们要求这一项最小也就是要求我们的模型尽量的拟合我们的训练数据。但正如上面说言我们不仅要保证训练误差最小我们更希望我们的模型测试误差小所以我们需要加上第二项也就是对参数w的规则化函数Ω(w)去约束我们的模型尽量的简单。OK到这里如果你在机器学习浴血奋战多年你会发现哎哟哟机器学习的大部分带参模型都和这个不但形似而且神似。是的其实大部分无非就是变换这两项而已。对于第一项Loss函数如果是Square loss那就是最小二乘了如果是Hinge Loss那就是著名的SVM了如果是exp-Loss那就是牛逼的 Boosting了如果是log-Loss那就是Logistic Regression了还有等等。不同的loss函数具有不同的拟合特性这个也得就具体问题具体分析的。但这里我们先不究loss函数的问题我们把目光转向“规则项Ω(w)”。规则化函数Ω(w)也有很多种选择一般是模型复杂度的单调递增函数模型越复杂规则化值就越大。比如规则化项可以是模型参数向量的范数。然而不同的选择对参数w的约束不同取得的效果也不同但我们在论文中常见的都聚集在零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。这么多范数到底它们表达啥意思具有啥能力什么时候才能用什么时候需要用呢不急不急下面我们挑几个常见的娓娓道来。一、L0范数与L1范数L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话就是希望W的大部分元素都是0。这太直观了太露骨了吧换句话说让参数W是稀疏的。OK看到了“稀疏”二字大家都应该从当下风风火火的“压缩感知”和“稀疏编码”中醒悟过来原来用的漫山遍野的“稀疏”就是通过这玩意来实现的。但你又开始怀疑了是这样吗看到的papers世界中稀疏不是都通过L1范数来实现吗脑海里是不是到处都是||W||1影子呀几乎是抬头不见低头见。没错这就是这节的题目把L0和L1放在一起的原因因为他们有着某种不寻常的关系。那我们再来看看L1范数是什么它为什么可以实现稀疏为什么大家都用L1范数去实现稀疏而不是L0范数呢L1范数是指向量中各个元素绝对值之和也有个美称叫“稀疏规则算子”Lasso regularization。现在我们来分析下这个价值一个亿的问题为什么L1范数会使权值稀疏有人可能会这样给你回答“它是L0范数的最优凸近似”。实际上还存在一个更美的回答任何的规则化算子如果他在Wi0的地方不可微并且可以分解为一个“求和”的形式那么这个规则化算子就可以实现稀疏。这说是这么说W的L1范数是绝对值|w|在w0处是不可微但这还是不够直观。这里因为我们需要和L2范数进行对比分析。所以关于L1范数的直观理解请待会看看第二节。对了上面还有一个问题既然L0可以实现稀疏为什么不用L0而要用L1呢个人理解一是因为L0范数很难优化求解NP难问题二是L1范数是L0范数的最优凸近似而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。OK来个一句话总结L1范数和L0范数可以实现稀疏L1因具有比L0更好的优化求解特性而被广泛应用。好到这里我们大概知道了L1可以实现稀疏但我们会想呀为什么要稀疏让我们的参数稀疏有什么好处呢这里扯两点
1特征选择(Feature Selection)大家对稀疏规则化趋之若鹜的一个关键原因在于它能实现特征的自动选择。一般来说xi的大部分元素也就是特征都是和最终的输出yi没有关系或者不提供任何信息的在最小化目标函数的时候考虑xi这些额外的特征虽然可以获得更小的训练误差但在预测新的样本时这些没用的信息反而会被考虑从而干扰了对正确yi的预测。稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命它会学习地去掉这些没有信息的特征也就是把这些特征对应的权重置为0。
2可解释性(Interpretability)另一个青睐于稀疏的理由是模型更容易解释。例如患某种病的概率是y然后我们收集到的数据x是1000维的也就是我们需要寻找这1000种因素到底是怎么影响患上这种病的概率的。假设我们这个是个回归模型yw1x1w2x2…w1000x1000b当然了为了让y限定在[0,1]的范围一般还得加个Logistic函数。通过学习如果最后学习到的w就只有很少的非零元素例如只有5个非零的wi那么我们就有理由相信这些对应的特征在患病分析上面提供的信息是巨大的决策性的。也就是说患不患这种病只和这5个因素有关那医生就好分析多了。但如果1000个wi都非0医生面对这1000种因素累觉不爱。二、L2范数除了L1范数还有一种更受宠幸的规则化范数是L2范数: ||W||2。它也不逊于L1范数它有两个美称在回归里面有人把有它的回归叫“岭回归”Ridge Regression有人也叫它“权值衰减weight decay”。这用的很多吧因为它的强大功效是改善机器学习里面一个非常重要的问题过拟合。至于过拟合是什么上面也解释了就是模型训练时候的误差很小但在测试的时候误差很大也就是我们的模型复杂到可以拟合到我们的所有训练样本了但在实际预测新的样本的时候糟糕的一塌糊涂。通俗的讲就是应试能力很强实际应用能力很差。擅长背诵知识却不懂得灵活利用知识。例如下图所示来自Ng的course上面的图是线性回归下面的图是Logistic回归也可以说是分类的情况。从左到右分别是欠拟合underfitting也称High-bias、合适的拟合和过拟合overfitting也称High variance三种情况。可以看到如果模型复杂可以拟合任意的复杂函数它可以让我们的模型拟合所有的数据点也就是基本上没有误差。对于回归来说就是我们的函数曲线通过了所有的数据点如上图右。对分类来说就是我们的函数曲线要把所有的数据点都分类正确如下图右。这两种情况很明显过拟合了。OK那现在到我们非常关键的问题了为什么L2范数可以防止过拟合回答这个问题之前我们得先看看L2范数是个什么东西。L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小可以使得W的每个元素都很小都接近于0但与L1范数不同它不会让它等于0而是接近于0这里是有很大的区别的哦。而越小的参数说明模型越简单越简单的模型则越不容易产生过拟合现象。为什么越小的参数说明模型越简单我也不懂我的理解是限制了参数很小实际上就限制了多项式某些分量的影响很小看上面线性回归的模型的那个拟合的图这样就相当于减少参数个数。其实我也不太懂希望大家可以指点下。这里也一句话总结下通过L2范数我们可以实现了对模型空间的限制从而在一定程度上避免了过拟合。L2范数的好处是什么呢这里也扯上两点
1学习理论的角度从学习理论的角度来说L2范数可以防止过拟合提升模型的泛化能力。
2优化计算的角度从优化或者数值计算的角度来说L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。哎等等这condition number是啥我先google一下哈。这里我们也故作高雅的来聊聊优化问题。优化有两大难题一是局部最小值二是ill-condition病态问题。前者俺就不说了大家都懂吧我们要找的是全局最小值如果局部最小值太多那我们的优化算法就很容易陷入局部最小而不能自拔这很明显不是观众愿意看到的剧情。那下面我们来聊聊ill-condition。ill-condition对应的是well-condition。那他们分别代表什么假设我们有个方程组AXb我们需要求解X。如果A或者b稍微的改变会使得X的解发生很大的改变那么这个方程组系统就是ill-condition的反之就是well-condition的。我们具体举个例子吧咱们先看左边的那个。第一行假设是我们的AXb第二行我们稍微改变下b得到的x和没改变前的差别很大看到吧。第三行我们稍微改变下系数矩阵A可以看到结果的变化也很大。换句话来说这个系统的解对系数矩阵A或者b太敏感了。又因为一般我们的系数矩阵A和b是从实验数据里面估计得到的所以它是存在误差的如果我们的系统对这个误差是可以容忍的就还好但系统对这个误差太敏感了以至于我们的解的误差更大那这个解就太不靠谱了。所以这个方程组系统就是ill-conditioned病态的不正常的不稳定的有问题的哈哈。这清楚了吧。右边那个就叫well-condition的系统了。还是再啰嗦一下吧对于一个ill-condition的系统我的输入稍微改变下输出就发生很大的改变这不好啊这表明我们的系统不能实用啊。你想想看例如对于一个回归问题yf(x)我们是用训练样本x去训练模型f使得y尽量输出我们期待的值例如0。那假如我们遇到一个样本x’这个样本和训练样本x差别很小面对他系统本应该输出和上面的y差不多的值的例如0.00001最后却给我输出了一个0.9999这很明显不对呀。就好像你很熟悉的一个人脸上长了个青春痘你就不认识他了那你大脑就太差劲了哈哈。所以如果一个系统是ill-conditioned病态的我们就会对它的结果产生怀疑。那到底要相信它多少呢我们得找个标准来衡量吧因为有些系统的病没那么重它的结果还是可以相信的不能一刀切吧。终于回来了上面的condition number就是拿来衡量ill-condition系统的可信度的。condition number衡量的是输入发生微小变化的时候输出会发生多大的变化。也就是系统对微小变化的敏感度。condition number值小的就是well-conditioned的大的就是ill-conditioned的。如果方阵A是非奇异的那么A的conditionnumber定义为也就是矩阵A的norm乘以它的逆的norm。所以具体的值是多少就要看你选择的norm是什么了。如果方阵A是奇异的那么A的condition number就是正无穷大了。实际上每一个可逆方阵都存在一个condition number。但如果要计算它我们需要先知道这个方阵的norm范数和Machine Epsilon机器的精度。为什么要范数范数就相当于衡量一个矩阵的大小我们知道矩阵是没有大小的当上面不是要衡量一个矩阵A或者向量b变化的时候我们的解x变化的大小吗所以肯定得要有一个东西来度量矩阵和向量的大小吧对了他就是范数表示矩阵大小或者向量长度。OK经过比较简单的证明对于AXb我们可以得到以下的结论也就是我们的解x的相对变化和A或者b的相对变化是有像上面那样的关系的其中k(A)的值就相当于倍率看到了吗相当于x变化的界。对condition number来个一句话总结conditionnumber是一个矩阵或者它所描述的线性系统的稳定性或者敏感度的度量如果一个矩阵的condition number在1附近那么它就是well-conditioned的如果远大于1那么它就是ill-conditioned的如果一个系统是ill-conditioned的它的输出结果就不要太相信了。好了对这么一个东西已经说了好多了。对了我们为什么聊到这个的了回到第一句话从优化或者数值计算的角度来说L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。因为目标函数如果是二次的对于线性回归来说那实际上是有解析解的求导并令导数等于零即可得到最优解为然而如果当我们的样本X的数目比每个样本的维度还要小的时候矩阵XTX将会不是满秩的也就是XTX会变得不可逆所以w就没办法直接计算出来了。或者更确切地说将会有无穷多个解因为我们方程组的个数小于未知数的个数。也就是说我们的数据不足以确定一个解如果我们从所有可行解里随机选一个的话很可能并不是真正好的解总而言之我们过拟合了。但如果加上L2规则项就变成了下面这种情况就可以直接求逆了这里面专业点的描述是要得到这个解我们通常并不直接求矩阵的逆而是通过解线性方程组的方式例如高斯消元法来计算。考虑没有规则项的时候也就是λ0的情况如果矩阵XTX的 condition number 很大的话解线性方程组就会在数值上相当不稳定而这个规则项的引入则可以改善condition number。另外如果使用迭代优化的算法condition number 太大仍然会导致问题它会拖慢迭代的收敛速度而规则项从优化的角度来看实际上是将目标函数变成λ-strongly convexλ强凸的了。哎哟哟这里又出现个λ强凸啥叫λ强凸呢当f满足时我们称f为λ-stronglyconvex函数其中参数λ0。当λ0时退回到普通convex 函数的定义。在直观的说明强凸之前我们先看看普通的凸是怎样的。假设我们让f在x的地方做一阶泰勒近似一阶泰勒展开忘了吗f(x)f(a)f’(a)(x-a)o(||x-a||).直观来讲convex 性质是指函数曲线位于该点处的切线也就是线性近似之上而 strongly convex 则进一步要求位于该处的一个二次函数上方也就是说要求函数不要太“平坦”而是可以保证有一定的“向上弯曲”的趋势。专业点说就是convex 可以保证函数在任意一点都处于它的一阶泰勒函数之上而strongly convex可以保证函数在任意一点都存在一个非常漂亮的二次下界quadratic lower bound。当然这是一个很强的假设但是同时也是非常重要的假设。可能还不好理解那我们画个图来形象的理解下。大家一看到上面这个图就全明白了吧。不用我啰嗦了吧。还是啰嗦一下吧。我们取我们的最优解w的地方。如果我们的函数f(w)见左图也就是红色那个函数都会位于蓝色虚线的那根二次函数之上这样就算wt和w离的比较近的时候f(wt)和f(w)的值差别还是挺大的也就是会保证在我们的最优解w附近的时候还存在较大的梯度值这样我们才可以在比较少的迭代次数内达到w。但对于右图红色的函数f(w)只约束在一个线性的蓝色虚线之上假设是如右图的很不幸的情况非常平坦那在wt还离我们的最优点w很远的时候我们的近似梯度(f(wt)-f(w))/(wt-w*)就已经非常小了在wt处的近似梯度∂f/∂w就更小了这样通过梯度下降wt1wt-α*(∂f/∂w)我们得到的结果就是w的变化非常缓慢像蜗牛一样非常缓慢的向我们的最优点w爬动那在有限的迭代时间内它离我们的最优点还是很远。所以仅仅靠convex 性质并不能保证在梯度下降和有限的迭代次数的情况下得到的点w会是一个比较好的全局最小点w的近似点插个话有地方说实际上让迭代在接近最优的地方停止也是一种规则化或者提高泛化性能的方法。正如上面分析的那样如果f(w)在全局最小点w周围是非常平坦的情况的话我们有可能会找到一个很远的点。但如果我们有“强凸”的话就能对情况做一些控制我们就可以得到一个更好的近似解。至于有多好嘛这里面有一个bound这个 bound 的好坏也要取决于strongly convex性质中的常数α的大小。看到这里不知道大家学聪明了没有。如果要获得strongly convex怎么做最简单的就是往里面加入一项(α/2)||w||2。呃讲个strongly convex花了那么多的篇幅。实际上在梯度下降中目标函数收敛速率的上界实际上是和矩阵XTX的 condition number有关XTX的 condition number 越小上界就越小也就是收敛速度会越快。
这一个优化说了那么多的东西。还是来个一句话总结吧L2范数不但可以防止过拟合还可以让我们的优化求解变得稳定和快速。好了这里兑现上面的承诺来直观的聊聊L1和L2的差别为什么一个让绝对值最小一个让平方最小会有那么大的差别呢我看到的有两种几何上直观的解析
1下降速度我们知道L1和L2都是规则化的方式我们将权值参数以L1或者L2的方式放到代价函数里面去。然后模型就会尝试去最小化这些权值参数。而这个最小化就像一个下坡的过程L1和L2的差别就在于这个“坡”不同如下图L1就是按绝对值函数的“坡”下降的而L2是按二次函数的“坡”下降。所以实际上在0附近L1的下降速度比L2的下降速度要快。所以会非常快得降到0。不过我觉得这里解释的不太中肯当然了也不知道是不是自己理解的问题。L1在江湖上人称LassoL2人称Ridge。不过这两个名字还挺让人迷糊的看上面的图片Lasso的图看起来就像ridge而ridge的图看起来就像lasso。
2模型空间的限制实际上对于L1和L2规则化的代价函数来说我们可以写成以下形式也就是说我们将模型空间限制在w的一个L1-ball 中。为了便于可视化我们考虑两维的情况在(w1, w2)平面上可以画出目标函数的等高线而约束条件则成为平面上半径为C的一个 norm ball 。等高线与 norm ball 首次相交的地方就是最优解可以看到L1-ball 与L2-ball 的不同就在于L1在和每个坐标轴相交的地方都有“角”出现而目标函数的测地线除非位置摆得非常好大部分时候都会在角的地方相交。注意到在角的位置就会产生稀疏性例如图中的相交点就有w10而更高维的时候想象一下三维的L1-ball 是什么样的除了角点以外还有很多边的轮廓也是既有很大的概率成为第一次相交的地方又会产生稀疏性。相比之下L2-ball 就没有这样的性质因为没有角所以第一次相交的地方出现在具有稀疏性的位置的概率就变得非常小了。这就从直观上来解释了为什么L1-regularization 能产生稀疏性而L2-regularization 不行的原因了。因此一句话总结就是L1会趋向于产生少量的特征而其他的特征都是0而L2会选择更多的特征这些特征都会接近于0。Lasso在特征选择时候非常有用而Ridge就只是一种规则化而已。OK就聊到这里。下一篇博文我们聊聊核范数和规则化项参数选择的问题。全篇的参考资料也请见下一篇博文这里不重复列出。谢谢。