我图网类网站建设,给wordpress添加小图标,google chrome谷歌浏览器,WordPress模板转换typecho解密SVM系列#xff08;二#xff09;#xff1a;SVM的理论基础 原文博主讲解地太好了 收藏下 解密SVM系列#xff08;三#xff09;#xff1a;SMO算法原理与实战求解 支持向量机通俗导论#xff08;理解SVM的三层境界#xff09; 上节我们探讨了关于拉格朗日乘子…解密SVM系列二SVM的理论基础 原文博主讲解地太好了 收藏下 解密SVM系列三SMO算法原理与实战求解 支持向量机通俗导论理解SVM的三层境界 上节我们探讨了关于拉格朗日乘子和KKT条件这为后面SVM求解奠定基础本节希望通俗的细说一下原理部分。 一个简单的二分类问题如下图 我们希望找到一个决策面使得两类分开这个决策面一般表示就是WTXb0,现在的问题是找到对应的W和b使得分割最好知道logistic分类 机器学习之logistic回归与分类的可能知道这里的问题和那里的一样也是找权值。在那里我们是根据每一个样本的输出值与目标值得误差不断的调整权值W和b来求得最终的解的。当然这种求解最优的方式只是其中的一种方式。那么SVM的求优方式是怎样的呢 这里我们把问题反过来看假设我们知道了结果就是上面这样的分类线对应的权值W和b。那么我们会看到在这两个类里面是不是总能找到离这个线最近的点向下面这样 然后定义一下离这个线最近的点到这个分界面线的距离分别为d1,d2。那么SVM找最优权值的策略就是先找到最边上的点再找到这两个距离之和D然后求解D的最大值想想如果按照这个策略是不是可以实现最优分类是的。好了还是假设找到了这样一个分界面WTXb0,那么做离它最近的两类点且平行于分类面如上面的虚线所示。好了再假设我们有这两个虚线那么真实的分界面我们认为正好是这两个分界面的中间线这样d1就等于d2了。因为真实的分界面为WTXb0那么就把两个虚线分别设置为WTXb1和WTXb−1可以看到虚线相对于真实面只是上下移动了1个单位距离可能会说你怎么知道正好是一个距离确实不知道就假设上下是k个距离吧那么假设上虚线现在为WTXbk两边同时除k可以吧这样上虚线还是可以变成WT1Xb11,同理下虚线也可以这样然后他们的中线就是WT1Xb10吧可以看到从k到1权值无非从w变化到w1,b变到b1,我在让ww1,bb1不是又回到了起点吗也就是说这个中间无非是一个倍数关系。所以我们只需要先确定使得上下等于1的距离再去找这一组权值这一组权值会自动变化到一定倍数使得距离为1的。 好了再看看Dd1d2怎么求吧假设分界面WTXb0再假设X是两维的那么分界面再细写出来就是w1x1w2x2b0。上分界线w1x1w2x2b1这是什么两条一次函数ykxb的曲线是不是那么初中就学过两直线的距离吧d|c2−c1|w21w22−−−−−−−√1||W|| 这里W(w1,w2)是个向量||W||为向量的距离那么||W||2WTW。下界面同理。这样Dd1d22||W||2WTW−−−−−√等效2WTW,要使D最大就要使分母最小这样优化问题就变为min(12WTW),乘一个系数0.5没影响但是在后面却有用。 我们知道如果一个一次函数分界面为WTXb0那么线上方的x可以使得WTXb0,下方的x可以使得WTXb0吧那么对于上界面以上的点就有WTXb1下界面以下的点就有WTXb−1。我们现在再假设上界面以上的点的分类标签为1下界面以下的点的分类标签为-1。那么这两个不等式再分别乘以他们的标签会怎么样是不是可以统一为yi(WTxib)≥1了这也是为什么SVM在使用之前为什么要把两类标签设置为1-1而不是0,1等等之类的了。好了假设分界面一旦确定是不是所有点都得满足这个关系。那么最终的带约束的优化问题转化为 min12WTWs.t.yi(Wxib)≥1 把约束条件换成小于号的形式 s.t.1−yi(Wxib)≤0 注意的是这可不是一个约束条件而是对所有的每个样本xi都有一个这样的约束条件。 转换到这种形式以后是不是很像上节说到的KKT条件下的优化问题了就是这个。但是有一个问题我们说上节的KKT是在凸函数下使用的那么这里的目标函数是不是呢答案是的想想WT∗W函数乘出来应该很单一不能有很多极点当然也也可以数学证明是的。 好了那样的话就可以引入拉格朗日乘子法了优化的目标变为 L(w,b,α)12wTwα1h1(x)...αnhn(x)12wTw−α1[y1(wx1b)−1]−...−αn[yn(wxnb)−1]12wTw−∑i1Nαiyi(wxib)∑i1Nαi 然后要求这个目标函数最优解求导吧 ∂L∂ww−∑i1Nαiyixi0⇒w∑i1Nαiyixi∂L∂b−∑i1Nαiyi0⇒∑i1Nαiyi0 这两个公式非常重要简直是核心公式。 求导得到这个应该很简单吧那我问你为什么WTW对w求导是w呢如果你知道那么你很厉害了反正开始我是一直没转过来。其实说起来也很简单如果光去看看为什么求导以后转置就没了不太好想明白设想一下假设现在是二维样本点也就是最终的W(w1,w2)那么WTWw1∗w1w2∗w2那么对w1求导就是2w1,对w2就是2w2,这样写在一起就是对w求导得到(2w1,2w2)2w了然后乘前面一个1/2这也就是为什么要加一个1/2就变成w了。 好了得到上面的两个公式再带回L中把去w和b消掉你又可能发现w确实可以消因为有等式关系那b怎么办上述对b求导的结果竟然不含有b上天在开玩笑吗其实没有虽然没有b但是有那个求和为0呀带进去你会惊人的发现b还真的可以消掉就是因为了那个等式。简单带下 W(α)L(w,b,α)12(∑i1Nαiyixi)T(∑j1Nαjyjxj)−∑i1Nαiyi((∑i1Nαiyixi)xib)∑i1Nαi12(∑i,j1Nαiyiαjyjxi∗xj)−∑i,j1Nαiyiαjyjxi∗xjb∑i1Nαiyi∑i1Nαi−12(∑i,转载于:https://www.cnblogs.com/Vae1990Silence/p/8393103.html