广州网站建设 乐云seo,app下载,西安大网站建设公司排名,宝安多屏网站建设公司好吗本文仅有文字理解部分#xff0c;没有相应的数学公式推导过程#xff0c;便于新手理解。
一、什么是支持向量机
首先我们看下面这张图#xff0c;在图中圆形和三角形分别代表不同的数据类型#xff0c;如何画出一条直线使两者能够显著地区分开来呢#xff1f; 答案可以多…本文仅有文字理解部分没有相应的数学公式推导过程便于新手理解。
一、什么是支持向量机
首先我们看下面这张图在图中圆形和三角形分别代表不同的数据类型如何画出一条直线使两者能够显著地区分开来呢 答案可以多种多样我们可以画出无数条直线将这两种数据分开。那么如何判断哪一条直线画的最好呢这就牵扯到我们划该直线的目的。当另外又来了一个数据时我们可以根据划分的直线来判断这个数据属于哪一种类型对的这个数据的类型我们可以估计为和它所在的那一侧的数据类型一样的数据类型。所以我们可以看到上侧所画的红线就相对不是很好因为当来了一个新数据接近与该直线时我们有很大的几率将这个数据判断错误。
于是我们进一步拓展此时数据是在一个平面内那如果是在三维、四维以及高维空间内呢在二维空间内我们可以找到一个平面来区分这些三维数据这个平面就称为超平面。于是乎我们提出针对多个n维的数据类型我们可以相应地找到一个n-1维的超平面来区分这两类n维数据类型。
我们重新回到二维平面上来我们将所画的直线称之为决策边界也叫超平面。那么怎样的决策边界才是好的决策边界呢根据上边的分析我们初步认识到当决策边界与两侧的数据都保持一定的距离时这个距离在分析决策时起到了一个缓冲的作用从而使出错的概率大大降低。那么这个缓冲区我们称之为间隔。而寻找最佳决策边界线其实就是找到间隔最大的那条直线。 由上图知蓝线是最佳决策边界决策超平面其到两侧黑线的距离相等而两侧黑线与两类数据相距最近的点相切。我们把黑线称为正超平面和负超平面上侧是正超平面下侧是负超平面。而两侧黑线相切的点决定了间隔的大小我们称相切的点为支持向量点这也是支持向量机的由来。
二、进一步研究
探究一
如果两类数据类型中有一类数据有离群点比如下图中的红点我们按照之前的思路就会得到下图。 在上图中虚线表示加入离群点后的超平面及其两侧正负超平面。而实线则是没加入红点之前的超平面和两侧正负超平面。那么我们是否要按照原来的思路选择虚线作为最终结果呢我们可以看到如果选择虚线那么间隔距离就会大大减少出错的概率就会增大。为此在上图中我们不妨舍弃这个异常离群点仍旧选择实线作为输出结果。在上图中我们把原来的间隔称为软间隔把加入红点后的间隔称为硬间隔而因为加入而失去的距离称为损失因子。
当然在实际问题中离群点可能会很多并且很复杂那么我们就需要用相应的数学方法去考量要不要舍弃某些离群点在牺牲间隔距离和减少出错率之间达到最佳的平衡。
探究二
如果出现两类数据类型如下图所示我们该如何分类画线呢两类数据分别用红点和蓝点表示 为解决此类问题人们想出了升维转换这个方法即下图。 即增加一个维度使二维点成为三维点然后找到一个超平面将其分为两类。所以对于在低维下无法轻易地分类的数据可以采用这种方法来解决他们。