装饰网站建设优惠套餐,用wordpress案例,dw网站建设的常用技术,wordpress 调试模式SVM是新近出现的强大的数据挖掘工具#xff0c;它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法#xff0c;样本以属性向量的形式提供#xff0c;所以输入空间是Rn的子集。 图1 如图1所示#xff0c;SVM的目标是找… SVM是新近出现的强大的数据挖掘工具它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法样本以属性向量的形式提供所以输入空间是Rn的子集。 图1 如图1所示SVM的目标是找到两个间距尽可能大的边界平面来把样本本点分开以”最小化泛化误差“即对新的样本点进行分类预测时出错的几率最小。落在边界平面上的点称为支持向量。Vapnik证明如果可以找到一个较小的支持向量集就可以保证得到很好的泛化能力----也就是说支持向量的个数越少越好。 数据点通常在输入空间是线性不可分的我们把它映射到更高维的特征空间使其线性可分----这里的映射函数我们称之为核函数。特征空间的超平面对应输入空间的一个非线性的分离曲面因此称为非线性分离器。 线性SVM分类器的输出是uw*x-b。w是分类平面的法矢x是输入向量b是常量u代表分类。即SVM的目的就是计算出w和b。最大化margin两个分类平面之间的距离等价于求下面的二次优化问题 对于非线性分类器就要把x映射到特征空间,同时考虑误差ε的存在即有些样本点会越过分类边界上述优化问题变为 从输入空间是映射到特征空间的函数称为核函数LibSVM中使用的默认核函数是RBF径向基函数radial basis function即 这样一来就有两个参数需要用户指定c和gamma。 我们先安装python的机器学习库 http://sourceforge.net/projects/mlpy/ 该学习库有以下3个核函数 1、‘linear’ (uT*v) 2、‘poly’ ((gamma*uT*v coef0)^degree) 3、‘rbf’ (exp(-gamma*|u-v|^2)), ‘sigmoid’ (tanh(gamma*uT*v coef0)) 其中degree为 [int (for ‘poly’ kernel_type)] degree in kernel 下载并安装后调用 其中的SVM模块对下面的数据进行训练这次训练我们使用线性核做为SVM的核函数 x [[1,8],[3,20],[1,15],[3,35],[5,35],[4,40],[7,80],[6,49]]
y[1,1,0,0,1,0,0,1]
showpoint[ro,bo]
tshowpoint[r*,b*]
xnp.array(x)
ynp.array(y)
svm mlpy.LibSvm()
svm.learn(x, y) 本博客所有内容是原创如果转载请注明来源 http://blog.csdn.net/myhaspl/ 然后生成随机的未知样本测试数据验证生成的SVM模型 ,星号表示未知样本 #未知样本分类
tlp_x1np.random.rand(50)*(xmax-xmin)xmin
tlp_x2np.random.rand(50)*(ymax-ymin)xmin
tlp_xnp.array(zip(tlp_x1,tlp_x2))
for ii in xrange(0,len(tlp_x)):tysvm.pred(tlp_x[ii])if ty0:plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)])else:plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)]) runfile(rK:\book_prog\mplsvm1.py, wdirrK:\book_prog) http://blog.csdn.net/myhaspl myhasplqq.com loading ...