哈尔滨市网站建设公司,网站建设规划书,建行官方网站,产品设计的8个方法在机器学习中#xff0c;ROC曲线被广泛应用于二分类问题中来评估分类器的可信度#xff0c;当处理一些高度不均衡的数据集时#xff0c;PR曲线能表现出更多的信息。在二分类问题中#xff0c;分类器将一个实例的分类标记为正例还是负例#xff0c;这可以用一个混淆矩阵来表…在机器学习中ROC曲线被广泛应用于二分类问题中来评估分类器的可信度当处理一些高度不均衡的数据集时PR曲线能表现出更多的信息。在二分类问题中分类器将一个实例的分类标记为正例还是负例这可以用一个混淆矩阵来表示TP:指正确分类成为正的样本数实际为正预测为正FP指错误分类为正的样本数实际为负预测为正FN指错误分类为负的样本数实际为正预测为负TN指正确分类为负的样本数实际为负预测为负TPFPTNFN 样本总数TP FN 实际正样本数TPFP 预测为正的样本数包括预测正确的预测错误的FPTN 实际负样本数TNFN 预测为负的样本数包括预测正确的预测错误的在ROC曲线中以FPR为x轴TPR为y轴FPR指实际负样本中被错误预测为正样本的概率。TPR指实际正样本中被预测正确的概率。如下图 在PR曲线中以Recall貌似翻译为召回率或者查全率为x轴Precision为y轴。Recall与TPR的意思相同而Precision指正确分类的正样本数占总正样本的比例。如下图 绘制ROC曲线和PR曲线都是选定不同阈值从而得到不同的x轴和y轴的值画出曲线。例如一个分类算法找出最优的分类效果对应到ROC空间中的一个点。通常分类器输出的都是score如SVM、神经网络等有如下预测效果True表示实际样本属性Hyp表示预测结果样本属性第4列即是ScoreHyp的结果通常是设定一个阈值比如上表Hyp(0.5)和Hyp(0.6)就是阈值为0.5和0.6时的结果Score阈值为正样本小于阈值为负样本这样只能算出一个ROC值当阈值为0.5时TPR6/(60)1FPRFP/(FPTN)2/(22)0.5,得到ROC的一个坐标为0.5,1RecallTPR1Precision6/(62)0.75得到一个PR曲线坐标(1,0.75)。同理得到不同阈下的坐标即可绘制出曲线在ROC空间ROC曲线越凸向左上方向效果越好。与ROC曲线左上凸不同的是PR曲线是右上凸效果越好。ROC和PR曲线都被用于评估机器学习算法对一个给定数据集的分类性能每个数据集都包含固定数目的正样本和负样本。而ROC曲线和PR曲线之间有着很深的关系。定理1对于一个给定的包含正负样本的数据集ROC空间和PR空间存在一一对应的关系也就是说如果recall不等于0二者包含完全一致的混淆矩阵。我们可以将ROC曲线转化为PR曲线反之亦然。定理2对于一个给定数目的正负样本数据集一条曲线在ROC空间中比另一条曲线有优势当且仅当第一条曲线在PR空间中也比第二条曲线有优势。这里的“一条曲线比其他曲线有优势”是指其他曲线的所有部分与这条曲线重合或在这条曲线之下。当正负样本差距不大的情况下ROC和PR的趋势是差不多的但是当负样本很多的时候两者就截然不同了ROC效果依然看似很好但是PR上反映效果一般。解释起来也简单假设就1个正例100个负例那么基本上TPR可能一直维持在100左右然后突然降到0.如图(a)(b)分别为正负样本1:1时的ROC曲线和PR曲线二者比较接近。而(c)(d)的正负样本比例为1:1这时ROC曲线效果依然很好但是PR曲线则表现的比较差。这就说明PR曲线在正负样本比例悬殊较大时更能反映分类的性能。AUC(Area Under Curve)即指曲线下面积占总方格的比例。有时不同分类算法的ROC曲线存在交叉因此很多时候用AUC值作为算法好坏的评判标准。面积越大表示分类性能越好。