河北企业建站系统信息,凡客是什么意思,深圳网站建设公司简介,自己建网站要什么ROC曲线#xff08;Receiver Operating Characteristic Curve#xff09;是一种用于评估二分类模型性能的图形化工具#xff0c;主要用于展示在不同阈值#xff08;Threshold#xff09;下模型的真阳性率#xff08;True Positive Rate#xff0c;TPR#xff09;和假阳…ROC曲线Receiver Operating Characteristic Curve是一种用于评估二分类模型性能的图形化工具主要用于展示在不同阈值Threshold下模型的真阳性率True Positive RateTPR和假阳性率False Positive RateFPR之间的关系。 ROC曲线最早起源于二战期间用于分析雷达信号检测敌方飞机的能力随后逐渐扩展到其他领域特别是医学诊断。自20世纪末ROC已被广泛应用于机器学习通过改变分类阈值展示模型将正类与负类区分开来的能力以此找到最佳的模型参数和决策阈值。 目录
基本概念
1.混淆矩阵Confusion Matrix
1.1 组成类别
1.2 评估指标
2. AUCArea Under the Curve
3.约登指数Youdens index
曲线组成 基本概念 1.混淆矩阵Confusion Matrix
也称为误差矩阵用于展示实际类别与模型预测类别之间的关系以此评估有监督学习中分类模型的性能。混淆矩阵对于二分类和多分类问题都适用在流行病学研究中它被应用于评估筛检试验的真实性。 预测实际正例负例正例真阳性TP假阳性FP负例假阴性FN真阴性TN
ROC曲线是多个混淆矩阵结果的组合 1.1 组成类别
真阳性True PositiveTP模型正确地将正类预测为正类的数量。
假阴性False NegativeFN模型错误地将正类预测为负类的数量。
假阳性False PositiveFP模型错误地将负类预测为正类的数量。
真阴性True NegativeTN模型正确地将负类预测为负类的数量。 1.2 评估指标
通过混淆矩阵我们可以计算出多种评估指标从不同角度评估模型性能 准确率Accuracy模型正确预测的总体比例计算公式为
精确度Precision模型预测为正类中实际为正类的比例计算公式为
召回率Recall或灵敏度Sensitivity实际为正类中模型预测为正类的比例计算公式为
特异度Specificity实际为负类中模型预测为负类的比例计算公式为
F1分数F1 Score精确度和召回率的调和平均数计算公式为 2. AUCArea Under the Curve
曲线下面积用于综合评价模型在各种不同阈值下的表现。AUC的取值范围在0~1常用于量化比较不同分类器的性能AUC值越高表示模型性能越好。 AUC 1.0 完美分类器模型没有任何的分类错误
AUC 0.5 模型具有将正类和负类区分开来的能力且性能超过了随机猜测
AUC 0.5 模型的表现还不如随机猜测表明模型存在严重问题。 3.约登指数Youdens index
也称为正确指数常用于确定最佳阈值即约登指数最大的时候模型分类能力最佳。计算方式为 曲线组成 1.真阳性率也称为灵敏度、召回率或命中率作为纵坐标
2.假阳性率是在所有实际负例中被错误地判断为正例的比例作为横坐标
3.阈值是界定正类和负类的分界线。通过调整阈值模型预测正类的标准更高或更低从而影响到TPR和FPR的值。ROC曲线上的每一个点都对应一个特定的决策阈值。
4.AUCROC曲线与坐标轴对角线组成的面积。 曲线绘制在一个坐标图上将FPR作为横轴X轴TPR作为纵轴Y轴。对于一个二分类模型通过改变决策阈值我们可以得到一系列的FPR, TPR点将这些点连线就形成了ROC曲线。理想情况下最好的预测模型的ROC曲线会尽可能地靠近左上角意味着具有更高的TPR和更低的FPR。