当前位置: 首页 > news >正文

济南模版网站wordpress批量修改文章分类

济南模版网站,wordpress批量修改文章分类,正邦设计面试,游戏交易平台如何评估分类模型的好坏 评估分类预测模型的质量#xff0c;常用一个矩阵、三条曲线和六个指标。 一个矩阵#xff1a;混淆矩阵#xff1b;三条曲线#xff1a;ROC曲线、PR曲线、KS曲线#xff1b;六个指标#xff1a;正确率Acc、查全率R、查准率P、F值、AUC、BEP值、KS…如何评估分类模型的好坏 评估分类预测模型的质量常用一个矩阵、三条曲线和六个指标。 一个矩阵混淆矩阵三条曲线ROC曲线、PR曲线、KS曲线六个指标正确率Acc、查全率R、查准率P、F值、AUC、BEP值、KS值。 ROC曲线和AUC值 ROC曲线 ROC曲线Receiver Operating Characteristic curve即接收者操作特征曲线是反映TPR和FPR的综合指标。 TPR TP/(TPFN)即正类中正确预测的百分比查全率。 FPR FP/(FPTN)即负类中错误预测的百分比相当于误判率。 ROC曲线是由点TPRFPR组成的曲线横坐标是FPR而纵坐标是TPR。 显然ROC曲线应该越靠近左上角越好即表示查全率越高而误判率越低。 一般来说如果ROC是光滑的那么基本可以判断没有太大的过拟合。 ROC曲线有助于比较不同分类器的相对性能。如下两个模型M1和M2当FPR小于0.36时模型M1较好而当FPR大于0.36时模型M2较好。 AUC值 与ROC曲线一同使用的还有AUC指标。 AUCArea Under Curve其实就是ROC曲线下方的面积。 因为ROC曲线一般都处于对角线的上方即模型的效果应该比瞎猜猜中的概率为50%要好所以AUC的取值范围一般是[0.51]。 AUC值越大即ROC曲线越靠近左上角其下方的面积越大说明模型质量越高。 显然由于ROC/AUC与混淆矩阵的TP、FP、TN、FN四个值都有关所以AUC是一个综合的评价指标。AUC值越大也相当于TP和TN越大越好FP和FN越小越好。 所以在大多数数据挖掘比赛中要比较两个模型哪个会更优AUC指标要比Accuracy指标常用得多也比其它查全率R和查准率P要常用得多。 PR曲线和BEP值 PR曲线 PR曲线反应的是查准率P和查全率R之间的关系。以P为横坐标R作为纵坐标就是PR网线。 P TP/(TPFP)即模型预测的正类中被正确预测的百分比。 R FP/(FPFN)即正类中被正确预测的百分比。 对于同一个分类模型通过调整分类的阈值从大到小变化就可以得到不同的P-R值即可画出PR曲线。 显然我们要求P和R都应该是越高越好。如果一个模型的PR曲线被另一个模型的PR曲线所“包住”则后者的性能要优于前者。如下图所示模型A比模型C的性能要好模型B比模型C的性能也要好。 一般情况下查准率和查全率这两个指标不可能兼顾。要想查全率R高则模型需要输出更多的样本极端地返回全部样本则查全率为100%要想查准率P高则要求在模型认为的正类中尽量地选择少的概率高的样本。 BEP值 PR曲线中一般要求P和R都越高越好因此引入了一个指标BEP来表示模型的质量。 BEPBreak Even Point亦称盈亏平衡点、保本点。即当查准率查全率时的值。 在上图中模型A和模型B由于存在交叉不太容易判断哪个模型会更好。如果使用BEP来判断可知模型A的性能要优于模型B的性能。 显然由于PR /BEP与混淆矩阵的TP、FP、FN三个值都有关与TN无关所以BEP并不是一个综合的评价指标。 但是即使是正样本非常少的情况下PR表现的效果也比较好。也就是说在正负样本不平衡的情况下PR曲线比ROC曲线能更有效地反应分类器的好坏。 KS曲线和KS值 KS曲线 KS曲线Kolmogorov-Smirnov又叫洛伦兹曲线。以TPR和FPR分别分为纵轴以阈值作为横轴画出两条曲线。KS曲线反映的是在同一阈值下TPR和FPR的差值。 显然我们希望的是TPR越高越好而FPR越低越好即要求两条折线离得越开越好这说明模型对于正负样本区分度更好。 可以知道KS曲线和ROC曲线一样描述的都是TPR和FPR的关系只是横坐标的取法不一样。 KS值 考虑到量化所以将TPR和FPR折线的最远距离作为KS值即KSmax(TPR-FPR)作为模型的分区度。 K-S值越大表示评分模型能够将“好客户”、“坏客户”区分开来的程度越大。 一般认为 1  当KS0.2时模型无鉴别能力 2  在0.2~0.4之间模型勉强接受需要考虑优化 3  在0.4~0.5之间模型有区别能力 4  在0.5~0.6之间模型有较好的区别能力 5  在0.6~0.7之间模型有非常好的区别能力 6  当KS0.75时要检验模型是否过拟合 由于KS值主要是体现模型中差异的最大的一个分段因此适合于找阈值。像信用评分卡中就比较适合使用KS值来评估寻找出最大的区分度阈值。 曲线对比 一般来说ROC曲线会更稳定在正负样本足够样本均衡的情况下ROC曲线会比较稳定能够反映模型的整体质量。当样本不平衡时特别是正样本极少时ROC曲线并不准确。 在样本不均衡时特别是正样本数远小于负样本数时采用PR曲线会更合适。 而KS曲线只是反映出哪个分段的区分度是最大的而不能反映出总体的效果。所以KS曲线往往只用在寻找区分的最佳阈值比如信用评分卡中的审批阈值。 一般情况下最好能够综合考虑上述的三种曲线以及三个指标这样对模型有一个全面的质量评估。
http://www.pierceye.com/news/650284/

相关文章:

  • 福州建设招聘信息网站东莞房价将暴跌
  • 外包做网站的要求怎么写网站建设调查分析
  • 北京网站建设公司哪个最好鲜花网页设计模板
  • 汕头网站制作方法江苏网站设计公司
  • 免费1级做看网站上海策朋网站设计公司
  • 自贡做网站的公司wordpress网站加密码
  • 长春建设网站公司哪家好学校网站建设实施方案
  • 邯郸网站优化怎么用建设通网站会员共享密码
  • 怎么使自己做的网站有音乐简易 建站
  • 如何做免费网站制作郑州网站建设搜索优化
  • 北京网站制作17页谈谈对seo的理解
  • 西安专业建网站网站可信度必须做吗
  • 做神马网站如何做网站的推广
  • 如何提高网站排名的方法建设一个商业网站费用
  • 电商网站平台有哪些做自己的第一个网站
  • 源码资源下载站百度指数 多少流量 网站名
  • 合肥比较好的网站建设公司青阳网站建设
  • 上海地产网站建设甘肃建设厅网站二级建造师报名时间
  • 扬州网站建设推广泊头网站建设甘肃
  • 什么行业要做网站建设推广这些水墨网站设计欣赏
  • 渠道网站wap百度
  • 在网站上如何做天气预报栏wordpress 分类列表
  • 做网站需要投资多少钱做网站的销售团队
  • 苏州哪个公司做门户网站seo优化方案报价
  • 电力建设官方网站做网站送优化
  • 门户网站建设模式包括网站群和中企动力企业邮箱登陆首页
  • 做调查网站的问卷哪个给的钱高wordpress邮箱注册功能
  • 上海php网站开发基于php网站建设
  • 大丰专业做网站做旅游网站当地人服务赚钱吗
  • 长沙网站制作公司推荐seo关键词排名优化