当前位置: 首页 > news >正文

莱芜找工作 招聘附近seo整站优化新站快速排名

莱芜找工作 招聘附近,seo整站优化新站快速排名,珠海企业网站建设,贵阳网站开发谁家做的好Task1 赛题理解 Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。 赛题以金融风控中的个人信贷为背景#xff0c;要求选手根据贷款申请人的数据信息预测其是否有违约的可能#xff0c;以此判断是否通过此项…Task1 赛题理解 Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。 赛题以金融风控中的个人信贷为背景要求选手根据贷款申请人的数据信息预测其是否有违约的可能以此判断是否通过此项贷款这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景解决实际问题帮助竞赛新人进行自我练习、自我提高。 项目地址https://github.com/datawhalechina/team-learning-data-mining/tree/master/FinancialRiskControl 比赛地址https://tianchi.aliyun.com/competition/entrance/531830/introduction 1.1 学习目标 理解赛题数据和目标清楚评分体系。 完成相应报名下载数据和结果提交打卡可提交示例结果熟悉比赛流程 1.2 了解赛题 赛题概况数据概况预测指标分析赛题 1.2.1 赛题概况 比赛要求参赛选手根据给定的数据集建立模型预测金融风险。 赛题以预测金融风险为任务数据集报名后可见并可下载该数据来自某信贷平台的贷款记录总数据量超过120w包含47列变量信息其中15列为匿名变量。为了保证比赛的公平性将会从中抽取80万条作为训练集20万条作为测试集A20万条作为测试集B同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。 通过这道赛题来引导大家走进金融风控数据竞赛的世界主要针对于于竞赛新人进行自我练习、自我提高。 1.2.2 数据概况 一般而言对于数据在比赛界面都有对应的数据概况介绍匿名特征除外说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征就是未告知数据列所属的性质的特征列。 train.csv id 为贷款清单分配的唯一信用证标识loanAmnt 贷款金额term 贷款期限yearinterestRate 贷款利率installment 分期付款金额grade 贷款等级subGrade 贷款等级之子级employmentTitle 就业职称employmentLength 就业年限年homeOwnership 借款人在登记时提供的房屋所有权状况annualIncome 年收入verificationStatus 验证状态issueDate 贷款发放的月份purpose 借款人在贷款申请时的贷款用途类别postCode 借款人在贷款申请中提供的邮政编码的前3位数字regionCode 地区编码dti 债务收入比delinquency_2years 借款人过去2年信用档案中逾期30天以上的违约事件数ficoRangeLow 借款人在贷款发放时的fico所属的下限范围ficoRangeHigh 借款人在贷款发放时的fico所属的上限范围openAcc 借款人信用档案中未结信用额度的数量pubRec 贬损公共记录的数量pubRecBankruptcies 公开记录清除的数量revolBal 信贷周转余额合计revolUtil 循环额度利用率或借款人使用的相对于所有可用循环信贷的信贷金额totalAcc 借款人信用档案中当前的信用额度总数initialListStatus 贷款的初始列表状态applicationType 表明贷款是个人申请还是与两个共同借款人的联合申请earliesCreditLine 借款人最早报告的信用额度开立的月份title 借款人提供的贷款名称policyCode 公开可用的策略_代码1新产品不公开可用的策略_代码2n系列匿名特征 匿名特征n0-n14为一些贷款人行为计数特征的处理 1.2.3 预测指标 竞赛采用AUC作为评价指标。AUCArea Under Curve被定义为 ROC曲线 下与坐标轴围成的面积。 分类算法常见的评估指标如下 1、混淆矩阵Confuse Matrix 1若一个实例是正类并且被预测为正类即为真正类TP(True Positive )2若一个实例是正类但是被预测为负类即为假负类FN(False Negative )3若一个实例是负类但是被预测为正类即为假正类FP(False Positive )4若一个实例是负类并且被预测为负类即为真负类TN(True Negative ) 2、准确率Accuracy 准确率是常用的一个评价指标但是不适合样本不均衡的情况。 A c c u r a c y T P T N T P T N F P F N Accuracy \frac{TP TN}{TP TN FP FN} AccuracyTPTNFPFNTPTN​ 3、精确率Precision 又称查准率正确预测为正样本TP占预测为正样本(TPFP)的百分比。 P r e c i s i o n T P T P F P Precision \frac{TP}{TP FP} PrecisionTPFPTP​ 4、召回率Recall 又称为查全率正确预测为正样本TP占正样本(TPFN)的百分比。 R e c a l l T P T P F N Recall \frac{TP}{TP FN} RecallTPFNTP​ 5、F1 Score 精确率和召回率是相互影响的精确率升高则召回率下降召回率升高则精确率下降如果需要兼顾二者就需要精确率、召回率的结合F1 Score。 F 1 − S c o r e 2 1 P r e c i s i o n 1 R e c a l l F1-Score \frac{2}{\frac{1}{Precision} \frac{1}{Recall}} F1−ScorePrecision1​Recall1​2​ 6、P-R曲线Precision-Recall Curve P-R曲线是描述精确率和召回率变化的曲线 7、ROCReceiver Operating Characteristic ROC空间将假正例率FPR定义为 X 轴真正例率TPR定义为 Y 轴。 TPR在所有实际为正例的样本中被正确地判断为正例之比率。 T P R T P T P F N TPR \frac{TP}{TP FN} TPRTPFNTP​ FPR在所有实际为负例的样本中被错误地判断为正例之比率。 F P R F P F P T N FPR \frac{FP}{FP TN} FPRFPTNFP​ 8、AUC(Area Under Curve) AUCArea Under Curve被定义为 ROC曲线 下与坐标轴围成的面积显然这个面积的数值不会大于1。又由于ROC曲线一般都处于yx这条直线的上方所以AUC的取值范围在0.5和1之间。AUC越接近1.0检测方法真实性越高;等于0.5时则真实性最低无应用价值。 对于金融风控预测类常见的评估指标如下: 1、KS(Kolmogorov-Smirnov) KS统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中KS常用于评估模型区分度。区分度越大说明模型的风险排序能力ranking ability越强。 K-S曲线与ROC曲线类似不同在于 ROC曲线将真正例率和假正例率作为横纵轴K-S曲线将真正例率和假正例率都作为纵轴横轴则由选定的阈值来充当。 公式如下 K S m a x ( T P R − F P R ) KSmax(TPR-FPR) KSmax(TPR−FPR) KS不同代表的不同情况一般情况KS值越大模型的区分能力越强但是也不是越大模型效果就越好如果KS过大模型可能存在异常所以当KS值过高可能需要检查模型是否过拟合。以下为KS值对应的模型情况但此对应不是唯一的只代表大致趋势。 KS%好坏区分能力20以下不建议采用20-40较好41-50良好51-60很强61-75非常强75以上过于高疑似存在问题 2、ROC 3、AUC 1.2.4. 赛题流程 1.3 代码示例 本部分为对于数据读取和指标评价的示例。 1.3.1 数据读取pandas import pandas as pdtrain pd.read_csv(train.csv) testA pd.read_csv(testA.csv)print(Train data shape:,train.shape) print(TestA data shape:,testA.shape)Train data shape: (800000, 47) TestA data shape: (200000, 48)train.head()idloanAmntterminterestRateinstallmentgradesubGradeemploymentTitleemploymentLengthhomeOwnership...n5n6n7n8n9n10n11n12n13n140035000.0519.52917.97EE2320.02 years2...9.08.04.012.02.07.00.00.00.02.01118000.0518.49461.90DD2219843.05 years0...NaNNaNNaNNaNNaN13.0NaNNaNNaNNaN2212000.0516.99298.17DD331698.08 years0...0.021.04.05.03.011.00.00.00.04.03311000.037.26340.96AA446854.010 years1...16.04.07.021.06.09.00.00.00.01.0443000.0312.99101.07CC254.0NaN1...4.09.010.015.07.012.00.00.00.04.0 5 rows × 47 columns 1.3.2 分类指标评价计算示例 ## 混淆矩阵 import numpy as np from sklearn.metrics import confusion_matrix y_pred [0, 1, 0, 1] y_true [0, 1, 1, 0] print(混淆矩阵:\n,confusion_matrix(y_true, y_pred))混淆矩阵:[[1 1][1 1]]## accuracy from sklearn.metrics import accuracy_score y_pred [0, 1, 0, 1] y_true [0, 1, 1, 0] print(ACC:,accuracy_score(y_true, y_pred))ACC: 0.5## Precision,Recall,F1-score from sklearn import metrics y_pred [0, 1, 0, 1] y_true [0, 1, 1, 0] print(Precision,metrics.precision_score(y_true, y_pred)) print(Recall,metrics.recall_score(y_true, y_pred)) print(F1-score:,metrics.f1_score(y_true, y_pred))Precision 0.5 Recall 0.5 F1-score: 0.5## P-R曲线 import matplotlib.pyplot as plt from sklearn.metrics import precision_recall_curve y_pred [0, 1, 1, 0, 1, 1, 0, 1, 1, 1] y_true [0, 1, 1, 0, 1, 0, 1, 1, 0, 1] precision, recall, thresholds precision_recall_curve(y_true, y_pred) plt.plot(precision, recall)[matplotlib.lines.Line2D at 0x2170d0d6108]## ROC曲线 from sklearn.metrics import roc_curve y_pred [0, 1, 1, 0, 1, 1, 0, 1, 1, 1] y_true [0, 1, 1, 0, 1, 0, 1, 1, 0, 1] FPR,TPR,thresholdsroc_curve(y_true, y_pred) plt.title(ROC) plt.plot(FPR, TPR,b) plt.plot([0,1],[0,1],r--) plt.ylabel(TPR) plt.xlabel(FPR)Text(0.5, 0, FPR)## AUC import numpy as np from sklearn.metrics import roc_auc_score y_true np.array([0, 0, 1, 1]) y_scores np.array([0.1, 0.4, 0.35, 0.8]) print(AUC socre:,roc_auc_score(y_true, y_scores))AUC socre: 0.75## KS值 在实际操作时往往使用ROC曲线配合求出KS值 from sklearn.metrics import roc_curve y_pred [0, 1, 1, 0, 1, 1, 0, 1, 1, 1] y_true [0, 1, 1, 0, 1, 0, 1, 1, 1, 1] FPR,TPR,thresholdsroc_curve(y_true, y_pred) KSabs(FPR-TPR).max() print(KS值,KS)KS值 0.52380952380952371.4 经验总结 赛题理解是开始比赛的第一步赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握对于后期的特征工程构建和模型选择都尤为重要。 在开始比赛之前要对赛题进行充分的了解。比赛什么时候开始什么时候结束什么时候换B榜数据。和该比赛有没有类似的比赛可以参考借鉴。线上提交结果的次数往往是有限的提前了解每日可以提交的次数。比赛使用的是什么评价指标可以选择相同的评价指标作为线下验证的方式。 1.5 拓展知识——评分卡 评分卡是一张拥有分数刻度会让相应阈值的表。信用评分卡是用于用户信用的一张刻度表。以下代码是一个非标准评分卡的代码流程用于刻画用户的信用评分。评分卡是金融风控中常用的一种对于用户信用进行刻画的手段哦 #评分卡 不是标准评分卡 def Score(prob,P0600,PDO20,badrateNone,goodrateNone):P0 P0PDO PDOtheta0 badrate/goodrateB PDO/np.log(2)A P0 B*np.log(2*theta0)score A-B*np.log(prob/(1-prob))return score原文链接 https://github.com/datawhalechina/team-learning-data-mining/blob/master/FinancialRiskControl/Task1%20%E8%B5%9B%E9%A2%98%E7%90%86%E8%A7%A3.md
http://www.pierceye.com/news/702459/

相关文章:

  • c 做网站用什么框架长沙网络建设的网站
  • 专业的网站建设网络网站连接跳转怎么做
  • 南山网站设计方案安徽六安特产
  • 设计型网站案例深圳广告投放公司
  • 能源网站模板头条发布视频成功显示404
  • 郑州网站制作企业建设网站多长时间
  • 建站网站知乎wordpress面包屑
  • 用CMS做网站的好处网站流量消耗计算
  • asp 网站 模板网站建设的公司选择哪家好
  • 广州市越秀区建设局网站字体logo设计在线生成
  • 展示网站模版源码软件开发工具包sdk
  • 佛山网站建站网站程序免费下载
  • 课程设计报告 网站开发网络营销代运营外包公司
  • 手机html5网站模板网站怎么做查询功能
  • 有哪些做外贸的网站可做笔记的阅读网站
  • vs2010c 做网站无锡网站制作有哪些
  • 网站建设安全方案永康公司网站建设
  • 西安网站建设 早晨2022年网页游戏排行榜
  • 企业门户网站怎么做成都市双流区建设局官方网站
  • 山东站群网站建设邯郸网络运营中心地址在哪里
  • php程序员网站开发建设外贸平台运营
  • 学网站建设的好处舟山外贸建站公司
  • 建设电影会员网站首页三亚网红餐厅
  • 建网站维护需要多少钱网站怎么做单页
  • 做纱线的网站wordpress创建页面地址设置
  • 怎么做多个网站单点登录flash网站读条怎么做
  • 网站建设免费的做网站一个人可以吗
  • 网站建设公司价格差别西安网站建设winkuo
  • 途牛网站建设株洲网站优化
  • 网站聊天怎么做网站数据库连接错误