网站建设电销职责,wordpress 开启缩略图,做旅游攻略什么网站最好,郑州流动性管理前言#xff1a;
本篇文章上接《申请评分卡简介》#xff0c;有需要的童鞋可以参考下#xff1a;https://blog.csdn.net/qq_16633405/article/details/107744921
下面介绍下A卡的开发步骤。
开发过程
1、评分卡模型开发步骤#xff1a;
1、立项#xff1a;场景#…前言
本篇文章上接《申请评分卡简介》有需要的童鞋可以参考下https://blog.csdn.net/qq_16633405/article/details/107744921
下面介绍下A卡的开发步骤。
开发过程
1、评分卡模型开发步骤
1、立项场景营销、信贷领域、对象个人、账户、公司、目的程度决策、流失预警、反欺诈等等 2、数据的准备与预处理账户客户内部外部数据 3、建模的构建逻辑回归VS机器学习单一模型VS 集成模型 4、模型评估区分度预测性稳定性 5、验证是否有计算错误逻辑错误业务错误 6、部署从开发环境到生产环境、容量、并发度 7、监控性能是否减弱是否需要重新训练等
2、申请评分卡常用的模型
逻辑回归 优点简单稳定可解释技术成熟易于监测和部署 缺点准确度不高 决策树 优点对数据质量要求低易解释 缺点准确度不高 其他元模型 组合模型 优点准确度高不易过拟合 缺点不易解释部署困难计算量大
3、贷款申请环节的数据介绍和描述
申请评分卡常用的特征 1、个人信息 学历核查学历 性别 收入流水、社保、公积金来侧面查看 2、负债信息 在本金融机构或者其他金融机构负债情况 在房贷、信用卡领域应用较多 3、消费能力 商品购买纪录出境游奢侈品消费 4、历史信用记录 历史逾期行为 第三方接口查看 5、新兴数据 人际社交 网络足迹 出行 个人财务人际社交通过与老赖的关系来判断他的人品即还款意愿出行通过看这个人的出行交通工具判断这个人的经济能力还款能力 1、4可以看出还款意愿2、3可以看出还款能力。还款意愿*还款能力评分卡分数等级
4、A卡用到的字段介绍
字段名称member_idIDloan_amnt申请额度term产品期限int_rate利率emp_length工作期限home_ownership是否有自有住宅annual_inc年收入verification_status收入核验状态desc描述purpose贷款目的title贷款目的描述zip_code联系地址邮政编码addr_state联系地址所属州delinq_2yrs申贷日期前2年逾期次数inq_last_6mths申请日前6个月咨询次数mths_since_last_delinq上次逾期距今月份数mths_since_last_record上次登记公众记录距今的月份数open_acc征信局中记录的信用产品数pub_rec公众不良记录数total_acc正在使用的信用产品数pub_rec_bankruptcies公众破产记录数earliest_cr_line第一次借贷时间loan_status贷款状态—目标变量
5、非平衡样本问题的定义和解决方法
非平衡样本的定义 在分类问题中每种类别的出现概率未必均衡 例
信用风险: 正常用户远多于逾期/违约用户流失风险: 留存客户多于流失客户
非平衡样本的隐患
降低对少类样本的灵敏性
非平衡样本的解决方案 过采样对数据采集过多
优点: 简单对数据质量要求不高 注意总结下各个算法对数据的要求缺点: 过拟合
欠采样 对数据采集过少
优点: 简单对数据质量要求不高缺点: 丢失重要信息
SMOTE(合成少数过采样技术)
优点: 不易过拟合保留信息缺点: 不能对有缺失值和类别变量做处理
6、数据预处理
数据格式的处理原始数据带有一定的格式需要转换成正确的格式。 例如 利率
带%的百分比需要转化成浮点数
日期
Nov-17需要转化为python的时间
工作年限
“1 year”转化成0“10years”转化成11
文本类的数据的处理方式 主题提取NPL 优点提取准确、详细的信息对风险的评估非帝有效 缺点NPL的模型较为复杂且需要足够多的训练样本 编码 优点简单 简单缺点信息丢失很高 缺失值的处理 缺失在数据分析的工作是频繁出现的。 缺失的种类
完全随机缺失随机缺失完全非随机缺失
处理的方法
补缺平均值、或依据变量间的关系补充作为一种状态删除记录或变量
7、构建特征
常用的特征衍生
计数过去1年内申请贷款的总次数手机联系人数量、通话记录来推断这个人的一些信息如通话记录多联系人多则证明这个人搞业务的求和过去1年内的网店消费总额比例贷款申请额度与年收入的占比时间差第一次开户距今时长波动率过去3年内每份工作的时间的标准差
8、特征分箱是对每一个特征进行分箱
特征的分箱为什么要分箱 分箱的定义 将连续变量离散化将连续的变量分为多个离散的类别将特征分类别即收入1000-5000之间为一箱即一个类别 将多状态的离散变量合并成少状态尽可能的减小类别的数量 分箱的重要性
稳定性避免特征中无意义的波动对评分带来的波动如工资的浮动增减健壮性避免了极端值的影响
分箱的优势
可以将缺失作为独立的一个箱带入模型中将所有变量变换到相似的尺度上
分箱的限制
计算量大分箱后需要编码
总结
后续会详细的介绍各种分箱的方法对应的原理以及特征筛选对应的方法及原理等相关内容。争取把数据挖掘流程中常用的方法做一个统一的整理。 对应的代码详见 https://github.com/645187919/financial_score_card