当前位置：首页 > news >正文

网站建设电销职责wordpress 开启缩略图

news 2025/11/22 7:39:58

网站建设电销职责,wordpress 开启缩略图,做旅游攻略什么网站最好,郑州流动性管理前言#xff1a; 本篇文章上接《申请评分卡简介》#xff0c;有需要的童鞋可以参考下#xff1a;https://blog.csdn.net/qq_16633405/article/details/107744921 下面介绍下A卡的开发步骤。开发过程 1、评分卡模型开发步骤#xff1a; 1、立项#xff1a;场景#…前言本篇文章上接《申请评分卡简介》有需要的童鞋可以参考下https://blog.csdn.net/qq_16633405/article/details/107744921 下面介绍下A卡的开发步骤。开发过程 1、评分卡模型开发步骤 1、立项场景营销、信贷领域、对象个人、账户、公司、目的程度决策、流失预警、反欺诈等等 2、数据的准备与预处理账户客户内部外部数据 3、建模的构建逻辑回归VS机器学习单一模型VS 集成模型 4、模型评估区分度预测性稳定性 5、验证是否有计算错误逻辑错误业务错误 6、部署从开发环境到生产环境、容量、并发度 7、监控性能是否减弱是否需要重新训练等 2、申请评分卡常用的模型逻辑回归优点简单稳定可解释技术成熟易于监测和部署缺点准确度不高决策树优点对数据质量要求低易解释缺点准确度不高其他元模型组合模型优点准确度高不易过拟合缺点不易解释部署困难计算量大 3、贷款申请环节的数据介绍和描述申请评分卡常用的特征 1、个人信息学历核查学历性别收入流水、社保、公积金来侧面查看 2、负债信息在本金融机构或者其他金融机构负债情况在房贷、信用卡领域应用较多 3、消费能力商品购买纪录出境游奢侈品消费 4、历史信用记录历史逾期行为第三方接口查看 5、新兴数据人际社交网络足迹出行个人财务人际社交通过与老赖的关系来判断他的人品即还款意愿出行通过看这个人的出行交通工具判断这个人的经济能力还款能力 1、4可以看出还款意愿2、3可以看出还款能力。还款意愿*还款能力评分卡分数等级 4、A卡用到的字段介绍字段名称member_idIDloan_amnt申请额度term产品期限int_rate利率emp_length工作期限home_ownership是否有自有住宅annual_inc年收入verification_status收入核验状态desc描述purpose贷款目的title贷款目的描述zip_code联系地址邮政编码addr_state联系地址所属州delinq_2yrs申贷日期前2年逾期次数inq_last_6mths申请日前6个月咨询次数mths_since_last_delinq上次逾期距今月份数mths_since_last_record上次登记公众记录距今的月份数open_acc征信局中记录的信用产品数pub_rec公众不良记录数total_acc正在使用的信用产品数pub_rec_bankruptcies公众破产记录数earliest_cr_line第一次借贷时间loan_status贷款状态—目标变量 5、非平衡样本问题的定义和解决方法非平衡样本的定义在分类问题中每种类别的出现概率未必均衡例信用风险: 正常用户远多于逾期/违约用户流失风险: 留存客户多于流失客户非平衡样本的隐患降低对少类样本的灵敏性非平衡样本的解决方案过采样对数据采集过多优点: 简单对数据质量要求不高注意总结下各个算法对数据的要求缺点: 过拟合欠采样对数据采集过少优点: 简单对数据质量要求不高缺点: 丢失重要信息 SMOTE(合成少数过采样技术) 优点: 不易过拟合保留信息缺点: 不能对有缺失值和类别变量做处理 6、数据预处理数据格式的处理原始数据带有一定的格式需要转换成正确的格式。例如利率带%的百分比需要转化成浮点数日期 Nov-17需要转化为python的时间工作年限 “1 year”转化成0“10years”转化成11 文本类的数据的处理方式主题提取NPL 优点提取准确、详细的信息对风险的评估非帝有效缺点NPL的模型较为复杂且需要足够多的训练样本编码优点简单简单缺点信息丢失很高缺失值的处理缺失在数据分析的工作是频繁出现的。缺失的种类完全随机缺失随机缺失完全非随机缺失处理的方法补缺平均值、或依据变量间的关系补充作为一种状态删除记录或变量 7、构建特征常用的特征衍生计数过去1年内申请贷款的总次数手机联系人数量、通话记录来推断这个人的一些信息如通话记录多联系人多则证明这个人搞业务的求和过去1年内的网店消费总额比例贷款申请额度与年收入的占比时间差第一次开户距今时长波动率过去3年内每份工作的时间的标准差 8、特征分箱是对每一个特征进行分箱特征的分箱为什么要分箱分箱的定义将连续变量离散化将连续的变量分为多个离散的类别将特征分类别即收入1000-5000之间为一箱即一个类别将多状态的离散变量合并成少状态尽可能的减小类别的数量分箱的重要性稳定性避免特征中无意义的波动对评分带来的波动如工资的浮动增减健壮性避免了极端值的影响分箱的优势可以将缺失作为独立的一个箱带入模型中将所有变量变换到相似的尺度上分箱的限制计算量大分箱后需要编码总结后续会详细的介绍各种分箱的方法对应的原理以及特征筛选对应的方法及原理等相关内容。争取把数据挖掘流程中常用的方法做一个统一的整理。对应的代码详见 https://github.com/645187919/financial_score_card

查看全文

http://www.pierceye.com/news/744672/