行业信息网站,企业qq邮箱登录入口,网站建设朋友圈怎么写,自己制作wordpress主题使用决策树对金融贷款数据进行分析
在本篇博客中#xff0c;我们将通过使用 Python、Pandas 和多种机器学习技术#xff0c;对一组贷款数据进行全面分析。通过详细的步骤展示#xff0c;你将学会如何进行数据预处理、可视化分析以及构建预测模型。
第一步#xff1a;导入…使用决策树对金融贷款数据进行分析
在本篇博客中我们将通过使用 Python、Pandas 和多种机器学习技术对一组贷款数据进行全面分析。通过详细的步骤展示你将学会如何进行数据预处理、可视化分析以及构建预测模型。
第一步导入数据和必要的库
首先我们需要导入数据并加载所需的库
import pandas as pd
data pd.read_csv(new_file.csv).sample(n20000, random_state42)
第二步数据预处理
在数据预处理中我们主要解决数据类型问题、处理缺失值以及删除无关特征
data.drop([id, url, desc, member_id], axis1, inplaceTrue)
可以通过指定 dtype 选项或者设置 low_memoryFalse 来解决此警告。 检查和处理缺失值和无限值
import numpy as np
inf_values data[data np.inf].values.any()
print(inf_values)data.fillna(data.mean(), inplaceTrue)
data.interpolate(methodlinear, inplaceTrue)第三步数据可视化
贷款金额分布
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize(10, 6))
sns.histplot(data[loan_amnt], bins30, kdeTrue, colorskyblue)
plt.title(贷款金额分布)
plt.xlabel(贷款金额)
plt.ylabel(频率)
plt.show() 信用等级分布
plt.figure(figsize(10, 6))
data[grade].value_counts().plot(kindbar, colorlightgreen)
plt.title(信用等级分布)
plt.xlabel(信用等级)
plt.ylabel(频率)
plt.show()按贷款状态划分的年收入分布
plt.figure(figsize(10, 6))
sns.boxplot(xloan_status, yannual_inc, datadata)
plt.title(按贷款状态划分的年收入分布)
plt.xlabel(贷款状态)
plt.ylabel(年收入)
plt.show()第四步特征工程
处理日期特征
data[earliest_cr_line] pd.to_datetime(data[earliest_cr_line])
data[issue_d] pd.to_datetime(data[issue_d])
data[credit_hist] (data[issue_d] - data[earliest_cr_line]).dt.days
data.drop([earliest_cr_line, issue_d], axis1, inplaceTrue)编码类别型特征
from sklearn.preprocessing import LabelEncoder
cat_cols data.select_dtypes(include[object]).columnsle LabelEncoder()
for col in cat_cols:data[col] le.fit_transform(data[col])第五步相关性分析
最后我们通过热图来展示特征之间的相关性
plt.figure(figsize(12, 8))
corr data.corr()
sns.heatmap(corr, cmapcoolwarm, annotFalse)
plt.title(相关性热图)
plt.show()第六步划分训练集和测试集
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScalerX data.drop(loan_status, axis1)
y data[loan_status]scaler StandardScaler()
X_scaled scaler.fit_transform(X)X_train, X_test, y_train, y_test train_test_split(X_scaled, y, test_size0.2, random_state42)
第七步构建和评估模型
我们使用决策树分类器来进行预测并评估模型的性能
from sklearn.metrics import accuracy_score, classification_report
from sklearn.tree import DecisionTreeClassifierdt_model DecisionTreeClassifier(random_state42)
dt_model.fit(X_train, y_train)y_pred dt_model.predict(X_test)accuracy accuracy_score(y_test, y_pred)
print(准确率:, accuracy)
print(分类报告:\n, classification_report(y_test, y_pred))通过这些步骤我们成功地对贷款数据进行了分析和建模希望这篇教程能够帮助你更好地理解数据科学的工作流程。
**如有遇到问题可以找小编沟通交流哦。另外小编帮忙辅导大课作业学生毕设等。不限于MapReduce MySQL, pythonjava大数据模型训练等。 hadoop hdfs yarn spark Django flask flink kafka flume datax sqoop seatunnel echart可视化 机器学习等 **