关于数据集

1.数据源

该数据集是一个合成版本,灵感源自Kaggle 上的原始信用风险数据集,并基于贷款审批财务风险数据添加了其他变量。SMOTENC 用于模拟新数据点以扩大实例。该数据集的结构包含分类特征和连续特征。

2.元数据

该数据集包含 45,000 条记录和 14 个变量,每个变量的描述如下:

字段描述类型
person_age患者的年龄漂浮
person_gender人员性别分类
person_education最高学历分类
person_income年收入漂浮
person_emp_exp多年工作经验整数
person_home_ownership房屋所有权状况(例如,租金、自有、抵押贷款)分类
loan_amnt申请贷款金额漂浮
loan_intent贷款目的分类
loan_int_rate贷款利率漂浮
loan_percent_income贷款金额占年收入的百分比漂浮
cb_person_cred_hist_length信用记录年限漂浮
credit_score该人的信用评分整数
previous_loan_defaults_on_file先前贷款违约的指标分类
loan_status(目标变量)贷款审批状态:1 = 批准;0 = 拒绝整数

3.数据使用

该数据集可用于多种用途:

  • 探索性数据分析 (EDA):分析关键特征、分布模式和关系以了解信用风险因素。
  • 分类loan_status:建立预测模型,对潜在申请人的变量(批准/不批准)进行分类。
  • 回归credit_score:开发回归模型,根据个人和贷款相关属性预测变量。

注意原始数据的数据问题,例如实例> 100岁作为年龄。

该数据集为理解金融风险因素和模拟贷款审批和信用评分的预测建模过程提供了丰富的基础。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?