关于数据集
1.数据源
该数据集是一个合成版本,灵感源自Kaggle 上的原始信用风险数据集,并基于贷款审批财务风险数据添加了其他变量。SMOTENC 用于模拟新数据点以扩大实例。该数据集的结构包含分类特征和连续特征。
2.元数据
该数据集包含 45,000 条记录和 14 个变量,每个变量的描述如下:
字段 | 描述 | 类型 |
---|---|---|
person_age | 患者的年龄 | 漂浮 |
person_gender | 人员性别 | 分类 |
person_education | 最高学历 | 分类 |
person_income | 年收入 | 漂浮 |
person_emp_exp | 多年工作经验 | 整数 |
person_home_ownership | 房屋所有权状况(例如,租金、自有、抵押贷款) | 分类 |
loan_amnt | 申请贷款金额 | 漂浮 |
loan_intent | 贷款目的 | 分类 |
loan_int_rate | 贷款利率 | 漂浮 |
loan_percent_income | 贷款金额占年收入的百分比 | 漂浮 |
cb_person_cred_hist_length | 信用记录年限 | 漂浮 |
credit_score | 该人的信用评分 | 整数 |
previous_loan_defaults_on_file | 先前贷款违约的指标 | 分类 |
loan_status (目标变量) | 贷款审批状态:1 = 批准;0 = 拒绝 | 整数 |
3.数据使用
该数据集可用于多种用途:
- 探索性数据分析 (EDA):分析关键特征、分布模式和关系以了解信用风险因素。
- 分类
loan_status
:建立预测模型,对潜在申请人的变量(批准/不批准)进行分类。 - 回归
credit_score
:开发回归模型,根据个人和贷款相关属性预测变量。
注意原始数据的数据问题,例如实例> 100岁作为年龄。
该数据集为理解金融风险因素和模拟贷款审批和信用评分的预测建模过程提供了丰富的基础。

资源下载
下载价格9.9 元
VIP免费
立即购买