关于数据集
该数据集提供了一个合成的健康保险索赔集合,专门用于开发和测试欺诈检测模型。该数据集在保护隐私的同时,模拟了真实场景,包含 1,000 家不同医院实体的 20,000 条个人索赔记录,并包含 30 个综合特征。
关于此文件建议编辑
目的:
该数据集的主要目标是为数据科学家、机器学习工程师和研究人员提供实用资源,以研究以下内容:
构建和评估欺诈检测算法(例如,逻辑回归、XGBoost、孤立森林)。
实践与医疗保健索赔相关的特征工程技术。
理解并解决欺诈检测任务中的类别不平衡问题。
在受控但现实的数据集上对模型性能进行基准测试。
字段 | 描述 |
---|---|
Patient_ID | 患者ID |
Policy_Number | 保单号 |
Claim_ID | 索赔ID |
Claim_Date | 索赔日期 |
Service_Date | 服务日期 |
Policy_Expiration_Date | 保单到期日 |
Claim_Amount | 索赔金额 |
Patient_Age | 患者年龄 |
Patient_Gender | 患者性别 |
Patient_City | 患者所在城市 |
Patient_State | 患者所在州 |
Hospital_ID | 医院ID |
Provider_Type | 服务提供方类型 |
Provider_Specialty | 提供方专业 |
Provider_City | 提供方所在城市 |
Provider_State | 提供方所在州 |
Diagnosis_Code | 诊断代码 |
Procedure_Code | 操作/手术代码 |
Number_of_Procedures | 操作次数 |
Admission_Type | 入院类型 |
Discharge_Type | 出院类型 |
Length_of_Stay_Days | 住院天数 |
Service_Type | 服务类型 |
Deductible_Amount | 自付扣除额 |
CoPay_Amount | 共付额 |
Number_of_Previous_Claims_Patient | 患者历史索赔次数 |
Number_of_Previous_Claims_Provider | 提供方历史索赔次数 |
Provider_Patient_Distance_Miles | 医患距离(英里) |
Claim_Submitted_Late | 延迟提交索赔 |
Is_Fraudulent | 是否为欺诈 |

资源下载
下载价格9.9 元
VIP免费
立即购买