关于数据集

该数据集提供了一个合成的健康保险索赔集合,专门用于开发和测试欺诈检测模型。该数据集在保护隐私的同时,模拟了真实场景,包含 1,000 家不同医院实体的 20,000 条个人索赔记录,并包含 30 个综合特征。

关于此文件建议编辑

目的:
该数据集的主要目标是为数据科学家、机器学习工程师和研究人员提供实用资源,以研究以下内容:

构建和评估欺诈检测算法(例如,逻辑回归、XGBoost、孤立森林)。

实践与医疗保健索赔相关的特征工程技术。

理解并解决欺诈检测任务中的类别不平衡问题。

在受控但现实的数据集上对模型性能进行基准测试。

字段描述
Patient_ID患者ID
Policy_Number保单号
Claim_ID索赔ID
Claim_Date索赔日期
Service_Date服务日期
Policy_Expiration_Date保单到期日
Claim_Amount索赔金额
Patient_Age患者年龄
Patient_Gender患者性别
Patient_City患者所在城市
Patient_State患者所在州
Hospital_ID医院ID
Provider_Type服务提供方类型
Provider_Specialty提供方专业
Provider_City提供方所在城市
Provider_State提供方所在州
Diagnosis_Code诊断代码
Procedure_Code操作/手术代码
Number_of_Procedures操作次数
Admission_Type入院类型
Discharge_Type出院类型
Length_of_Stay_Days住院天数
Service_Type服务类型
Deductible_Amount自付扣除额
CoPay_Amount共付额
Number_of_Previous_Claims_Patient患者历史索赔次数
Number_of_Previous_Claims_Provider提供方历史索赔次数
Provider_Patient_Distance_Miles医患距离(英里)
Claim_Submitted_Late延迟提交索赔
Is_Fraudulent是否为欺诈
资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?