关于数据集

概述

该数据集包含 6,000 条合成患者就诊记录,使用 Python 和 Faker 库生成。它旨在用于开源研究、分析测试和教育目的。

所有数据都是完全人工的——没有使用真实的患者信息。

数据特征

  • 现实逻辑:年龄范围、诊断和费用都是特定于部门的。
  • 异常值:约 2% 的记录包含极端计费值以模拟异常。
  • 缺失数据:约 7% 的记录包含null选定字段中的值,以反映现实世界的数据质量问题。
  • 保险多样性:付款人名称仅限于 25 家合成公司,并在整个数据集中重复使用。
  • 门诊病人:没有入院和出院日期,只有就诊日期。

用法

  • 测试医疗保健仪表板和分析工具
  • 构建和评估数据质量、异常检测或账单欺诈模型
  • 在医疗保健环境中实践数据整理和预处理

免责声明

这是合成数据,不代表真实患者或实际医疗服务提供者。可自由用于学术、研究和教育用途。

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?