关于数据集
概述
该数据集包含 6,000 条合成患者就诊记录,使用 Python 和 Faker 库生成。它旨在用于开源研究、分析测试和教育目的。
所有数据都是完全人工的——没有使用真实的患者信息。
数据特征
- 现实逻辑:年龄范围、诊断和费用都是特定于部门的。
- 异常值:约 2% 的记录包含极端计费值以模拟异常。
- 缺失数据:约 7% 的记录包含
null
选定字段中的值,以反映现实世界的数据质量问题。 - 保险多样性:付款人名称仅限于 25 家合成公司,并在整个数据集中重复使用。
- 门诊病人:没有入院和出院日期,只有就诊日期。
用法
- 测试医疗保健仪表板和分析工具
- 构建和评估数据质量、异常检测或账单欺诈模型
- 在医疗保健环境中实践数据整理和预处理
免责声明
这是合成数据,不代表真实患者或实际医疗服务提供者。可自由用于学术、研究和教育用途。

资源下载
下载价格9.9 元
VIP免费
立即购买