关于数据集

多语言合成 EHR 数据集包

三个大型、高质量、完全合成的电子健康记录 (EHR) 数据集:

  • 每个数据集有 200,000 名独特患者
  • 语言:英语(英国)、西班牙语(墨西哥)、俄语(俄罗斯和独联体)
  • 针对每种语言的地区合适的医院和领域
  • 所有值和列都已完全本地化

适合:

  • 医疗保健领域的 AI/ML 模型开发和测试
  • 分析、数据科学和可视化
  • 原型设计、黑客马拉松、教育项目

每个数据集:

  • 24 个领域(人口统计、诊断、实验室、医院、访问等)
  • 100% 合成(无真实患者数据)
  • CSV 格式 — 随时可用

关于此文件建议编辑

概述:
该数据集呈现了统一的多语言合成电子健康记录 (EHR) 集合,旨在用于研究、机器学习、数据科学和跨语言基准测试。每个文件代表来自三个不同国家/地区和语言的大型数据集的 10% 演示样本:

英语(英国)

西班牙语(墨西哥)

俄语(俄罗斯/独联体)

每个文件包含 20,000 条合成患者记录,具有 26 列的完全标准化结构,可直接比较、分析或连接以进行国际或跨语言研究。

数据集文件
demo_english.csv — 20,000 行,英语,合成英国患者

demo_spanish.csv — 20,000 行,西班牙语,合成墨西哥患者

demo_russian.csv — 20,000 行,俄语,合成俄罗斯/独联体患者

所有文件都使用相同的列名(英文)和顺序。

数据来源和方法
所有记录都是综合的:生成和协调以保护隐私,支持开放数据共享,并实现现实研究而不会对真实患者造成风险。

原始数据模拟了英国、墨西哥和俄罗斯/独联体。

列和编码协调一致,以实现跨语言可用性。

该演示占完整数据集的 10%(请参阅项目以了解潜在的完整版本)。

使用思路
跨语言机器学习实验

基准数据整理和协调工具

探索性数据分析与可视化实践

医疗数据科学的教育演示

测试多国医疗保健分析管道

资源下载
下载价格9.9
VIP免费
分享海报
显示验证码
没有账号?注册  忘记密码?